Python 有没有好的 html 格式库

2019-01-03 11:31:14 +08:00
 lixuda

网上搜了一圈没有找到合适,做下伸手党。 爬虫得到的是 html 内容,带大量各类标签及 css,id 等 attr 内容, 想通过一个库之间输出干净的 html 只保留简单的 p br img 等标签,谢谢大家

3639 次点击
所在节点    Python
14 条回复
fan2006
2019-01-03 11:38:05 +08:00
用过 lxml 和 beautifulsoup4.
boom7
2019-01-03 11:38:38 +08:00
lxml.html.clean 试一下?
JackeyGao
2019-01-03 11:49:02 +08:00
不确定这个可以不可以, 试试看吧。 https://github.com/kennethreitz/requests-html
lihongjie0209
2019-01-03 11:51:24 +08:00
不就是 dom 树的 变量
lihongjie0209
2019-01-03 11:53:55 +08:00
变量 -> 遍历
ivechan
2019-01-03 12:30:35 +08:00
poorcai
2019-01-03 12:34:52 +08:00
搭车问 小程序 中有没有好用的?搜了下只有 wxParse ?而且得不到有用的信息
villivateur
2019-01-03 12:56:27 +08:00
Beautiful Soup
tabris17
2019-01-03 12:59:41 +08:00
就说一个,pyquery 有坑,其他如何不清楚
Huelse
2019-01-03 13:05:48 +08:00
beautifulsoup4 容易点
huluhulu
2019-01-03 13:09:32 +08:00
Beautiful Soup 很好用
WeaponXu
2019-01-03 16:57:07 +08:00
bs4 啊
heiybb
2019-01-03 17:05:04 +08:00
居然没人说 pyquery 嘛
Olorin
2019-01-03 18:09:38 +08:00
beautifulsoup4

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/523397

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX