提取网页数据需要,请问有什么 HTML 解析器好用?

2020-08-02 11:38:42 +08:00
 LUREN

在 Linux 服务器上,需要从几千个 HTML 文件里提取一些指定内容,请问有哪些好用的 HTML 解析器可以使用?

目前试过用 awk,但 HTML 标签太多,内容所在的地方也不相同,匹配起来很复杂。

2001 次点击
所在节点    问与答
9 条回复
Jackeriss
2020-08-02 11:42:22 +08:00
beautifulsoup
ochatokori
2020-08-02 11:59:11 +08:00
可以的话用 python 吧,python 应该有不少 html 解析库
misaka19000
2020-08-02 12:21:10 +08:00
python -> xpath
ipadpro4k
2020-08-02 13:24:30 +08:00
各种 soup
daimiaopeng
2020-08-02 19:17:43 +08:00
bs4
csx163
2020-08-02 23:57:17 +08:00
这个深有感触,还是正则靠谱
shadeofgod
2020-08-03 00:39:51 +08:00
lxilu
2020-08-03 00:56:06 +08:00
C#平衡对
kiancyc
2020-11-06 17:35:13 +08:00

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/694981

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX