大家都是怎么解析抓取到的 HTML 文件的?

2014-09-08 18:38:30 +08:00
 mthli
有的网站没有API接口,如果要想抓取数据的话就必须解析HTML自己提取内容了。

一般来说我会直接遍历,找到特定的标签(或者字符),然后再自己提取内容。如果标签比较多的话就觉得有点烦,毕竟写起来自己也麻烦。所以想问一下有没有什么更好的方法(或者是那种脑洞大开的方法)?
4972 次点击
所在节点    问与答
46 条回复
imn1
2014-09-09 11:58:03 +08:00
网页数量很多的话(过万),建议还是尽可能用正则吧
mthli
2014-09-09 12:32:07 +08:00
@imn1 没那么多啦,最多也就10来页。
jsq2627
2014-09-09 12:49:44 +08:00
正则高效,xquery 容易
jedihy
2014-09-09 14:30:42 +08:00
最好正则,其它库会根据html构造一棵dom树,效率极低。这些厚重的库并不是用来做这种简单的html抓取
mthli
2014-09-09 15:39:33 +08:00
@jedihy 嗯,了解。
mucid
2014-09-10 11:00:17 +08:00
xpath,不要用正则

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/132332

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX