大家都是怎么解析抓取到的 HTML 文件的？

2014-09-08 18:38:30 +08:00

mthli

有的网站没有API接口，如果要想抓取数据的话就必须解析HTML自己提取内容了。

一般来说我会直接遍历，找到特定的标签（或者字符），然后再自己提取内容。如果标签比较多的话就觉得有点烦，毕竟写起来自己也麻烦。所以想问一下有没有什么更好的方法（或者是那种脑洞大开的方法）？

5002 次点击

所在节点

46 条回复

imn1

2014-09-09 11:58:03 +08:00

网页数量很多的话（过万），建议还是尽可能用正则吧

mthli

2014-09-09 12:32:07 +08:00

@imn1 没那么多啦，最多也就10来页。

jsq2627

2014-09-09 12:49:44 +08:00

正则高效，xquery 容易

jedihy

2014-09-09 14:30:42 +08:00

最好正则，其它库会根据html构造一棵dom树，效率极低。这些厚重的库并不是用来做这种简单的html抓取

mthli

2014-09-09 15:39:33 +08:00

@jedihy 嗯，了解。

mucid

2014-09-10 11:00:17 +08:00

xpath，不要用正则

第 3 页／共 3 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.