怎样识别出一个包含列表的页面里边哪一些是列表?

2015-08-25 15:58:04 +08:00
 lxrmido
这是个关于数据采集的问题,目标是传进一个地址自动从里边抓取出文章列表而不需要额外的配置或者书写额外的规则,请问有这方面的文章或者开源项目或者解决思路吗?
-
现在我的解决思路是:
1 、把页面解析为 DOM 树;
2 、递归判断每个节点是否存在相似的子树,存在则认为是列表。
-
然而在“相似”这一问题上,遇上了一些问题,起初,我是根据 XPATH 或者 CSSPATH 递归标记每棵树,譬如对于:
<div><div>TITLE<div><div></div><a></a></div>
可以标记为(div (div ((text )(div )))(a ))这样的玩意(栗子)
但是某些时候,列表中的某些项目可能存在一些干扰,譬如 strong 标签,譬如手滑出来的、不影响显示外观的多余标签
-
求教
1421 次点击
所在节点    问与答
1 条回复
ZHenJ
2015-08-25 16:38:45 +08:00
Beautiful Soup ?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/215879

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX