一步采集(OneStepSpider) - 网页列表数据的自动识别尝试

2017-06-17 12:12:16 +08:00
 oness

大家好! 我是"一步采集"的作者。 地址: http://onestepspider.51pashanhu.com/

一步采集通过分析网页 HTML 结构,尝试自动识别出页面中的列表数据,比如 V2EX 列表的主题数据,包括字段标题、时间、作者、阅读量等等。 还有常见的表格类数据。

并且,程序内还有一套“分页识别算法”,自动分析出下一页,以实现采集分页数据的功能。

优点:相对于其他同类产品,一步采集的速度是有非常大的优势,采集一个常规网页,基本都是在秒级别。

缺点和不足: 对于 Ajax 加载的网页还不支持,详情页的识别还在开发中。

这个产品目前还是一个 Demo 阶段,欢迎大家提供宝贵意见! 我们持续改进!

3909 次点击
所在节点    分享创造
7 条回复
oness
2017-06-17 12:23:40 +08:00
核心点就 2 个:自动识别列表算法、自动识别分页算法。
下一步的自动采集内容页,涉及正文提取算法。 这个目前有很成熟的算法,很好搞定。
whung
2017-06-17 15:07:27 +08:00
收藏下支持一下你
mingyun
2017-06-17 23:12:29 +08:00
试了下,速度挺快的,都不用写代码了
watermelon92
2017-06-17 23:39:31 +08:00
实测速度的确快啊,怎么做到的
oness
2017-06-18 09:48:24 +08:00
@whung
感谢!
@mingyun
@watermelon92
哈哈,相比其他一些云采集是快很多。
不过,可改进的地方还很多
xiaoqiang0704
2017-06-18 16:31:30 +08:00
确实很方便。可以进一步分享实现的方式吗
jayli517
2018-02-06 05:54:41 +08:00
找东西的时候发现的,已经 200 多天了,不知道还更新不更新了,爬山虎采集器倒是评测感觉挺好的

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/369074

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX