分享下爬山虎采集器的自动识别算法动态图

2017-12-29 21:26:29 +08:00
 oness
之前的主题都是文字性描述,可能不够直观。之前:https://www.v2ex.com/t/411413
估计很多人没看明白,或者看不下去(体验不好。。。

刚做了几个动态图,用来演示爬山虎采集器的自动识别算法。

1.东方财富网的采集效果


2.新浪新闻的采集效果


3.v2 的效果


测试的都是列表页,爬山虎也能够深入到内容页去抓取(通过抓取链接的深入),也是非常简单。

目前来说,列表数据和分页的识别率都还可以。
相对于其他采集软件来说,优势就是稍微简单、方便点。

爬山虎采集器网站: http://www.51pashanhu.com/
(网站目前来说,做的很烂,准备优化一下 )
4946 次点击
所在节点    分享创造
26 条回复
muyan
2018-01-05 09:39:52 +08:00
老铁,软件免费不
oness
2018-01-05 11:03:49 +08:00
@muyan 有免费版本
buyaoshuohua
2018-01-05 17:20:16 +08:00
有类似的软件了 八爪鱼 火车头都可以吧
oness
2018-01-05 19:11:19 +08:00
@buyaoshuohua 嗯,相比其他采集器软件,爬山虎更加简单、易用些。上手感受下就知道差异了
fange01
2018-01-05 23:22:44 +08:00
能发布到哪些网站?
oness
2018-01-07 19:48:06 +08:00
@fange01 主流 cms, dz,wordpress,dede 等待

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/418729

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX