之前的主题都是文字性描述,可能不够直观。之前:
https://www.v2ex.com/t/411413估计很多人没看明白,或者看不下去(体验不好。。。
刚做了几个动态图,用来演示爬山虎采集器的自动识别算法。
1.东方财富网的采集效果
2.新浪新闻的采集效果
3.v2 的效果
测试的都是列表页,爬山虎也能够深入到内容页去抓取(通过抓取链接的深入),也是非常简单。
目前来说,列表数据和分页的识别率都还可以。
相对于其他采集软件来说,优势就是稍微简单、方便点。
爬山虎采集器网站: http://www.51pashanhu.com/
(网站目前来说,做的很烂,准备优化一下 )
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
https://www.v2ex.com/t/418729
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.