一个好用的爬虫应该有什么样的功能?有什么有趣的玩法?

2016-11-25 18:09:47 +08:00
 GrahamCloud

这两周,我们做了一个目前来看非常易用的云爬虫:

主页在这里, zaoshu.io

现在,我们提出了很多酷的设想,也在一步一步慢慢完善。 大家快来玩玩。 如果你也有酷的想法,愿意洗耳恭听。 期待可以一起合作。

25076 次点击
所在节点    推广
183 条回复
lidream2016
2017-02-09 17:55:46 +08:00
GrahamCloud
2017-02-09 20:13:31 +08:00
@lidream2016 现在应该好了!
zhucha
2017-02-10 11:30:50 +08:00
假设一个页面有两列,在左键点击第一列的第一个项目时,只会自动添加第一列的其它行的相关内容,然后在 Excel 里面生成第一列。实际第二列的内容和第一列一样,但必须要再点第二列的第一个项目,然后变成 Excel 的第 N 列。
这样查看起来非常不方便,有没有办法智能识别,或者有什么办法让第 N 列自动移到第一列的下面呢?
GrahamCloud
2017-02-10 12:15:58 +08:00
@zhucha 好问题,求加微信! Zaoshuio
x86
2017-02-10 12:50:17 +08:00
好奇有遮罩层的怎么解决
GrahamCloud
2017-02-10 13:34:27 +08:00
@x86 现在有好多点子,都在一个一个试着用
catfish
2017-02-11 14:27:06 +08:00
@GrahamCloud 正常了,之前任务重复运行
GrahamCloud
2017-02-13 13:05:02 +08:00
@catfish 多试一试,有问题随时说
downsky
2017-02-13 13:15:55 +08:00
帐号似乎验不验证没有区别。
Nat
2017-02-13 13:17:52 +08:00
楼主求个联系方式,我们公司对爬虫方面有业务需求
DonxYu
2017-02-13 13:24:01 +08:00
验证码问题貌似没解决 搜狗微信
GrahamCloud
2017-02-13 16:25:30 +08:00
@downsky 48 小时 不激活就有区别了
GrahamCloud
2017-02-13 16:25:47 +08:00
@Nat 好啊,微信: Zaoshuio
GrahamCloud
2017-02-13 16:26:11 +08:00
@DonxYu 收到,研究中。
gabri
2017-02-14 12:09:24 +08:00
好像很有趣
exoticknight
2017-02-14 12:19:17 +08:00
只用一个链接?太过简化的话就容易造成功能薄弱(当然有部分情况也是很方便
数据结构是给 dom 结构的 class 啊 id 啊路径啊做索引?
真正用的时候遇到的问题很多事混合的, AJAX 分页,然后爬出的链接要跟踪进去爬真正的数据,还要防反爬
折腾过不少,最后还是学了一下 scrapy ,起码能 work ……
GrahamCloud
2017-02-14 12:39:48 +08:00
@gabri 持续迭代中,求意见
GrahamCloud
2017-02-14 12:40:49 +08:00
@exoticknight 通用爬虫一切为了易用吧。
cqcn1991
2017-02-15 12:24:44 +08:00
用了一下,还是挺好用的
但是现在只适合抓列表页面,不适合抓详情页面。对比了一下 Import.io, 感觉完善很多,不过比国内的八爪鱼, gooseeker 都好很多了,看好你们
GrahamCloud
2017-02-15 13:16:02 +08:00
@cqcn1991 详情页功能我们正在开发中,敬请期待。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/323314

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX