一个好用的爬虫应该有什么样的功能?有什么有趣的玩法?

2016-11-25 18:09:47 +08:00
 GrahamCloud

这两周,我们做了一个目前来看非常易用的云爬虫:

主页在这里, zaoshu.io

现在,我们提出了很多酷的设想,也在一步一步慢慢完善。 大家快来玩玩。 如果你也有酷的想法,愿意洗耳恭听。 期待可以一起合作。

25063 次点击
所在节点    推广
183 条回复
lins
2016-11-26 17:38:37 +08:00
能分页爬嘛?
GrahamCloud
2016-11-28 11:26:13 +08:00
@lins 可以啊,修改规则里面。
greatghoul
2016-11-28 14:42:10 +08:00
楼主选择页面的标签的那个功能能开源吗?好喜欢。
tokoy
2016-11-28 14:46:11 +08:00
蛮酷的 主要用啥语言爬的?
GrahamCloud
2016-11-28 15:10:36 +08:00
@greatghoul 暂时不能,哈哈,还要完善。
wujunze
2016-11-28 17:18:35 +08:00
上周已经试用了
exalex
2016-11-28 17:48:44 +08:00
感觉好牛逼,特别是交互酷炫
tumbzzc
2016-11-28 18:57:45 +08:00
“执行出错”,能不能把出错信息贴出来?
wshedu
2016-11-28 19:02:28 +08:00
我试了两个东西
一个是小说
一个是企业信息 tianyancha.com 这个直接 403
小说这个不能爬分页,
能不能从爬数据-存储到数据库整个动作写完,如果可以的话。就可以放弃火车头了
carlding123
2016-11-28 19:03:32 +08:00
每太用明白,选择规则时候点框框是什么意思,关键词么?没点击就选上了,选上还有时候取消不了,并且一个链接很多的页面好像并没有爬其他的页面呢...并且分析报告也没看懂,有没有文档啥的额...
misaka20038numbe
2016-11-28 19:04:46 +08:00
测试了一下,被我的博客防镜像拦截了.说明有些加了保护的网站也是爬不了的.
GrahamCloud
2016-11-28 19:46:44 +08:00
@tumbzzc 如果告诉我您的邮箱,我们后台帮您排查一下
GrahamCloud
2016-11-28 19:49:17 +08:00
@wshedu 欢迎加我的微信, Zaoshuio
我们想了解能不能做到更多个性化的要求。
GrahamCloud
2016-11-28 19:50:06 +08:00
@carlding123 分页是目前最大的问题,我们争取这周能拿出一个好的方案来。
GrahamCloud
2016-11-28 19:51:11 +08:00
@misaka20038numbe 我们是模拟了一个浏览器在访问,求加微信 Zaoshuio
billyellow
2016-11-28 20:10:48 +08:00
蛮有意思的,支持支持
misaka20038numbe
2016-11-28 22:11:45 +08:00
@GrahamCloud 原来是用了框架,怪不得.我不怎么用微信.
wshedu
2016-11-28 22:48:49 +08:00
@GrahamCloud 已添加微信。就是我这个帐号
GrahamCloud
2016-11-29 02:10:28 +08:00
@misaka20038numbe 给的意见非常宝贵,感谢。
GrahamCloud
2016-11-29 02:10:54 +08:00
@wshedu 白天就加,手机拉下了。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/323314

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX