一个好用的爬虫应该有什么样的功能?有什么有趣的玩法?

2016-11-25 18:09:47 +08:00
 GrahamCloud

这两周,我们做了一个目前来看非常易用的云爬虫:

主页在这里, zaoshu.io

现在,我们提出了很多酷的设想,也在一步一步慢慢完善。 大家快来玩玩。 如果你也有酷的想法,愿意洗耳恭听。 期待可以一起合作。

25076 次点击
所在节点    推广
183 条回复
cxl008
2017-02-06 12:54:23 +08:00
坐等开源
bozong
2017-02-06 13:01:19 +08:00
@wshedu #9 爬过企业信息吗
haoxuexiaoyao
2017-02-06 13:28:02 +08:00
这个怎么用呢 爬的数据能自己保存到数据库么
haoxuexiaoyao
2017-02-06 13:30:04 +08:00
一直提示链接超时
firldlove
2017-02-06 14:11:48 +08:00
刚刚用 https://www.v2ex.com/ 试了一下,结果是 ERR_CONNECTION_RESET
ELLIA
2017-02-06 14:13:31 +08:00
一直出错啊~
GrahamCloud
2017-02-06 14:34:29 +08:00
@haoxuexiaoyao
@firldlove
@ELLIA 感谢提出问题,正在紧张处理了。
GrahamCloud
2017-02-06 14:34:49 +08:00
@haoxuexiaoyao 爬的数据可以保存到数据库
GrahamCloud
2017-02-06 14:37:17 +08:00
@isnowify 谢谢支持!
GrahamCloud
2017-02-06 14:37:43 +08:00
@cxl008 一直在上新功能,估计可预见的时间不会开源
isnowify
2017-02-06 14:42:51 +08:00
@GrahamCloud 如果可以批量爬就更好了 比如某个成绩查询页面 直接枚举批量 post 准考证号得到结果
lwd2136
2017-02-06 15:14:18 +08:00
ELLIA
2017-02-06 15:15:34 +08:00
嗯,现在好像能用了……
ybh37
2017-02-06 15:25:48 +08:00
试了一下 百度新闻,失败 4 次
难道我姿势不对?
sphawkcn
2017-02-06 15:42:30 +08:00
@GrahamCloud 想爬取 http://xueshu.baidu.com/u/paperhelp/ 这个页面的“待应助” 下面的 “等待应助” 这个子标签页下的每一栏的文题。发现没法点击“等待应助” ,没法点进去。
ELLIA
2017-02-06 15:43:06 +08:00
@ybh37 我这边试了别的,也都是出错
GrahamCloud
2017-02-06 17:57:06 +08:00
@isnowify 这个功能马上就会上
GrahamCloud
2017-02-06 17:57:52 +08:00
@lwd2136
@ybh37 今天负载异常高,正在努力扩容。
GrahamCloud
2017-02-06 17:58:55 +08:00
@sphawkcn 这个分页功能这一版还不支持,之后的一版会有改进。欢迎加 微信: Zaoshuio
ELLIA
2017-02-07 13:22:04 +08:00
今天有数据了,不过有几个问题,第一就是只会爬一页,如果需要第二页我得手动加入网址。
其次是目前只支持定时一天爬一次是吗?还是未来也这样。

最后就是我设了邮箱,但是没有收到邮件……

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/323314

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX