一个好用的爬虫应该有什么样的功能?有什么有趣的玩法?

2016-11-25 18:09:47 +08:00
 GrahamCloud

这两周,我们做了一个目前来看非常易用的云爬虫:

主页在这里, zaoshu.io

现在,我们提出了很多酷的设想,也在一步一步慢慢完善。 大家快来玩玩。 如果你也有酷的想法,愿意洗耳恭听。 期待可以一起合作。

25077 次点击
所在节点    推广
183 条回复
moonkiller
2017-02-20 13:01:54 +08:00
lz 你太牛了。我就要个你这样的功能=。=
GrahamCloud
2017-02-20 13:15:36 +08:00
@moonkiller 真的?有问题有需要随时说啊
moonkiller
2017-02-20 13:23:01 +08:00
@GrahamCloud 问题太多,不知道从哪儿说 ಥ_ಥ。。。。
GrahamCloud
2017-02-20 13:35:10 +08:00
@moonkiller 来加微信: Zaoshuio ,慢慢说
fhefh
2017-02-20 15:34:06 +08:00
先 mark 试用中
F0nebula
2017-02-21 15:48:55 +08:00
竖屏打开首页没有显示
"热门数据来源 TOP 16"
的图标 不过可以点击
GrahamCloud
2017-02-21 16:36:21 +08:00
@F0nebula 感谢!
jadetang
2017-02-22 19:30:29 +08:00
好奇问一下,你们的爬取机器是只有一台吗,如果数据量过大,会爬取得很慢吗
GrahamCloud
2017-02-23 13:28:07 +08:00
@jadetang 用的阿里云
hoyixi
2017-02-23 13:49:55 +08:00
哈哈,赞一个
GrahamCloud
2017-02-23 14:12:11 +08:00
@hoyixi 昨天上线了神奇功能,快来试试
jadetang
2017-02-23 15:58:50 +08:00
@GrahamCloudge 这个和阿里云没关系的啊。如果 1 万个人用,零点的时候有 100 万个爬取任务在爬取。那么你是弄一台很高配的 ecs 去跑吗
GrahamCloud
2017-02-24 11:24:31 +08:00
@jadetang 肯定是分布式的啊……
jadetang
2017-02-24 11:39:52 +08:00
@GrahamCloud 那同一个任务是怎么只在一个机器上去跑的?
GrahamCloud
2017-02-24 11:47:15 +08:00
@jadetang 我们有非常好的任务调度,嘛,非常好。
YingJie
2017-02-25 21:07:48 +08:00
楼主你好,请问你们的爬虫是基于 pyspider 吗?
peesefoo
2017-02-26 09:36:08 +08:00
以后会收费吗
GrahamCloud
2017-02-27 11:16:55 +08:00
@YingJie 接近了
GrahamCloud
2017-02-27 11:17:40 +08:00
@peesefoo 流量成本越来越高,以后必须要收费啊
lneoi
2017-02-27 11:38:00 +08:00
注册的时候 看到“立即注册造数,获取你的数据”。犹豫了一秒,为什么我要主动贡献我的个人信息给你...然后就明白 我理解错了..

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/323314

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX