一个好用的爬虫应该有什么样的功能?有什么有趣的玩法?

2016-11-25 18:09:47 +08:00
 GrahamCloud

这两周,我们做了一个目前来看非常易用的云爬虫:

主页在这里, zaoshu.io

现在,我们提出了很多酷的设想,也在一步一步慢慢完善。 大家快来玩玩。 如果你也有酷的想法,愿意洗耳恭听。 期待可以一起合作。

25076 次点击
所在节点    推广
183 条回复
iammapping
2016-12-16 16:47:12 +08:00
能不能设置规则,爬完列表下钻到详细页爬其他信息
GrahamCloud
2016-12-16 17:33:46 +08:00
@iammapping 正在努力搞这个功能。
GrahamCloud
2016-12-16 17:34:22 +08:00
@haigeek 太感谢了!求加微信: Zaoshuio
demov2
2016-12-23 09:43:04 +08:00
以前有一个国外的网站提供一样的服务,后来被收购了。。就没有服务了。。体验很不错。试用一下~
isb
2016-12-26 12:42:29 +08:00
试着爬链家十个页面。。不知道为什么快十分钟了还是在执行任务中。。。

任务能否有个进度条。。

还有可否增加终止任务??
siknet
2016-12-26 12:43:14 +08:00
恕我无理,这个东西和火车头之类的相比有什么优点?可视化吗?实际操作试了一下,好像不是很利啊。

比如 http://videos.yizhansou.com/这个站,点选下面的剧集会连上面的置顶剧集一起选择,这个怎么解。。。
RyuZheng
2016-12-26 13:28:33 +08:00
试了一下,似乎还不太行,尝试的网站是国家食品药物监管局
http://app2.sfda.gov.cn/datasearchp/gzcxSearch.do
就想爬一下这些列表。
GrahamCloud
2016-12-28 16:26:11 +08:00
@isb 这个提议非常好
GrahamCloud
2016-12-28 16:26:50 +08:00
@siknet 现在这个站点进去没东西,现在智能识别问题是还有,谢谢发现这个问题
GrahamCloud
2016-12-28 16:45:49 +08:00
@RyuZheng 这个会作为重点帮你搞定
ivvei
2016-12-28 17:12:07 +08:00
多久才能出结果…… 随便扔了个页面地址过去,十几分钟了还在“分析页面”中……
GrahamCloud
2016-12-28 18:12:15 +08:00
@ivvei 应该是几秒钟就该分析好了,是什么网站。
siknet
2016-12-28 19:19:13 +08:00
@GrahamCloud http://videos.yizhansou.com/
这个链接,之前论坛没断好 url 。
ivvei
2016-12-29 09:58:52 +08:00
@GrahamCloud http://www.zjsgat.gov.cn/jwzx/jsyw/index_1.html 这个,浙江省公安厅新闻页
ivvei
2016-12-29 10:08:52 +08:00
@GrahamCloud 今天试了下,倒是可以出结果了。不知道是不是昨天网络问题……
GrahamCloud
2016-12-29 12:45:21 +08:00
@ivvei 昨天有一段时间是出现了网络问题,嗯。
GrahamCloud
2016-12-29 12:45:48 +08:00
@ivvei 这个网站需要的数据,你看都能按你要求下来不。
ivvei
2016-12-29 16:18:58 +08:00
@GrahamCloud 还不错。虽然有小部分错乱,但是我要的数据还是取到了的。要是能支持翻页就好了。
GrahamCloud
2016-12-29 18:14:26 +08:00
@ivvei 翻页是支持的,在你的控制台地址设置里面。
isnowify
2017-02-06 12:40:08 +08:00
很赞!

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/323314

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX