这里是造数,正在写一个智能云爬虫给大家,快来玩耍

2016-11-09 15:28:32 +08:00
 GrahamCloud

hello ,大家好,我们是造数 https://www.zaoshu.io 如你所见是一个新生的网站,我们想试着让用户能最简单的使用爬虫技术,这个阶段,已经能够自动识别你想爬的数据类型了.

如果你有关于爬虫的使用创意,需求。 如果你使用中感到哪里不够合。 如果你操作中发现 bug 。 请一定要告诉我。

                                                                        热切期待新需求,和反馈问题的造数团队:
                                                                          grahamcloud@zaoshu.io
                                                                          www.zaoshu.io
18138 次点击
所在节点    推广
94 条回复
GrahamCloud
2016-11-10 23:53:45 +08:00
@crayonyi 今天刚挂了,有的功能要以后上。
scnace
2016-11-11 00:20:08 +08:00
访问知乎的时候 CSS 和 JS 都没有加载出来 (知乎的 css 和 js 请求好像都需要 cookie. 我也不造为毛)
lslqtz
2016-11-11 01:16:29 +08:00
我希望提供 json 的数据接口,而不要 excel 。
GrahamCloud
2016-11-11 01:52:16 +08:00
@scnace
@lslqtz 问题和需求,白天处理一下。
GrahamCloud
2016-11-11 01:54:16 +08:00
现在大家所有的需求和发现的问题都会被感谢,也会被认真处理。
啧啧,谢谢大家。
GrahamCloud
2016-11-11 01:55:20 +08:00
@crayonyi 现在翻页是可以的
wyntergreg
2016-11-11 09:10:52 +08:00
别的不说
你发在这里
几天以后你会发现爬了一堆奇怪的东东
cmisaka
2016-11-11 09:50:00 +08:00
在爬淘宝的一个商品页面一直在转...
panfake
2016-11-11 10:39:22 +08:00
一直 loading ,所以采集一个页面需要这么慢?
GrahamCloud
2016-11-11 11:04:06 +08:00
@cmisaka
@panfake 感谢提出,正在处理。采集页面其实应该是非常快的。
GrahamCloud
2016-11-11 11:04:27 +08:00
@wyntergreg 现在爬的数据,确实很奇怪。
billyellow
2016-11-11 11:44:42 +08:00
赞~~~~
popoer
2016-11-11 15:05:57 +08:00
多爬几次会出验证码的网站怎么办呢?
GrahamCloud
2016-11-11 17:41:06 +08:00
目前没有这个问题。非定时任务是直接爬取,定时任务不妨试试看。
frankmdong
2016-11-12 10:29:58 +08:00
爬取到的页面能生成 RSS 地址吗
tumbzzc
2016-11-12 11:50:57 +08:00
出现 500 状态码
byuc
2016-11-12 14:44:14 +08:00
创建任务的时候没有问题,但是进入到账户页面进行爬取得时候就总是执行出错了。
GrahamCloud
2016-11-12 19:36:34 +08:00
@byuc 爬取的页面是?
GrahamCloud
2016-11-12 19:37:12 +08:00
@tumbzzc 哪个阶段出现的 500 状态?
tumbzzc
2016-11-12 20:43:28 +08:00
@GrahamCloud 输入网址之后点“点击试试”

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/319286

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX