这里是造数,正在写一个智能云爬虫给大家,快来玩耍

2016-11-09 15:28:32 +08:00
 GrahamCloud

hello ,大家好,我们是造数 https://www.zaoshu.io 如你所见是一个新生的网站,我们想试着让用户能最简单的使用爬虫技术,这个阶段,已经能够自动识别你想爬的数据类型了.

如果你有关于爬虫的使用创意,需求。 如果你使用中感到哪里不够合。 如果你操作中发现 bug 。 请一定要告诉我。

                                                                        热切期待新需求,和反馈问题的造数团队:
                                                                          grahamcloud@zaoshu.io
                                                                          www.zaoshu.io
18141 次点击
所在节点    推广
94 条回复
GrahamCloud
2016-11-16 15:47:41 +08:00
@alfer 准备周末推新 ui 在各种 测试,实在不好意思。
reticentfat
2016-11-17 09:46:30 +08:00
输入了一个贴吧地址怎么输出页面和输入差不多
GrahamCloud
2016-11-17 11:26:42 +08:00
@reticentfat 输出页面是你点一下,就帮你自动识别、勾选同类数据。
honkew
2016-11-17 13:18:39 +08:00
如果是滚动加载的数据呢

比如 http://list.le.com/listn/c2_t-1_a-1_y-1_s1_md_o20_d1_p.html
GrahamCloud
2016-11-17 16:28:54 +08:00
@honkew 目前这样的还不支持,在需求队列中。
zluyuer
2016-11-17 18:51:08 +08:00
似乎对 Ajax 加载支持不好。例: http://shop.m.jd.com/search/search?shopId=1000010404
GrahamCloud
2016-11-18 01:55:59 +08:00
@zluyuer 可以期待一下我们这几天马上要出的新版。
incrediblink
2016-11-19 22:27:04 +08:00
为何我无法爬取到 http://news.163.com/16/1119/09/C67NPATB000187V5.html 上的正文,选中了正文那一个 div 之后爬出来的是一张迷之图片… 有的新闻网站有不同的历史版本,每个历史版本的界面不一样,爬起来就很麻烦。
jmp2x
2016-11-20 01:38:07 +08:00
注意下 File 协议的问题 容易造成任意文件读取 虽然在 Container 里 我们小伙伴友情测试了下 →_→
csx163
2016-11-20 23:27:47 +08:00
注册时出现邮件 TOKEN 非法
GrahamCloud
2016-11-21 01:07:17 +08:00
@csx163 求告知细节。
GrahamCloud
2016-11-21 01:08:36 +08:00
@incrediblink 正文我测试了两次还可以运行,求告知具体配置。
争取周一解决。
csx163
2016-11-21 11:02:16 +08:00
@GrahamCloud QQ 邮箱,注册时复制邮箱收到的链接到地址栏,打开地址填写资料到输入密码后出现该提示。我 QQ 邮箱为 cs-x 。
GrahamCloud
2016-11-21 11:31:30 +08:00
@csx163 现在注册还有问题是么
GrahamCloud
2016-11-21 12:01:13 +08:00
@jmp2x 感谢小伙伴,强烈感谢。
GrahamCloud
2016-11-21 17:00:58 +08:00
@crayonyi
@byuc
@csx163
@jmp2x
@reticentfat 新的 ui 上线了,希望大家看到会感到一点舒爽,另外欢迎加团队微信,微信号: Zaoshuio 。
brucedone
2016-11-21 17:18:47 +08:00
我目前想到的,对于”下一页“的解析不是那么的完善,可以考虑增加开发者模式,如果当前的选中单位不符合自己的预期的话,可以自己去编辑。总的来说,和 pyspider ,以及 portia 一样,都是很不错的东东,需要更加的打磨一下就是一个好产品了。
GrahamCloud
2016-11-21 17:32:36 +08:00
@brucedone 目前可能确实有个开发者模式能更好的服务客户。
anexplore
2016-11-22 12:37:52 +08:00
crayonyi
2016-11-22 14:30:58 +08:00
新 UI 不错

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/319286

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX