关于云爬虫用户场景和需求的讨论帖

2016-12-06 13:00:41 +08:00
 GrahamCloud

四周以来,几个小伙伴在做云爬虫易用性上下了很多功夫,功能和交互上都保持了每周两次 push 的节奏,不足还很多,现在问题是,大家对爬虫的应用场景有什么看法,我们下一步想要做定制,开放 api 。

想做到最好的造数,主页在这里 zaoshu.io

想想很欣慰,四周以前我们还是一团糟,现在已经基本功能比较清楚了,关于云爬虫的前景,应用场景,需求,希望大家都来聊聊。嘿嘿。 欢迎合作

10622 次点击
所在节点    程序员
70 条回复
phantom1124
2016-12-13 12:14:23 +08:00
只能爬取当前页吗?如果我想爬取所有分页的数据怎么做?
xycool
2016-12-13 12:49:58 +08:00
分页的数据没办法爬,我就放弃了。还是继续做神箭手的付费用户吧。。还有什么云爬虫,求推荐。
iannil
2016-12-13 13:37:53 +08:00
hanbing135
2016-12-13 13:45:53 +08:00
能不能特定的检测某个数据变化呢 比如 epub.sipo.gov.cn 我想追踪每天发明专利公开和授权的数量变化 设定了这个网页抓取不到数据啊
iannil
2016-12-13 13:46:55 +08:00
桌面版的开源程序: https://github.com/ferventdesert/Hawk

和造数功能接近,很好用,可以参考。
GrahamCloud
2016-12-13 14:28:31 +08:00
@phantom1124 爬取分页在你的工作台里设置规则可以做。
GrahamCloud
2016-12-13 14:29:07 +08:00
@hanbing135 我们可以把现在的 bug 修复以后专门帮你自定义。
GrahamCloud
2016-12-13 14:29:41 +08:00
@xycool 分页现在其实是完全可以爬的,在你的控制台的设置规则里。
GrahamCloud
2016-12-13 14:41:20 +08:00
@iannil 很强大,感谢。
imn1
2016-12-13 14:59:27 +08:00
爬虫这个问题,和 ad block 工具某些方面有点类似,其目的都是帮助用户舍弃“无效信息”,直接获取“有效信息”
但争议性非常大,建议还是低调,盈利以服务性质为主,而不能以内容作为衡量
做得好,还可美其名为“聚合”,做不好、做大了还是难免成为被告的
GrahamCloud
2016-12-13 15:09:44 +08:00
@imn1 是啊,说得有道理。
graetdk
2016-12-13 15:29:34 +08:00
为啥页数只能是 1-100 ?
GrahamCloud
2016-12-13 15:33:52 +08:00
@graetdk url 总量不能太大,目前
xycool
2016-12-13 16:01:50 +08:00
@GrahamCloud 不能用正则匹配吧?是不是需要复制所有的分页 Url 。
xycool
2016-12-13 16:04:40 +08:00
@GrahamCloud 哦哦。昨天那个设置页码的页面没有弹出来,我以为不能设置分页。现在可以弹出来了。。如果有文档就好了。
GrahamCloud
2016-12-14 11:18:22 +08:00
@xycool 分页现在除了总量有限制,要改进的看来还有很多。
tikazyq
2016-12-26 21:01:20 +08:00
神箭手
hcymk2
2016-12-29 14:06:50 +08:00
支持需要登录后才能爬取的页面么?
GrahamCloud
2016-12-29 14:09:01 +08:00
@hcymk2 现在还不支持。
GrahamCloud
2017-01-04 11:23:39 +08:00
@hcymk2
@xycool
@graetdk 新的界面要出来了,谢谢大家的意见。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/325634

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX