关于云爬虫用户场景和需求的讨论帖

2016-12-06 13:00:41 +08:00
 GrahamCloud

四周以来,几个小伙伴在做云爬虫易用性上下了很多功夫,功能和交互上都保持了每周两次 push 的节奏,不足还很多,现在问题是,大家对爬虫的应用场景有什么看法,我们下一步想要做定制,开放 api 。

想做到最好的造数,主页在这里 zaoshu.io

想想很欣慰,四周以前我们还是一团糟,现在已经基本功能比较清楚了,关于云爬虫的前景,应用场景,需求,希望大家都来聊聊。嘿嘿。 欢迎合作

10613 次点击
所在节点    程序员
70 条回复
wyntergreg
2016-12-06 14:13:12 +08:00
把标换了吧,弄个纵泰的标好么...

另外,爬虫为什么要做云...
GrahamCloud
2016-12-06 14:22:54 +08:00
想做个好用的通用爬虫嘛,顺便解决数据量大硬盘不够的问题,哈哈
jccg90
2016-12-06 16:15:40 +08:00
之前用这个爬虫试了一下监控链家每日成交价。。。确实很方便,只用了几分钟就搞定了每天定时监控。。。但是。。。一周后过去看数据,结果发现竟然只保存了最近几次的结果,爬了一周的数据竟然没有保存,每天的邮件推送里面也没把数据推送过来,只是给个链接让自己过去取数据。。。虽然是免费服务吧,但是感觉数据应该按量计费而不是按次计费
akira
2016-12-06 16:25:35 +08:00
已抓取数据免费保存 1 周,付费用户保存 30 天。。。

唔。。这样的计费模式如何
Mizzi
2016-12-06 17:06:38 +08:00
爬取直接转 rss/atom
GreatMartial
2016-12-06 21:04:41 +08:00
额,好奇你们这“使用范例”,是怎么根据用户的浏览器历史自动生成的吗?
alexapollo
2016-12-06 22:29:12 +08:00
感觉这行越来越泛滥了。。技术倒都是前几年的
firefox12
2016-12-07 08:34:40 +08:00
你能把淘宝的各种商品爬下来吗?
bzzhou
2016-12-07 09:26:20 +08:00
做这块的太多了,做好了,分一杯羹是可以的;但是市场规模估计玄乎。
jyf
2016-12-07 10:20:53 +08:00
@wyntergreg 做雲好處是可以 cache 住對目標站點的壓力 這跟某些大博主提倡大家用 rss 訂閱一個道理 不過我覺得這個服務目前做得還是很一般
GrahamCloud
2016-12-07 11:28:56 +08:00
@jccg90 这个稍微有点苦衷,之前邮件出了点问题,现在这样是过渡一下。
按理说一周的数据是保存了的,我在后台再看一下。
GrahamCloud
2016-12-07 11:29:23 +08:00
@akira 还是只能按量收费,时间不是主要问题。
GrahamCloud
2016-12-07 11:30:12 +08:00
@GreatMartial 对,不一样地点不一样。
GrahamCloud
2016-12-07 11:30:39 +08:00
@alexapollo 第四周忙东忙西的,技术上好多还没上。
GrahamCloud
2016-12-07 11:31:02 +08:00
@jyf 关键就是应用场景,我觉得应用场景还需要思考。
jyf
2016-12-07 12:10:05 +08:00
@GrahamCloud 应用场景思考这个不能闭门造车 最好的办法就是产品好用 前期免费给大家随便用 从用户的行为中去分析大众需求
GrahamCloud
2016-12-07 12:11:28 +08:00
@jyf 说得对,现在定制个人服务免费,网站功能是全免费的目前。
GrahamCloud
2016-12-07 12:12:15 +08:00
@jyf 啊,说错了,定制个人服务收费,网站功能全免费。
GrahamCloud
2016-12-07 12:13:07 +08:00
@jccg90 感觉怪不好意思的,求加微信 Zaoshuio
jccg90
2016-12-07 13:41:36 +08:00
@GrahamCloud 哈。。。没事,当时就是随手测试一下,也不是真的需要抓数据。。。感觉这种服务还是挺方便的,如果我要用的话,一般就是用这种服务做简单的页面监控用,比如就监控某个页面的某几个数据,每天定时抓下来,并保存下来。 再高级点的功能就是,把每次抓到的数据聚合一下,出个表格之类的。但是只能保存最近 10 次的结果,这个就不太友好了,可以把限制改一下,比如限制保存的记录行数或者空间占用之类的。。。毕竟我每天抓几次数据,每次就存几个数,多存一些也不会额外占用资源吧


我用这种服务的话,一般都在抓很简单的,数据量很小东西的时候。。。复杂的需求或者规模大的需求,一般也不会用这种服务了

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/325634

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX