关于数据采集需求的讨论帖

2017-01-10 11:45:46 +08:00
 GrahamCloud

我们是马不停蹄不停迭代产品的小团队! 感谢大家的各种意见。 这个帖子里,我想跟大家认真讨论一下,大家平时写爬虫会是想采集什么数据,对一个通用爬虫,或者如果你们想定制爬虫,又会有什么要求。

另外,欢迎来看我们的新 ui :全新 ui 的造数页面在这里

论坛已经搭建好了,正在构思放什么资源上来方便大家,也欢迎意见。

7162 次点击
所在节点    程序员
62 条回复
Powered
2017-01-10 12:18:41 +08:00
爬虫没太大技术含量
syk
2017-01-10 12:19:07 +08:00
在一家在线销售餐饮设备的公司干过,主要收集的最多就是淘宝同类商品价格,图片,商品链接。其次就是同类竞争商家网站销售的设备设备种类!
GrahamCloud
2017-01-10 12:56:00 +08:00
@Powered 你这个没说错,技术含量 体现应该是通用性,优化存取和 针对策略上。
GrahamCloud
2017-01-10 12:56:16 +08:00
@syk 求使用建议
xiamx
2017-01-10 13:31:18 +08:00
希望定价能显示在主页上
imn1
2017-01-10 13:49:42 +08:00
简单说,数据有效期达到按年为单位的,都是值得保留的
时效越短,其专用性质越强,就是使用人群越单一
GrahamCloud
2017-01-10 14:04:22 +08:00
@imn1 这个点非常对。
GrahamCloud
2017-01-10 14:04:36 +08:00
@xiamx 什么定价
langmoe
2017-01-10 14:07:54 +08:00
通用的。。比如这货?
http://www.shenjianshou.cn
yuntong
2017-01-10 14:11:55 +08:00
不好用...
zhaixiaohu
2017-01-10 17:40:31 +08:00
怎么一直都是正在爬取,看不了结果
GrahamCloud
2017-01-10 18:09:12 +08:00
@langmoe 方向不一样,我们想让用户完全不用写代码。
GrahamCloud
2017-01-10 18:09:26 +08:00
@zhaixiaohu
@yuntong 求告知问题
txlty
2017-01-10 18:37:34 +08:00
站长圈子有个古老的产品,叫“火车头”。
langmoe
2017-01-10 18:39:40 +08:00
@GrahamCloud 是不用写,神箭手做的就是这一块市场。开发者负责提交不同网站的爬虫规则换取报酬,而真正需要爬虫的用户,只需要在商城查找并购买规则,就可以拿到源源不断的数据。
kindjeff
2017-01-10 19:29:59 +08:00
微博的数据啊,但是爬起来很困难。

分析微博粉丝结构,评论转发点赞的人的结构还有趋势。
frankzeng
2017-01-10 21:22:25 +08:00
要一个输入商品的 url 就能获取到他的价格,名称,分类,图片这些
yuntong
2017-01-11 08:54:40 +08:00
@GrahamCloud 估计是我采用墙外连接的原因...分析时间长并且超时...
所有需求你懂的...

还是用自己专门定制的爬虫机器人靠谱啊...
GrahamCloud
2017-01-11 11:39:11 +08:00
@langmoe 这个模式有意思
GrahamCloud
2017-01-11 11:41:38 +08:00
@frankzeng 这个是基本需求,目标网站一般是哪些

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/333557

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX