关于数据采集需求的讨论帖

2017-01-10 11:45:46 +08:00
 GrahamCloud

我们是马不停蹄不停迭代产品的小团队! 感谢大家的各种意见。 这个帖子里,我想跟大家认真讨论一下,大家平时写爬虫会是想采集什么数据,对一个通用爬虫,或者如果你们想定制爬虫,又会有什么要求。

另外,欢迎来看我们的新 ui :全新 ui 的造数页面在这里

论坛已经搭建好了,正在构思放什么资源上来方便大家,也欢迎意见。

7239 次点击
所在节点    程序员
62 条回复
GrahamCloud
2017-01-11 11:42:51 +08:00
@yuntong 只能尽量让你不用写然后省点力,然后再说靠谱的事,暗坑太多了现在。
GrahamCloud
2017-01-11 11:43:11 +08:00
@txlty 火车头我晓得。
skywayman
2017-01-12 12:03:20 +08:00
@Powered 把 facebook 的 js 动态生成页面+5 年以上的瀑布流数据+5W 人数据爬出来我就服...
@GrahamCloud 能爬社交网站么?
GrahamCloud
2017-01-12 12:29:30 +08:00
@skywayman 部分可以,很多反爬的还搞不定。
quericy
2017-01-12 13:01:24 +08:00
这么久了,上次那个遮罩的问题还是没搞定么...
GrahamCloud
2017-01-12 13:19:40 +08:00
@quericy 遮罩意外的不好解决,我们会在年前再出一版再应对一下。
Powered
2017-01-13 11:56:49 +08:00
@skywayman 普通爬虫原理不简单?下载页面--->解析--->持久化
有很多反爬虫机制的网站为什么要去爬?显得你牛逼吗
skywayman
2017-01-13 12:13:49 +08:00
@Powered 说得不错,普通爬虫的确是这样,但也有很多爬虫不是这样的,却被你一句:爬虫没太大技术含量全盘推倒.
没含量你写个超过谷歌,百度的好了,瞎嚷嚷,还"为什么要去爬?显得你牛逼吗",你 CEO 还 CTO 啊?公司业务是你我一个码农说不爬就不爬的?不想干就滚蛋...
Powered
2017-01-13 18:58:29 +08:00
@skywayman
最 low 的辩论者往往会举一些吓唬人的例子,你用你的脑袋去想一下人家为什么要反爬虫,为的是什么?我猜为的就是防范你这种恶意爬取,消耗带宽和吞吐量的人吧。公司的业务是这个,我也是醉了。。。靠爬一些很难爬到的数据活着的公司,我也只能想到黑产了。唉。
voidtools
2017-01-13 21:39:10 +08:00
小额的数据,纯个人需求,用自动翻页,正则就行了。 JS 动态搞不定。
skywayman
2017-01-13 21:50:44 +08:00
@Powered 你还在象牙塔吗? 法律规定不能杀人,还有人杀吧, 别人反爬就不能爬了? 智商捉急...
最近团队有个项目就是为 Party 做爬虫,就是爬你说的这种反爬虫的网站. 舆情听说过吧,算了,可开阔你眼界的.奈何你...!
朋友,凡是你浅尝辄止过都不要说简单, 做不到的不是别人 low,反而是你自己,开阔点眼界吧,对将来有好处!
Powered
2017-01-14 09:07:49 +08:00
@skywayman

对于你这种人,现实生活中感觉应该没人跟你做朋友吧。我也不想跟你耗费口舌,毕竟键盘侠我甘拜下风。被狗咬了,我不至于咬回去。掉价。
SlipStupig
2017-01-14 09:35:55 +08:00
穷码农创业三俗:爬虫、微信、直播间,作为一个其中一员给你一些建议(觉得不好当我胡说):
1.产品定位很重要别想解决所有的问题,码农创业很容易只想技术而忽略商业,我认为你这种东西方式上就不可能抓取特别复杂的页面,还是那个话,你这种东西只能给一些公司非技术人员用,爬虫在 ETL 这个环节内,解决的是 E 的问题,我朋友她们公司是做电商的有 10 多人的运营团队除了日常工作外额外就是每天人肉去网上找图找文章(老板觉得养个程序员没必要,反正找不到文章的开除),你这个很容易解决她们的难处

2.对用用户权限自由度的把握,你既然想着用户有足够的自由度,例如反抓取这些事情,你就不要管了,这些都是用户来决定,你提供解决方案的 API 就行,如果你不想用户去解决,那你就尽量不让用户插手,这个是一个侧重关系

3.盈利模式这块早期越单一越好,路想太多了,容易没路走
GrahamCloud
2017-01-16 11:44:44 +08:00
@SlipStupig 求加微信, Zaoshuio
GrahamCloud
2017-01-16 12:15:40 +08:00
@SlipStupig 说的确实好啊
copperusher
2017-01-16 13:49:00 +08:00
这个方向肯定没问题的,国外早就这样的网站了。关键是做得怎么样,以及如何找到用户。如果不能把这个工具嵌入用户现有的业务流程,那就很难把它发展起来。可以在网站首页给出你们设想的具体用户案例,那样更有说服力。
j4fun
2017-01-16 14:01:12 +08:00
使用感觉。。好像速度特别慢,点了个示例上的 github trending ,上了个厕所回来还没好,不知道是不是姿势不对。(是不是需要控制一下每次爬取的数量,或者时间这样的。不要一次爬到完。)
恩。其实我觉得, 2C 和 2B 要想好吧, 2B 就简单一点,但是竞争会多一些吧。
2C 的话技术含量会高一些,爬社交之类的有反爬系统的会比较多。(不过有被 LOW 的风险?不懂~)
GrahamCloud
2017-01-16 14:12:11 +08:00
@j4fun 现在是 to B 方向,目前通用遇到的暗坑很多。
GrahamCloud
2017-01-16 16:37:26 +08:00
@j4fun GitHub 好像今天是有一些问题,其他的您这边反应如何?
j4fun
2017-01-16 16:51:51 +08:00
@GrahamCloud 下午又试了一次很快就出来了。。效果不错:)

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/333557

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX