云爬虫 与 爬虫软件的认真探讨

2017-05-03 13:38:38 +08:00
 GrahamCloud

今年是造数云爬虫快速测试的一年

如今爬虫方面的同行很多,例如 import.io 等等。V 站也看到了非常好的作品,比如 hicrawler 等等。

学到很多。

这个帖子希望和大家一起探讨,各种爬虫的应用场景以及利弊等等。

10994 次点击
所在节点    推广
65 条回复
nicoljiang
2017-05-04 12:48:27 +08:00
缺乏场景,性价比极低。只能说,鼓励一下。
GrahamCloud
2017-05-04 17:09:28 +08:00
@acoder2013 这个也特别想听听大家怎么说,我们马上要推出一版。
GrahamCloud
2017-05-04 17:09:38 +08:00
@nicoljiang 感谢
shenfu1991
2017-05-04 17:15:10 +08:00
问个喜感的问题:抓取彩票数据能不能预测彩票?(手动滑稽,没有其他意思。。。)
wuhx
2017-05-04 18:27:38 +08:00
CloudMonad 走的是另外一个思路,还特地和造数比较了一下

https://www.v2ex.com/t/356871
GrahamCloud
2017-05-05 11:16:16 +08:00
@shenfu1991 依据有限的数据啥都能预测,然而 有用没用,你懂得
GrahamCloud
2017-05-05 11:16:35 +08:00
@wuhx 学习!
GrahamCloud
2017-05-05 11:19:54 +08:00
@wuhx 求联系,微信:Zaoshuio
Moker
2017-05-05 11:45:33 +08:00
为什么我觉得 LZ 是在 SEO 每篇帖子都带不一样描述指向同样的链接?
GrahamCloud
2017-05-05 13:29:01 +08:00
@Moker SEO 不主要,主要的是产品内容不能光靠我们自己想,得不停增加大家交流的空间。
15015613
2017-05-06 10:23:32 +08:00
@GrahamCloud
问题太多了,直接没办法用。

举个例子吧。
http://book.sfacg.com/
抓取每日首页推荐情况。
之前便有人反映过,页面的弹出层无法点击去除,现在这个问题还在,没有改善。
不过这个问题不太影响本次抓取,便不说了。

先选取首页的轮播图,只能得到图片的 url 和小说页面的 url,得不到小说的名称,但原始数据里头是含有小说名称的。
```
<img data-original="http://rs.sfacg.com/web/m/images/homePush/2017/04/5c95aca9-9e5d-4301-bd83-896cf938ea17_big.jpg" alt="无敌的我选择种田" src="http://rs.sfacg.com/web/m/images/homePush/2017/04/5c95aca9-9e5d-4301-bd83-896cf938ea17_big.jpg" style="display: inline;">
```
然后下面的 人气风向标、最近有意思的新书,由于有重叠层,选取的数据有错误,基本不能用。

仅仅最后 封面推荐爬取的还算符合要求。

再打开小说详情页,不支持异步加载,评论数量完全无法抓取。

还有选取的数据不支持后期处理,不支持分组。
不支持图片的爬取下载,只能爬取文字资料。

就这服务水平、服务质量也好意思大言不惭的说,“所有你需要的功能”、“最好的云爬虫工具”。

价格 1 元 50 个页面,太贵了,这样的质量也好意思收费这么贵?

对了还不支持登录爬取,这点忘了。

@Moker
我也是这样觉得,看他们隔两天上来发一次广告,真是烦人的很。
15015613
2017-05-06 10:37:41 +08:00
@GrahamCloud
总体来说,和刚出来时没有多少提高,刚刚出来功能不完善可以理解,但过了这么久还没有提高,那就太……
GrahamCloud
2017-05-08 10:31:58 +08:00
@15015613 评论很中肯,说的很对,感谢花这么多时间整理意见。我们会针对你的问题做一些改进。定价 我个人也觉得高了,尝试阶段~
求加 微信:Zaoshuio
buseni
2017-05-08 11:26:47 +08:00
牛逼,我看国外有个东西,你随便给一个地址,人家就能给你爬下来
dovis
2017-05-08 11:41:31 +08:00
@buseni 比如?
GrahamCloud
2017-05-08 12:50:31 +08:00
@buseni 说的是 import io 吧
GrahamCloud
2017-05-08 12:51:05 +08:00
@buseni 怎么看到的
tonyaiken
2017-05-08 13:31:53 +08:00
开的同类帖子太多,广告嫌疑
GrahamCloud
2017-05-08 14:11:24 +08:00
@tonyaiken 这个帖子不是广告,同类产品 都列出来 求探讨了。
liuxu
2017-05-08 14:15:08 +08:00
不是广告为啥要顶置。。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/358781

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX