为什么诸位老哥的爬虫的都是自己写的,不用 scrapy 呢?

2019-09-18 08:23:23 +08:00
 wellhome

我研究了半天 scrapy 发现搞的太复杂了。 除非大规模的爬, 一般 爬个几个站 不若自己写的方便。 不知是不是我打开 scrapy 的方式有问题。 我看到大家都在推崇 scrapy。

5455 次点击
所在节点    问与答
26 条回复
forgottencoast
2019-09-18 08:26:59 +08:00
标题和内容冲突啊?
sanjusss
2019-09-18 08:28:05 +08:00
我用的.net core 写爬虫,和你差不多。总感觉 dotnetspider 框架太复杂,写个简单的功能要绕弯好远,有的功能直接不能实现。最后自己写,部分功能直接 copy 框架。
gimp
2019-09-18 08:32:37 +08:00
设问句?
nevin47
2019-09-18 08:33:31 +08:00
我也觉得 scrapy 太复杂了,但是工程化开发肯定 scrapy 好,自己写点小东西随便用用 urllib 就完事儿了,但是大规模爬的时候吃力感就出来了
sadfQED2
2019-09-18 08:37:31 +08:00
你自己都说了,大规模爬虫用,另外你用熟了小项目用其实也很方便
php01
2019-09-18 08:40:20 +08:00
先问是不是,再问为什么。
yinjy
2019-09-18 08:40:29 +08:00
小项目也是 scrapy 方便啊,基础代码不用自己写
qsnow6
2019-09-18 08:45:36 +08:00
如何定义小规模
patx
2019-09-18 08:49:07 +08:00
nodejs 写爬虫
killerv
2019-09-18 09:02:16 +08:00
简单的用 requests,
稍微上点规模的就用框架了,自己造轮子多麻烦
keith1126
2019-09-18 09:08:26 +08:00
因为直接用 requests 已经可以满足大部分需求了,而且简单快捷
ljspython
2019-09-18 09:25:39 +08:00
requests 已满足基本小需求了
bonfy
2019-09-18 09:28:01 +08:00
requests 就可以了,为什么要去学个重量级的框架呢,学习不要成本的么?
tozp
2019-09-18 09:39:01 +08:00
我只用 Go
wellhome
2019-09-18 09:42:26 +08:00
@gimp 好多人推崇, 但是老哥们开的项目都是自己写的, 所以矛盾, 不知道是不是自己的打开方式不对。
ClarkAbe
2019-09-18 09:49:24 +08:00
@tozp #14 同 go...设置好重复踢出然后一记狗肉挺,CPU 全核心多线程工作,简直不要太恐怖
fank99
2019-09-18 09:57:46 +08:00
写到最后。。你会发现你写的东西越来越像“scrapy”
这时候,你会问自己,我当时咋想的,为啥不直接用 scrapy 呢
coolair
2019-09-18 10:01:32 +08:00
看文档的时间已经写好了。
alphardex
2019-09-18 10:08:56 +08:00
自己写了个小型框架 looter,比 scrapy 轻便多了,地址: https://github.com/alphardex/looter
zqjilove
2019-09-18 10:48:54 +08:00
如果考虑到后期分布式的便携性。scrapy 是很好的选择,如果只是单机跑跑,其实上不上 scrapy 都可以

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/601693

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX