有 50w+完全不一样的网址要爬，用 requests 还是 scrapy？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 2951 天前的主题，其中的信息可能已经有所发展或是发生改变。

这 50w+的网址，完全不重复，而且只爬个首页

大家觉得用 requests 还是 scrapy ？

能说说这种场景下，两者的优势吗？

谢谢

10 条回复 • 2017-08-17 20:49:28 +08:00

bazingaterry

2017-08-17 12:25:53 +08:00 via iPhone

一个是爬虫框架，一个是 HTTP Client 库，有得比吗？

除非是很不熟悉 Python，不然果断 Scrapy 啊。

e9e499d78f

2017-08-17 12:48:48 +08:00

wget

cdwyd

2017-08-17 13:00:18 +08:00 via Android

才 50w，requests 就行

tennc

2017-08-17 14:29:48 +08:00

requests 遍历打开网址，只存储首页~ 就好了~~

misaka19000

2017-08-17 14:30:23 +08:00 via Android

50w，没什么区别

misaka19000

2017-08-17 14:30:42 +08:00 via Android

熟悉哪个用哪个

liangmishi

2017-08-17 14:54:46 +08:00 via Android

感觉两者都可以，还可以用 aiohttp 这个异步库，50 万不用多久就可以跑完了

terrawu

2017-08-17 15:03:21 +08:00

像这种逻辑不复杂又追求速度的话，elrang 或者 go。我的结果是，主流方案中 erlang 效果最佳。

wlsnx

2017-08-17 15:49:06 +08:00

没区别

fiht

2017-08-17 20:49:28 +08:00

最省心的解决办法应该是给我 500 块我给你数据。
不信的话你自己试试看 =、=

有 50w+完全不一样的网址要爬， 用 requests 还是 scrapy？