大家爬虫一般都用什么框架？有什么教程推荐吗？

damila

295 天前

纯用 node 爬，其实已经基本满足需求了。另外 puppeteer 真的是神器，可以爬很多原来爬不了的东西。

liylcn

295 天前

@xiangyuecn 好兄弟，借一步说话

enchilada2020

295 天前

一个疑问解析 HTML 之类的 JS 岂不是比 Python 更如鱼得水原生 Web API 拿来就用为啥都喜欢用 Python 来写爬虫？

lambdaq

295 天前

手搓

wjx0912

295 天前

Puppeteer +1

wjup

295 天前

requests + beautifulsoup 纯手撸，没写过复杂的爬虫。也就爬取点自己感兴趣的玩玩

tingyunsay

295 天前

当年我一个人用 pyspider 自己改写了下接到公司平台，维护了两百多个爬虫脚本，不过原作大佬已经不维护了，但是应该还能用

jackOff

295 天前

我爬虫一直都是手撸，因为这样子门清，知道大概频率和强度，和楼上那位提议不使用爬虫框架类似的心态，我主要是怕触发铁窗泪成就，大多数情况下就是 requests 加正则去匹配数据，稍微难搞就用 beautifulsoup 。偶尔需要一点点效率就用一次异步。再复杂的脚手架就没玩过了

pzj4437

295 天前

@xiangyuecn
@liylcn
都是兄弟一起走一部

777777

295 天前

为什么都不考虑 go 写

dcsuibian

295 天前

@enchilada2020 我就是都用 js 写的，确实更加如鱼得水。尤其是学到的前端知识可以高度复用，而且对于 puppeteer 这种无头浏览器来说，js 还是一等公民

aosan926

295 天前

Java ，简单的直接 Http 请求，复杂的用的 selenium

danbai

295 天前

我用 https://github.com/go-rod/rod

Belmode

295 天前

Java webmagic

justin2018

295 天前

Crawlee · Build reliable crawlers. Fast. | Crawlee

https://crawlee.dev/

eluotao

295 天前

如果是业务需求，可以接触 python 的 scrapy ，虽然很多人都不推荐，但这适合大多数入门的人，这个框架可是帮我拿下一套房的大功臣。

针对业务：能用 and 稳定就足够，性能不够多开就好。

针对个人兴趣：也建议走一遍 scrapy 的流程，慢慢就会把一些核心的或者功能没那么复杂的爬虫任务，单独拆分自己编写，再配合 cron 和青龙面板就能解决了

任何技术最终都是要变现，能变现就是好技术。不一定要选择最优的方法，最牛的技术。

whooami

295 天前

@yvescheung 嗯嗯，看到文档了

whooami

295 天前

看出来了，都是高手啊，感谢各位的建议。还有很多手写的，厉害厉害

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/971606

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.