大家爬虫一般都用什么框架?有什么教程推荐吗?

296 天前
 whooami
6777 次点击
所在节点    程序员
58 条回复
yvescheung
295 天前
@whooami 不会,playwright 用的是自己的浏览器驱动
Masterlxj
295 天前
不用框架,纯手撸
damila
295 天前
纯用 node 爬,其实已经基本满足需求了。另外 puppeteer 真的是神器,可以爬很多原来爬不了的东西。
liylcn
295 天前
@xiangyuecn 好兄弟,借一步说话
enchilada2020
295 天前
一个疑问 解析 HTML 之类的 JS 岂不是比 Python 更如鱼得水 原生 Web API 拿来就用 为啥都喜欢用 Python 来写爬虫?
lambdaq
295 天前
手搓
wjx0912
295 天前
Puppeteer +1
wjup
295 天前
requests + beautifulsoup 纯手撸,没写过复杂的爬虫。也就爬取点自己感兴趣的玩玩
tingyunsay
295 天前
当年我一个人用 pyspider 自己改写了下接到公司平台,维护了两百多个爬虫脚本,不过原作大佬已经不维护了,但是应该还能用
jackOff
295 天前
我爬虫一直都是手撸,因为这样子门清,知道大概频率和强度,和楼上那位提议不使用爬虫框架类似的心态,我主要是怕触发铁窗泪成就,大多数情况下就是 requests 加正则去匹配数据,稍微难搞就用 beautifulsoup 。偶尔需要一点点效率就用一次异步。再复杂的脚手架就没玩过了
pzj4437
295 天前
@xiangyuecn
@liylcn
都是兄弟 一起走一部
777777
295 天前
为什么都不考虑 go 写
dcsuibian
295 天前
@enchilada2020 我就是都用 js 写的,确实更加如鱼得水。尤其是学到的前端知识可以高度复用,而且对于 puppeteer 这种无头浏览器来说,js 还是一等公民
aosan926
295 天前
Java ,简单的直接 Http 请求,复杂的用的 selenium
danbai
295 天前
Belmode
295 天前
Java webmagic
justin2018
295 天前
Crawlee · Build reliable crawlers. Fast. | Crawlee

https://crawlee.dev/
eluotao
295 天前
如果是业务需求,可以接触 python 的 scrapy ,虽然很多人都不推荐,但这适合大多数入门的人,这个框架可是帮我拿下一套房的大功臣。

针对业务:能用 and 稳定就足够,性能不够多开就好。

针对个人兴趣:也建议走一遍 scrapy 的流程,慢慢就会把一些核心的或者功能没那么复杂的爬虫任务,单独拆分自己编写,再配合 cron 和 青龙面板 就能解决了

任何技术最终都是要变现,能变现就是好技术。不一定要选择最优的方法,最牛的技术。
whooami
295 天前
@yvescheung 嗯嗯,看到文档了
whooami
295 天前
看出来了,都是高手啊,感谢各位的建议。还有很多手写的,厉害厉害

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/971606

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX