大家爬虫一般都用什么框架？有什么教程推荐吗？

whooami

297 天前

@eluotao 很牛啊，如果可以的话，很想听听你一套房的故事。

alinwu05

297 天前

用 PHP 做，选一个浏览器的库，前后端界面一把梭

llsquaer

297 天前

requests 足够不用去学其他框架了..大概率根本用不上... 需要模拟的话 playwright 够用了

yrj

297 天前

pyspider ，作者也在这个社区。不过好久没更新了。

bigha

297 天前

requests 爬遍天下，遇到反扒的就加上 nodejs 一起

不过个人喜欢把 js 的算法用 python 重新实现一边

alinwu05

297 天前

@daqin 浏览器无非是 HTTP 请求组成的，所以用 Guzzle 库就可以了 , DOM 库我用 DiDOM, 支持 XPATH 和 CSS 选择器。

whooami

297 天前

手工汇总排名：3 票以上
1 、自己手工写的（包括 requests/XMLHttpRequest 之类的)（各各身怀绝技，都是大牛）
2 、scrapy （ 14+)
3 、Puppeteer （ 6+）
4 、playwright (4+)

blankmiss

297 天前

爬虫最难的不就是风控和逆向吗其他有什么区别吗

libook

297 天前

@whooami #18 Puppeteer 有无头模式，我就是自己开发爬虫，然后打成 Docker 镜像扔服务器上跑的，遇到没法无头调试的 bug 才会在本地关闭无头模式看一看页面到底变成啥样了。

whooami

297 天前

@blankmiss 所以就想看看有没有什么框架可以在这方面为小白处理掉一部分问题
@libook 嗯嗯，感谢指教

wocao666

290 天前

@justin2018 点进去一看，原来是 playwright 封装的

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.