大家爬虫一般都用什么框架?有什么教程推荐吗?

298 天前
 whooami
6790 次点击
所在节点    程序员
58 条回复
whooami
297 天前
@eluotao 很牛啊,如果可以的话,很想听听你一套房的故事。
shanghai1998
297 天前
八爪鱼,真好用
alinwu05
297 天前
用 PHP 做,选一个浏览器的库,前后端界面一把梭
HankLu
297 天前
写爬虫,救不了中国
wellerman
297 天前
PHP 加个 DOM 库,很快。
daqin
297 天前
@alinwu05 啥浏览器库?
llsquaer
297 天前
requests 足够 不用去学其他框架了..大概率根本用不上... 需要模拟的话 playwright 够用了
yrj
297 天前
pyspider ,作者也在这个社区。不过好久没更新了。
wocao666
297 天前
scrapy+playwright
wocao666
297 天前
千万不要用 splash ,本人已经踩过坑
bigha
297 天前
requests 爬遍天下,遇到反扒的就加上 nodejs 一起

不过个人喜欢把 js 的算法用 python 重新实现一边
alinwu05
297 天前
@daqin 浏览器无非是 HTTP 请求组成的,所以用 Guzzle 库就可以了 , DOM 库我用 DiDOM, 支持 XPATH 和 CSS 选择器。
whooami
297 天前
手工汇总排名:3 票以上
1 、自己手工写的(包括 requests/XMLHttpRequest 之类的)(各各身怀绝技,都是大牛)
2 、scrapy ( 14+)
3 、Puppeteer ( 6+)
4 、playwright (4+)
blankmiss
297 天前
爬虫 最难的不就是风控 和 逆向吗 其他有什么区别吗
libook
297 天前
@whooami #18 Puppeteer 有无头模式,我就是自己开发爬虫,然后打成 Docker 镜像扔服务器上跑的,遇到没法无头调试的 bug 才会在本地关闭无头模式看一看页面到底变成啥样了。
whooami
297 天前
@blankmiss 所以就想看看有没有什么框架可以在这方面为小白处理掉一部分问题
@libook 嗯嗯,感谢指教
wocao666
290 天前
@justin2018 点进去一看,原来是 playwright 封装的
psyer
247 天前
@eluotao 青龙面板是啥?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/971606

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX