求安利好用的 Python 爬虫框架

11 小时 25 分钟前
 Pantheonn

舍弃了 Selenium ,目前用的是 playwright ,大家都在用什么?

907 次点击
所在节点    程序员
8 条回复
spritecn
11 小时 16 分钟前
requests + PyQuery,无头浏览器的话都差不多
onll42y
10 小时 8 分钟前
requests + parsel
zeusho871
9 小时 29 分钟前
推荐用 requests 的,肯定不好使,那玩意儿不支持异步,用 httpx 可以 100%兼容,然后不能 tls 指纹,有的网站会检测 tls 指纹,找那种带 tls 指纹的请求库,比如 curl_cffi 啥的。如果不是协议爬虫,用浏览器爬的话,推荐 drissonpage 。用 selenium/playwright 有几个参数会被检测到,虽然也能做到,但是需要额外的代码。
ospider
9 小时 25 分钟前
不要滥用「框架」这个词。使用框架的时候,主循环在框架里,你只需要写回调或者 handler ,使用库的时候,主循环在你自己代码里,显然 playwright 是一个库。
WhateverYouLike
9 小时 20 分钟前
偏题。node 的 crawlee 好用,算是框架。
dule
7 小时 34 分钟前
你说的这两只能说是工具库,自动化浏览器跟爬虫框架根本搭不上边,python 知名的基本就这两个:scrapy 、pyspider
HMYang33
6 小时 3 分钟前
https://feapder.com/
一个函数下发任务,一个函数处理结果。自动多线程
iorilu
5 小时 4 分钟前
现在有啥自动生成提取规则的库吗

我上次也想过用 ai 帮忙写点规则, 要能自动化就好了

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1094356

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX