V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Pantheonn
V2EX  ›  程序员

求安利好用的 Python 爬虫框架

  •  
  •   Pantheonn · 11 小时 15 分钟前 · 905 次点击

    舍弃了 Selenium ,目前用的是 playwright ,大家都在用什么?

    8 条回复    2024-12-02 20:47:03 +08:00
    spritecn
        1
    spritecn  
       11 小时 7 分钟前
    requests + PyQuery,无头浏览器的话都差不多
    onll42y
        2
    onll42y  
       9 小时 58 分钟前
    requests + parsel
    zeusho871
        3
    zeusho871  
       9 小时 20 分钟前
    推荐用 requests 的,肯定不好使,那玩意儿不支持异步,用 httpx 可以 100%兼容,然后不能 tls 指纹,有的网站会检测 tls 指纹,找那种带 tls 指纹的请求库,比如 curl_cffi 啥的。如果不是协议爬虫,用浏览器爬的话,推荐 drissonpage 。用 selenium/playwright 有几个参数会被检测到,虽然也能做到,但是需要额外的代码。
    ospider
        4
    ospider  
       9 小时 15 分钟前   ❤️ 2
    不要滥用「框架」这个词。使用框架的时候,主循环在框架里,你只需要写回调或者 handler ,使用库的时候,主循环在你自己代码里,显然 playwright 是一个库。
    WhateverYouLike
        5
    WhateverYouLike  
       9 小时 10 分钟前 via iPhone
    偏题。node 的 crawlee 好用,算是框架。
    dule
        6
    dule  
       7 小时 24 分钟前
    你说的这两只能说是工具库,自动化浏览器跟爬虫框架根本搭不上边,python 知名的基本就这两个:scrapy 、pyspider
    HMYang33
        7
    HMYang33  
       5 小时 54 分钟前
    https://feapder.com/
    一个函数下发任务,一个函数处理结果。自动多线程
    iorilu
        8
    iorilu  
       4 小时 54 分钟前
    现在有啥自动生成提取规则的库吗

    我上次也想过用 ai 帮忙写点规则, 要能自动化就好了
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1349 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 20ms · UTC 17:41 · PVG 01:41 · LAX 09:41 · JFK 12:41
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.