V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
rainbowmorel
V2EX  ›  问与答

2025 年如果还想做一些爬虫相关的任务,还是首选 scrapy 吗?

  •  
  •   rainbowmorel · 140 天前 · 1785 次点击
    这是一个创建于 140 天前的主题,其中的信息可能已经有所发展或是发生改变。

    现在的反爬技术,已经让一些没有安全相关的工作者无法进行。scrapy 这类框架貌似还是使用 http 协议相关的操作。不知道现在各位大佬都在用什么让自己可以有更多的摸鱼时间的工具!

    萌新求助

    9 条回复    2025-05-21 11:05:01 +08:00
    march1993
        1
    march1993  
       140 天前
    我感觉 scrapy 只是个玩具,chromedp 之类的依靠 Chrome DevTools Protocol 的才是正经爬虫方案
    dssxzuxc
        2
    dssxzuxc  
       140 天前
    2025 年了,除了无头的方案都可以退休了。国内还好,一堆网站跟不设防差不多,你可以继续用上古爬虫,国外全上了 CF/AWS ,过 js 挑战以及伪造 tls 指纹是最基本的,掂量下非无头能不能实现,就算实现了难度和时间花费不是一个量级的。
    mumbler
        4
    mumbler  
       140 天前   ❤️ 1
    首选 browser use
    lasuar
        5
    lasuar  
       139 天前
    大家都没有心思再去分析复杂的接口了,基本都是上无头。scrapy 已经廉颇老矣了。
    rainbowmorel
        6
    rainbowmorel  
    OP
       136 天前
    @mumbler 这个会不会有点慢
    rainbowmorel
        7
    rainbowmorel  
    OP
       136 天前
    @march1993 11111
    QHKZ
        8
    QHKZ  
       135 天前 via iPhone
    试试一些自动化测试框架吧,比如谷歌浏览器的 puppeteer ,前端的 playwright 框架。这些东西比 scrapy 要强不少,动态网站也能爬,还能模拟输入重放,能不能过反爬不好说。
    rainbowmorel
        9
    rainbowmorel  
    OP
       120 天前
    @crab 啊原来还有这个东西 666 我一直以为只能用无头浏览器的
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3828 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 29ms · UTC 05:16 · PVG 13:16 · LAX 22:16 · JFK 01:16
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.