yarkyaonj

claude code 降智被实锤了

  •  1
     
  •   yarkyaonj · Apr 13 · 8821 views
    This topic created in 33 days ago, the information mentioned may be changed or developed.

    上周 Claude Opus 4.6 在 BridgeBench 的幻觉基准测试中排名第 2 ,准确率达 83.3%。

    今天 Claude Opus 4.6 重新测试后,在排行榜上跌至第 10 ,准确率仅 68.3%。

    可以确认 Claude Opus 4.6 的推理水平降低,确实被削弱了。

    图片

    https://imgur.com/a/u7Np8Wk

    38 replies    2026-04-14 17:55:45 +08:00
    gpt5
        1
    gpt5  
       Apr 13
    我也很明显感受到了它现在经常颠三倒四
    yougo
        2
    yougo  
       Apr 13
    https://aistupidlevel.info/ 这里有实时的版本 昨天一度降到比 sonnet 还蠢。我已经因为服务质量申请全额退款 并且不会再考虑 claude code 订阅
    hitrip
        3
    hitrip  
       Apr 13
    不一定是永久降智,有时候是环境 bug 引起的
    yarkyaonj
        4
    yarkyaonj  
    OP
       Apr 13
    @hitrip 全球用户都反映有降智现象,现在又有数据实锤
    nc
        5
    nc  
       Apr 13
    A\估计在训练新模型,临时降智一下,GPU 优先给训练。A\在基础设施投资这块完全比不上 OpenAI ,公司内部两个团队在疯狂抢 GPU 。
    FqwKVgsv
        6
    FqwKVgsv  
       Apr 13
    非常非常明显的感觉到 claude 降智了 甚至我有时候说的问题的意思都没搞懂 得给它解释意思解释了半天
    yarkyaonj
        7
    yarkyaonj  
    OP
       Apr 13
    @nc 问题是这对已经付费的用户很不公平,付了一个月或者一年钱,结果半途降智
    whoosy
        8
    whoosy  
       Apr 13
    升级到 2.1.104 版本再试试,昨天已经变聪明了
    potatowish
        9
    potatowish  
       Apr 13 via iPhone
    api 也降智? 价格还是一样的
    fredweili
        10
    fredweili  
       Apr 13
    opus 贵的多,就用 sonnet
    yuruizhe
        11
    yuruizhe  
       Apr 13
    降智是什么意思?
    66beta
        12
    66beta  
       Apr 13
    很明显,让它从一个页面上抓取一些数据都抓不全,不过别难过,gemini 也这个吊样。如果是自己出钱,建议大家去试试国产 AI
    EthanZC
        13
    EthanZC  
       Apr 13
    算力不够,就这样,无解
    yarkyaonj
        14
    yarkyaonj  
    OP
       Apr 13
    @yuruizhe 就是变笨了,智商下降的意思
    deplives
        15
    deplives  
       Apr 13
    是的,最近很明显能感觉出来。opus 甚至很多时候不如 sonnet 了
    gpt5
        16
    gpt5  
       Apr 13
    网页版和 cli 上都明显感受到了降智
    zerovoid
        17
    zerovoid  
       Apr 13
    @yuruizhe #11 就跟下棋一样,比如平时高手能算到 50 步以后的局势,现在只能算到 10 步以后,那大家肯定能感觉出来这个高手变笨了。
    teaguexiao
        18
    teaguexiao  
       Apr 13
    最近确实感受到了。之前用 Opus 处理复杂的多文件重构任务,能一次把上下文全理清楚;最近同样的任务开始频繁出现循环、重复修改的情况。用 API 调用也是一样的表现,不是客户端的问题。现在形成习惯了:重要任务配合 Sonnet 一起用,Sonnet 做大部分工作,Opus 只负责高层设计和少量关销节点。怪的是这样反而更稳定了。
    isora
        19
    isora  
       Apr 13
    copilot 上也是写完让审查下代码都没发现问题,然后让 gpt5.4 审查下一下就发现问题,再把问题给 opus 确认修复
    sentinelK
        20
    sentinelK  
       Apr 13
    所以在如此背景的前提下,一堆人还在炒作基于 LLM 的工程化实现的优劣,简直贻笑大方。
    lsearsea
        21
    lsearsea  
       Apr 13 via Android
    a\还能算力不够?被谁卡脖子?
    vultr
        22
    vultr  
       Apr 13
    用 codex 也不错的说
    longxinglink
        23
    longxinglink  
       Apr 13
    我看的是这个检测网站的数据,是个带立场的跟踪站,不是完全中立
    他家用相同一套题目给 Claude 和 gpt 做,Claude 的数据对比上个月甚至还有改善,不知道楼主的数据来自那里?
    https://marginlab.ai/trackers/claude-code/
    https://marginlab.ai/trackers/codex/
    MengLUO
        24
    MengLUO  
       Apr 13
    某国产顶流近期一夜之间把大量月付 400 多的 max 用户账号降到连你好都 429 禁止访问
    csfreshman
        25
    csfreshman  
       Apr 13
    估计算力紧张,让出算力给新模型了?
    xFrye
        26
    xFrye  
       Apr 13
    说明新模型要出来了
    prosgtsr
        27
    prosgtsr  
       Apr 13
    每次要出新模型的时候,旧模型都会降智,不过以前是等等新模型出来用新模型就好了
    这次是出了新模型,但是不给你用,所以我们现在用的全都是降智的。。
    Plutooo
        28
    Plutooo  
       Apr 13
    要跟几天后的 gpt6 中门对狙了
    craftsmanship
        29
    craftsmanship  
       Apr 13 via Android
    @xFrye 已经出了 但不给用
    loveshuyuan
        30
    loveshuyuan  
       Apr 13
    同样感受到降智
    beimenjun
        31
    beimenjun  
    PRO
       Apr 13
    这家实在太爱又当又立了。

    我使用官方 200 刀套餐,周末感受到了前所未有的降智感。

    之前还说什么不会因为算力不足 blabla 。

    明显只是少数人使用的新模型,就让 Opus 算力被削弱成这样。就算今天都没恢复。
    tianhehechu
        32
    tianhehechu  
       Apr 13
    @yuruizhe 以人类比,人 ⌈降智⌋ 后,会在此问题下问:⌈降智是什么意思?⌋
    fovecifer
        33
    fovecifer  
       Apr 13
    前一阵是 token 消耗过快的问题
    现在是降智
    alexluo1
        34
    alexluo1  
       Apr 13
    去年有过一次全球范围的降智,是 bug 引起的,那时候我刚开了 100 刀套餐,血亏
    apibox
        35
    apibox  
       Apr 13
    确实,最近特别明显
    superkite
        36
    superkite  
       Apr 14
    claude 要出 mythos 了,现在算力全往这个 agi 模型上倾斜
    piaca
        37
    piaca  
       Apr 14
    小声点,别让官方听见封我们的号
    qiqw
        38
    qiqw  
       Apr 14
    确实太明显了, 今天用了一天, 感觉傻傻的, opus4.6 开 high, 动不动就道歉, 难受呀
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   1249 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 105ms · UTC 17:40 · PVG 01:40 · LAX 10:40 · JFK 13:40
    ♥ Do have faith in what you're doing.