miusmile

codex 与 Claude 相比,仍然存在差距

  •  
  •   miusmile · 7h 26m ago · 3992 views

    昨天晚上一个问题,使用 codex 进行修复,修了 A bug ,出现了 B bug ,修了 B ,出现 A 。反反复复实在受不了,尝试 Claude 4.8 ,一次性完美解决。

    33 replies    2026-06-17 17:01:19 +08:00
    JYii
        1
    JYii  
       7h 22m ago   ❤️ 4
    你的论据,有没有可能反过来也成立
    connor123
        2
    connor123  
       7h 21m ago
    身边统计学,太片面
    ffLoveJava
        3
    ffLoveJava  
       7h 16m ago
    我也遇到了 最简单的需求 cc 竟然只处理 db 而忽略了 rustfs 中的文件,简直逆天。
    同样的 prompt 复制给 codex 让他列出计划和代码 完美实现
    你怎么说
    jlctboy
        4
    jlctboy  
       7h 15m ago
    我们老的 java,项目,codex 每次都是一把过
    xiaoz
        5
    xiaoz  
       7h 9m ago via Android
    一个例子说明不了什么。
    KOMA1NIUJUNSHENG
        6
    KOMA1NIUJUNSHENG  
       7h 7m ago
    典型的幸存者偏差
    ExplodingDragon
        7
    ExplodingDragon  
       7h 4m ago
    {a} 与 {b} 相比,仍然存在差距

    昨天晚上一个问题,使用 {a} 进行修复,修了 A bug ,出现了 B bug ,修了 B ,出现 A 。反反复复实在受不了,尝试 {b} ,一次性完美解决。


    可在模板填入任何模型/客户端 ,适用于任何上下文(
    Sundayz
        8
    Sundayz  
       6h 58m ago
    Claude 与 codex 相比,仍然存在差距

    昨天晚上一个问题,使用 Claude 进行修复,修了 A bug ,出现了 B bug ,修了 B ,出现 A 。反反复复实在受不了,尝试 gpt 5.5 ,一次性完美解决。
    zisen
        9
    zisen  
       6h 57m ago
    我昨晚 debug ,qwen3.7 一把过,opus4.6 反反复复搞不清重点,同样的提示词
    tho
        10
    tho  
       6h 57m ago
    虽然我是 claude 重度用户,但必须要承认偶尔有几次 claude 反复没解决的,用 5.5 一次解决了。
    Paii
        11
    Paii  
       6h 50m ago
    跟你的体验恰好相反
    cinhoo
        12
    cinhoo  
       6h 40m ago via iPhone
    @ExplodingDragon 难怪/goal 一直结束不了,修了 10 个小时的 bug🐶
    andrew2558
        13
    andrew2558  
       6h 35m ago
    说过很多遍了,这种情况,在头部几个 ai 中都存在,一个 ai 修一个问题反复解决不了,换一个很大概率一下就好了。
    Rat3
        14
    Rat3  
       6h 33m ago
    论证水平跟问 AI 是什么模型来确定蒸馏了什么一样
    itskingname
        15
    itskingname  
       6h 22m ago
    我刚好反过来。我这里有一个网页,渲染了一张卡片。在网页上卡片非常好看,但是使用 html2canvas 导出图片,会发现文字错位,元素没有加载完成。使用 claude code + opus 4.8 改了半天,它把 html2canvas 改为了 html-2-image,结果导出来就是空白图片了。然后让它修了十多次,每次都说修好了,每次导出还是空白图片。

    然后我把代码回滚,把使用 Codex + GPT 5.5 xhigh ,相同的让它修复 bug 的 prompt ,一次改好,导出的图片和网页上显示的一模一样。
    miusmile
        16
    miusmile  
    OP
       6h 16m ago
    可能是我之前一直用的 Claude code ,调教的比较好,codex 刚用不久
    m952755064
        17
    m952755064  
       5h 30m ago
    我之前都开了一个月,感觉 4.7 4.8 都不如 5.5,5.4 的时候确实不如 claude 好使
    SayHelloHi
        18
    SayHelloHi  
       5h 23m ago
    Clade 4.8 和 GPT 5.5

    用他们 2 个 相互解决 最终问题解决了 😀
    crocoii
        19
    crocoii  
       4h 51m ago via Android
    claude 解决不了用 codex ,codex 解决不了用 claude 。整体还是 codex 干活利索。
    jinsongzhaocn
        20
    jinsongzhaocn  
       4h 30m ago
    有可能 claude 继续使用了 codex 生成的上下文,现在的模型评测也都没有说明他们的测试环境是否干净,在 claude 下面,我甚至删除了~/.claude/projects 目录里项目目录,重启再次切换模型供应商,还是发现了残留记忆,说明还有全局记忆库存在,简单的切换模型不能证明什么
    alexluo1
        21
    alexluo1  
       3h 53m ago
    我最近发现 opus 4.8 太慢了,慢到令人发指
    calvinHxx
        22
    calvinHxx  
       3h 29m ago
    瑜与亮 罢了 都有好用 都有不好用的时候。
    woaipaojiao
        23
    woaipaojiao  
       3h 14m ago
    反过来的也有体感。之前 claude4.8 也容易死循环,容易破防开骂,但是用了 5.5 感觉言简意赅。不过确实,两个都有好用和不好用得时候。
    jackerbauer
        24
    jackerbauer  
       3h 13m ago
    一次说明不了任何问题
    prosgtsr
        25
    prosgtsr  
       3h 13m ago
    claude 4.6 出的时候,网上一顿吹
    claude 4.7 出的时候,网上一顿吹
    claude 4.8 出的时候,没看到吹的
    claude fable 5 出的时候,网上一顿吹
    sagnitude
        26
    sagnitude  
       3h 7m ago
    模型本身会变,没有参考和比较的价值,只能靠体感,谁也不知道今天轮到谁降智了
    gloeaerris
        27
    gloeaerris  
       3h 0m ago
    用的是同一套提示词和上下文吗?不会是拿一个用了很久的 A+历史积累对比 B+一片空白历史对话对比吧,对比就在同一环境和参数下,不要田忌赛马对比
    gaxila
        28
    gaxila  
       2h 59m ago
    都是工具罢了, 现在两个混着用, 有些难题, 不提供指导性的意见都没有用
    409164
        29
    409164  
       2h 56m ago
    不降智的情况下,claude 解决问题的能力的确比 codex 强,不过现在的情况是,有能力会把这两个都订阅然后互相校准
    Linioi
        30
    Linioi  
       2h 13m ago
    Claude 文风比 Codex 舒服多了,并且 Codex 的代码总是过度防御,真的很难放心让它写啊,每次还是得 review 一下它的测试代码。
    jjx
        31
    jjx  
       2h 4m ago
    claude 很多时候用慢来保证正确性
    cosmosz
        32
    cosmosz  
       1h 58m ago
    就这正文严谨性,完全没有参考价值😓。
    codex 用的什么 model ,什么 thinking effort 。

    修完 A 加个测试,管你用哪家的 model ,还会再现?
    KuAoaoaoao
        33
    KuAoaoaoao  
       9 mins ago
    做过一个对比,用 opus4.8 和 gpt5.5 思考程度都是高,处理一批 excel 数据,三个文件,这三个文件中的数据是能互相关联的,A->B->C ,如果有空缺,则让 ai 补充完整,保持关联的完整性,然后两个 ai 的处理结果大差不差,不过区别就是关联 C 和 B 的时候,opus 会把一些可能属于 C 的 B 进行关联,而 gpt 会把直接为 C 生成新的 B 。感觉 opus 的思考比较多,更人性化一点
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   5240 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 112ms · UTC 09:10 · PVG 17:10 · LAX 02:10 · JFK 05:10
    ♥ Do have faith in what you're doing.