miusmile

codex 与 Claude 相比,仍然存在差距

  •  
  •   miusmile · 3 days ago · 5881 views

    昨天晚上一个问题,使用 codex 进行修复,修了 A bug ,出现了 B bug ,修了 B ,出现 A 。反反复复实在受不了,尝试 Claude 4.8 ,一次性完美解决。

    39 replies    2026-06-18 14:06:39 +08:00
    JYii
        1
    JYii  
       3 days ago   ❤️ 7
    你的论据,有没有可能反过来也成立
    connor123
        2
    connor123  
       3 days ago
    身边统计学,太片面
    ffLoveJava
        3
    ffLoveJava  
       3 days ago
    我也遇到了 最简单的需求 cc 竟然只处理 db 而忽略了 rustfs 中的文件,简直逆天。
    同样的 prompt 复制给 codex 让他列出计划和代码 完美实现
    你怎么说
    jlctboy
        4
    jlctboy  
       3 days ago
    我们老的 java,项目,codex 每次都是一把过
    xiaoz
        5
    xiaoz  
       3 days ago via Android
    一个例子说明不了什么。
    KOMA1NIUJUNSHENG
        6
    KOMA1NIUJUNSHENG  
       3 days ago
    典型的幸存者偏差
    ExplodingDragon
        7
    ExplodingDragon  
       3 days ago
    {a} 与 {b} 相比,仍然存在差距

    昨天晚上一个问题,使用 {a} 进行修复,修了 A bug ,出现了 B bug ,修了 B ,出现 A 。反反复复实在受不了,尝试 {b} ,一次性完美解决。


    可在模板填入任何模型/客户端 ,适用于任何上下文(
    Sundayz
        8
    Sundayz  
       3 days ago
    Claude 与 codex 相比,仍然存在差距

    昨天晚上一个问题,使用 Claude 进行修复,修了 A bug ,出现了 B bug ,修了 B ,出现 A 。反反复复实在受不了,尝试 gpt 5.5 ,一次性完美解决。
    zisen
        9
    zisen  
       3 days ago
    我昨晚 debug ,qwen3.7 一把过,opus4.6 反反复复搞不清重点,同样的提示词
    tho
        10
    tho  
       3 days ago
    虽然我是 claude 重度用户,但必须要承认偶尔有几次 claude 反复没解决的,用 5.5 一次解决了。
    Paii
        11
    Paii  
       3 days ago
    跟你的体验恰好相反
    cinhoo
        12
    cinhoo  
       3 days ago via iPhone
    @ExplodingDragon 难怪/goal 一直结束不了,修了 10 个小时的 bug🐶
    andrew2558
        13
    andrew2558  
       3 days ago
    说过很多遍了,这种情况,在头部几个 ai 中都存在,一个 ai 修一个问题反复解决不了,换一个很大概率一下就好了。
    Rat3
        14
    Rat3  
       3 days ago
    论证水平跟问 AI 是什么模型来确定蒸馏了什么一样
    itskingname
        15
    itskingname  
       3 days ago
    我刚好反过来。我这里有一个网页,渲染了一张卡片。在网页上卡片非常好看,但是使用 html2canvas 导出图片,会发现文字错位,元素没有加载完成。使用 claude code + opus 4.8 改了半天,它把 html2canvas 改为了 html-2-image,结果导出来就是空白图片了。然后让它修了十多次,每次都说修好了,每次导出还是空白图片。

    然后我把代码回滚,把使用 Codex + GPT 5.5 xhigh ,相同的让它修复 bug 的 prompt ,一次改好,导出的图片和网页上显示的一模一样。
    miusmile
        16
    miusmile  
    OP
       3 days ago
    可能是我之前一直用的 Claude code ,调教的比较好,codex 刚用不久
    m952755064
        17
    m952755064  
       3 days ago
    我之前都开了一个月,感觉 4.7 4.8 都不如 5.5,5.4 的时候确实不如 claude 好使
    SayHelloHi
        18
    SayHelloHi  
       2 days ago
    Clade 4.8 和 GPT 5.5

    用他们 2 个 相互解决 最终问题解决了 😀
    crocoii
        19
    crocoii  
       2 days ago via Android
    claude 解决不了用 codex ,codex 解决不了用 claude 。整体还是 codex 干活利索。
    jinsongzhaocn
        20
    jinsongzhaocn  
       2 days ago
    有可能 claude 继续使用了 codex 生成的上下文,现在的模型评测也都没有说明他们的测试环境是否干净,在 claude 下面,我甚至删除了~/.claude/projects 目录里项目目录,重启再次切换模型供应商,还是发现了残留记忆,说明还有全局记忆库存在,简单的切换模型不能证明什么
    alexluo1
        21
    alexluo1  
       2 days ago
    我最近发现 opus 4.8 太慢了,慢到令人发指
    calvinHxx
        22
    calvinHxx  
       2 days ago
    瑜与亮 罢了 都有好用 都有不好用的时候。
    woaipaojiao
        23
    woaipaojiao  
       2 days ago
    反过来的也有体感。之前 claude4.8 也容易死循环,容易破防开骂,但是用了 5.5 感觉言简意赅。不过确实,两个都有好用和不好用得时候。
    jackerbauer
        24
    jackerbauer  
       2 days ago
    一次说明不了任何问题
    prosgtsr
        25
    prosgtsr  
       2 days ago
    claude 4.6 出的时候,网上一顿吹
    claude 4.7 出的时候,网上一顿吹
    claude 4.8 出的时候,没看到吹的
    claude fable 5 出的时候,网上一顿吹
    sagnitude
        26
    sagnitude  
       2 days ago
    模型本身会变,没有参考和比较的价值,只能靠体感,谁也不知道今天轮到谁降智了
    gloeaerris
        27
    gloeaerris  
       2 days ago
    用的是同一套提示词和上下文吗?不会是拿一个用了很久的 A+历史积累对比 B+一片空白历史对话对比吧,对比就在同一环境和参数下,不要田忌赛马对比
    gaxila
        28
    gaxila  
       2 days ago
    都是工具罢了, 现在两个混着用, 有些难题, 不提供指导性的意见都没有用
    409164
        29
    409164  
       2 days ago
    不降智的情况下,claude 解决问题的能力的确比 codex 强,不过现在的情况是,有能力会把这两个都订阅然后互相校准
    Linioi
        30
    Linioi  
       2 days ago
    Claude 文风比 Codex 舒服多了,并且 Codex 的代码总是过度防御,真的很难放心让它写啊,每次还是得 review 一下它的测试代码。
    jjx
        31
    jjx  
       2 days ago
    claude 很多时候用慢来保证正确性
    cosmosz
        32
    cosmosz  
       2 days ago
    就这正文严谨性,完全没有参考价值😓。
    codex 用的什么 model ,什么 thinking effort 。

    修完 A 加个测试,管你用哪家的 model ,还会再现?
    KuAoaoaoao
        33
    KuAoaoaoao  
       2 days ago
    做过一个对比,用 opus4.8 和 gpt5.5 思考程度都是高,处理一批 excel 数据,三个文件,这三个文件中的数据是能互相关联的,A->B->C ,如果有空缺,则让 ai 补充完整,保持关联的完整性,然后两个 ai 的处理结果大差不差,不过区别就是关联 C 和 B 的时候,opus 会把一些可能属于 C 的 B 进行关联,而 gpt 会把直接为 C 生成新的 B 。感觉 opus 的思考比较多,更人性化一点
    abel533
        34
    abel533  
       2 days ago
    @JYii 反过来成立,以前用 copilot cli 时,这俩模型互相帮助。
    blufaux
        35
    blufaux  
       2 days ago via iPhone
    似乎 claude 对于物理的理解有些偏差
    wm5d8b
        36
    wm5d8b  
       2 days ago via Android
    kimi 写的屎山代码让 cc+4.8 修,claude 直接读了开发文档,说 perfect 。再次要求其读代码,也看不出什么毛病。换用 codex+5.5 ,一次修好通过测试
    derrick5788
        37
    derrick5788  
       2 days ago
    双持最优解
    the9art
        38
    the9art  
       1 day ago
    我跟你是相反,我怎么感觉 A 处的 Claude Code 很反智呢,模型没有问题,但是他总是怀疑我的环境没有部署好。我怀疑我的上传文件有问题,就是不怀疑它写的代码有问题。然后我给他反复反复反复把环境给他看确认之后。他终于把那个小 bug 改掉了。但是我只要把这个文件传给 Codex ,指出 bug 他一次性改好,从来不怀疑我。
    a➗就是想方设法的烧 token
    crocoii
        39
    crocoii  
       1 day ago via Android
    今天 opus 的表现,能把我键盘摔掉,一个小 bug ,这货竟然看只看文档,不看代码说已经修好了。
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   2666 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 6b34f497 · 103ms · UTC 03:45 · PVG 11:45 · LAX 20:45 · JFK 23:45
    ♥ Do have faith in what you're doing.