• 请不要在回答技术问题时复制粘贴 AI 生成的内容
ryougifujino
V2EX  ›  程序员

高估了 GPT5.5 ehigh 的能力

  •  
  •   ryougifujino ·
    ryougifujino · 2 days ago · 3041 views
    周末用 GPT5.5 ehigh (全程官方订阅+Codex )写了一个 AI 小说 App 。

    PRD 是和 AI 讨论后再 Review 实现的,然后 5.5 根据 PRD 生成实现计划。主要涉及到上下文管理和多 Agent 协作,还是有一点复杂。

    用 goal 跑了接近 2 个小时,用的 TDD 的流程开发的,代码看起来像模像样的,测试也很全。结果最后的成品让我大吃一惊,不但点按钮没有任何反应,在把可见 Bug 通过把报错信息丢给 AI 修复后发现很多地方还是用不了,直接用的模拟数据。而且有很多地方设计也很不合理。

    之前在修复某一个 Bug 或者解决某一个单一需求时 GPT 给我的感觉良好,结果这种长程任务没想到完成的这么糟糕,也不知道是模型降智了还是能力上限就在这了。
    22 replies    2026-06-22 20:29:08 +08:00
    musi
        1
    musi  
       2 days ago via iPhone   ❤️ 2
    可能是降智了
    我让它拆分重构一个 8k+的 ts 文件
    它先帮我 copy 了一份然后 rename
    在原始文件中导入这个新的文件
    然后和我说重构完成,现在只有一行代码
    JasonYip
        2
    JasonYip  
       2 days ago via Android
    感觉现在 ai coding 长程任务还是避免 只能人工拆解需求一点点丰富实现到 后面上下文腐化太明显
    deepbytes
        3
    deepbytes  
       2 days ago via iPhone
    配合 superpower 或者 ponytail 试试
    willm
        4
    willm  
       2 days ago via Android
    @musi 完美
    maolon
        5
    maolon  
       2 days ago
    不光削了 thinking effort ,还肯定量化了模型,现在 5.5 蠢的没法用,
    我觉得单纯写代码还不如 composer2.5, 和两个月前比根本不是一个模型。
    Dream4U
        6
    Dream4U  
       2 days ago
    准备上 5.6 了
    lujiaosama
        7
    lujiaosama  
       2 days ago
    @deepbytes 一样的。SUPERPOWER+GOAL+5.5 EXTRA HIGH 仍然不能避免最后端了陀大的出来。只能阶段性人工确认有没有问题才往下。
    wuyiccc
        8
    wuyiccc  
       2 days ago
    是的,昨晚用 5.5 xhigh 写代码,我说让他直接抄我前面的代码就可以了,结果写出来的代码差点给我快气死,
    andrew2558
        9
    andrew2558  
       2 days ago
    @musi 这么离谱?
    jmliang
        10
    jmliang  
       2 days ago
    Android APP 吗?可以这样,让它写完之后启动本机的安卓模拟器进行功能测试。这样就有闭环。
    qazwsxkevin
        11
    qazwsxkevin  
       2 days ago
    @musi 100% 用了掺水中转,要么就是写 AGENTS.md 和任务表达上出问题了;
    deepbytes
        12
    deepbytes  
       2 days ago via iPhone
    @lujiaosama ……属实难顶
    musi
        13
    musi  
       2 days ago via iPhone
    @qazwsxkevin #11 用的是官方订阅 200 刀的套餐,没有经过任何中转,直接登录的账号,另外也没有用任何 agents.md
    nc
        14
    nc  
       2 days ago
    https://marginlab.ai/trackers/codex/

    这个监测没有表明明显降智,我也没有感受到明显的降智。OpenAI 难不成对不同用户选择性降智,不过这永远是个黑箱
    ryougifujino
        15
    ryougifujino  
    OP
       2 days ago
    @maolon 还真是,我后面还用 composer2.5 重搞了一次,虽然设计要简单一些,UI 要丑一些,但至少能跑起来。
    ryougifujino
        16
    ryougifujino  
    OP
       2 days ago
    @nc 也有可能是我们高估了 5.5 的能力。
    honjow
        17
    honjow  
       2 days ago
    @musi #1 笑死了
    yu180
        18
    yu180  
       2 days ago
    一直压缩压缩压缩,多次压缩可能就忘了最开始要做什么了,可能就是中间某一步分支的流程接着往下走了
    lizhenda
        19
    lizhenda  
       2 days ago via iPhone
    还有 ehigh 模式?
    wangbawangba
        20
    wangbawangba  
       2 days ago
    是因为现在史诗级大降智。

    不知道 openai 在搞啥。 如图
    asuraa
        21
    asuraa  
       2 days ago
    xhigh 不适合写代码。会过分思考 要么用 5.5 high 或者 5.4 xhigh
    ryougifujino
        22
    ryougifujino  
    OP
       2 days ago
    @wangbawangba 这是什么网站?
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   926 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 59ms · UTC 20:40 · PVG 04:40 · LAX 13:40 · JFK 16:40
    ♥ Do have faith in what you're doing.