高估了 GPT5.5 ehigh 的能力 - V2EX

Home Sign Up Sign In

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

周末用 GPT5.5 ehigh （全程官方订阅+Codex ）写了一个 AI 小说 App 。

PRD 是和 AI 讨论后再 Review 实现的，然后 5.5 根据 PRD 生成实现计划。主要涉及到上下文管理和多 Agent 协作，还是有一点复杂。

用 goal 跑了接近 2 个小时，用的 TDD 的流程开发的，代码看起来像模像样的，测试也很全。结果最后的成品让我大吃一惊，不但点按钮没有任何反应，在把可见 Bug 通过把报错信息丢给 AI 修复后发现很多地方还是用不了，直接用的模拟数据。而且有很多地方设计也很不合理。

之前在修复某一个 Bug 或者解决某一个单一需求时 GPT 给我的感觉良好，结果这种长程任务没想到完成的这么糟糕，也不知道是模型降智了还是能力上限就在这了。

22 replies • 2026-06-22 20:29:08 +08:00

1

musi

2 days ago via iPhone

2

可能是降智了
我让它拆分重构一个 8k+的 ts 文件
它先帮我 copy 了一份然后 rename
在原始文件中导入这个新的文件
然后和我说重构完成，现在只有一行代码

2

JasonYip

2 days ago via Android

感觉现在 ai coding 长程任务还是避免只能人工拆解需求一点点丰富实现到后面上下文腐化太明显

3

deepbytes

2 days ago via iPhone

配合 superpower 或者 ponytail 试试

4

willm

2 days ago via Android

@musi 完美

5

maolon

2 days ago

不光削了 thinking effort ，还肯定量化了模型，现在 5.5 蠢的没法用，
我觉得单纯写代码还不如 composer2.5, 和两个月前比根本不是一个模型。

6

Dream4U

2 days ago

准备上 5.6 了

7

lujiaosama

2 days ago

@deepbytes 一样的。SUPERPOWER+GOAL+5.5 EXTRA HIGH 仍然不能避免最后端了陀大的出来。只能阶段性人工确认有没有问题才往下。

8

wuyiccc

2 days ago

是的，昨晚用 5.5 xhigh 写代码，我说让他直接抄我前面的代码就可以了，结果写出来的代码差点给我快气死，

9

andrew2558

2 days ago

@musi 这么离谱？

10

jmliang

2 days ago

Android APP 吗？可以这样，让它写完之后启动本机的安卓模拟器进行功能测试。这样就有闭环。

11

qazwsxkevin

2 days ago

@musi 100% 用了掺水中转，要么就是写 AGENTS.md 和任务表达上出问题了；

12

deepbytes

2 days ago via iPhone

@lujiaosama ……属实难顶

13

musi

2 days ago via iPhone

@qazwsxkevin #11 用的是官方订阅 200 刀的套餐，没有经过任何中转，直接登录的账号，另外也没有用任何 agents.md

14

nc

2 days ago

https://marginlab.ai/trackers/codex/

这个监测没有表明明显降智，我也没有感受到明显的降智。OpenAI 难不成对不同用户选择性降智，不过这永远是个黑箱

15

ryougifujino

OP

2 days ago

@maolon 还真是，我后面还用 composer2.5 重搞了一次，虽然设计要简单一些，UI 要丑一些，但至少能跑起来。

16

ryougifujino

OP

2 days ago

@nc 也有可能是我们高估了 5.5 的能力。

17

honjow

2 days ago

@musi #1 笑死了

18

yu180

2 days ago

一直压缩压缩压缩，多次压缩可能就忘了最开始要做什么了，可能就是中间某一步分支的流程接着往下走了

19

lizhenda

2 days ago via iPhone

还有 ehigh 模式？

20

wangbawangba

2 days ago

是因为现在史诗级大降智。

不知道 openai 在搞啥。如图

21

asuraa

2 days ago

xhigh 不适合写代码。会过分思考要么用 5.5 high 或者 5.4 xhigh

22

ryougifujino

OP

2 days ago

@wangbawangba 这是什么网站？

About · Help · Advertise · Blog · API · FAQ · Solana · 926 Online Highest 6679 ·

Select Language

创意工作者们的社区

World is powered by solitude

VERSION: 3.9.8.5 · 59ms · UTC 20:40 · PVG 04:40 · LAX 13:40 · JFK 16:40
♥ Do have faith in what you're doing.