泼盆冷水， claude opus4.6 没有那么神！

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 63 天前的主题，其中的信息可能已经有所发展或是发生改变。

大家用 CloudOps 4.6 了吗？不知道大家体验如何？反正我用下来感觉提升真的不明显。但是如果打开 Twitter 会发现所有人都在吹：震惊！好厉害！天塌了！

不管是在原有项目上进行功能开发，还是开发新项目，我都觉得模型的能力并没有很大的提升。

我个人下一个暴论：三年之内 AI 只会有形式上的创新，而不会有根本上的进步。

真正的突破还是要看伊利亚那些真正的研究人员，他们交出的作业。

创新

突破

49 条回复 • 2026-02-12 09:28:03 +08:00

windyboy

2 月 10 日

真的吗？理解物理世界规则的模型呢？

BD8NCF

2 月 11 日

这几天用 cursor 写嵌入式代码。
之前都是用 auto ，最近换成 opus 4.6, 确实令人震惊。
让它写一个 kalman 滤波相关的东西，它生成的代码没达到我想要的效果，我自己调整，发现越搞越糟。最后就直接告诉它有什么问题，贴日志给它看，让它改。
几个回合之后，几乎完美的完成。

缺点就是花钱如流水，剩下的都是优点。

lujiaxing

2 月 11 日

我想去洗车，洗车店距离我家 50 米，你说我应该开车过去还是走过去?
DeepSeek:走过去
阿里千问:走过去
字节豆包:走过去
腾讯混元:走过去
ChatGPT:走过去
Claude:开车去
Grok:走过去
Gemini:开车去

potatowish

2 月 11 日 via iPhone

@lujiaxing 只有 Gemini 、Claude 回答是开车去，其他模型智商都不在线

liyafe1997

2 月 11 日

@BD8NCF Auto 肯定不太行...很可能选的是 Cursor 自家的那个垃圾模型。但是 Opus 感觉并没有比 Sonnet4.5 / GPT5.x-Codex / Gemini 3 Pro 强多少

OZephyr

2 月 11 日 via Android

@lujiaxing 实际测试了一下，千问、豆包等几个 AI 的实际论点是“把钥匙交给洗车店工作人员，让他们洗”。

bwnjnOEI

2 月 11 日 via iPhone

这种评论还是太主观不过你说推上有营销成份肯定没问题。首先要排除是不是使用官方模型然后再排除使用习惯最后一项确定你是比如高级架构师写 cuda 内核等等

2b5X607vRr3OB6ad

2 月 11 日 via iPhone

推特上那帮人没什么话题了就炒作

darkTianTian

2 月 11 日

@lujiaxing 我觉得每人的结果可能有差异，claude 我不开思考模式，回答走过去。开了思考，回答开车。

dsd2077

PRO

2 月 11 日 via Android

@bwnjnOEI

模型和习惯都没问题，ai coding 高级选手了。我只是想说 opus4.6 没有比 sonnet4.5 或者 codex5.2 强多少，（因为凡是后者解决不了的问题丢给 opus4.6 极大概率还是解决不了）。出于成本考虑我反而更会选择后者。

bwnjnOEI

2 月 11 日 via iPhone

@dsd2077 排除第一个因素，另外，这代 opus 确实退化了在 swe bench 上还是负优化，这版主要是面向通用型白领和 1m 上下文和多智能体协同甚至可能 dario 故意让你花费 token 更多。不过你说解决不了你的问题我打问号，cc 功能组合那么多上下文组合效果千差万别，始终无法排出第二个问题。