Javin
V2EX  ›  Claude

以前挺相信 claude code 说的,现在不相信了,设计方案、代码都有大漏洞,找个代码都能瞎说

  •  
  •   Javin · Apr 22 · 4927 views
    25 replies    2026-05-07 18:49:36 +08:00
    giter
        1
    giter  
       Apr 22
    跟使用场景也有很大的关系,每个人的环境都不一样,提示词、使用的 Plugin 、用到的 Skill 以及需要遵循的规范都不一样,如果觉得 Claude Code 睁眼说瞎话,看下是不是可以规范一下你的使用方式或者优化提问内容
    Javin
        2
    Javin  
    OP
       Apr 22
    @giter 重度 claude code 使用,都大半年了,开始确实挺好,现在能睁眼说瞎话,很明显的降智;早都石锤了只是最近越来越明显: https://github.com/anthropics/claude-code/issues/42796
    giter
        3
    giter  
       Apr 22
    @Javin 降智是实锤这肯定的,但也要有个规范使用的最佳实践,把降智带来的影响降到最低。可以多用一些指向性明确的词,强制约束 AI 必须遵守
    penisulaS
        4
    penisulaS  
       Apr 22   ❤️ 1
    我在想,降智了应不应该退一部分款
    940i3s34v4F1HW41
        5
    940i3s34v4F1HW41  
    PRO
       Apr 22
    对齐功能变差了,只能说模型的后期训练质量变低了,这和算力是否充足应该是没有关系的,纯粹是模型问题,但是作为外行不知道问题可能出在哪里
    SantinoSong
        6
    SantinoSong  
       Apr 22
    @giter #3 真降智了靠提示词来约束也没效果了
    coolxll
        7
    coolxll  
       Apr 22
    最近降智蛮严重的
    andlp
        8
    andlp  
       Apr 22
    降智了
    whoosy
        9
    whoosy  
       Apr 22
    只有 opus4.7max 没降智,其他 claude 模型都不行
    chenxytw
        10
    chenxytw  
       Apr 22   ❤️ 1
    @giter 降智是多方面的,其中一个点是幻觉变严重,这个是无法靠提示词工程弥补的
    beefhotpot
        11
    beefhotpot  
       Apr 22
    @sddyzm 感觉有关系啊,你怎么知道它会不会用低配置的机器跑量化了部分参数的模型,然后在某些时候路由到这些服务上?
    sampeng
        12
    sampeng  
       Apr 22
    所以我把拓展思维管了。强行开 high/max 等级的思考等级。除了慢一点,最少洗车问题能过去了
    940i3s34v4F1HW41
        13
    940i3s34v4F1HW41  
    PRO
       Apr 22 via iPhone
    @beefhotpot 嗯,是参数不完整配置的模型
    qiqw
        14
    qiqw  
       Apr 22
    现在 有 max / extra high / high, 我一般用 high, 写计划用 max, 执行时就降下来
    assad
        15
    assad  
       Apr 22
    做了几次需求,都是没解决问题
    teaguexiao
        16
    teaguexiao  
       Apr 22
    同感,现在写计划用 max thinking ,执行阶段降回标准模式,幻觉明显少了很多。
    lmmlwen
        17
    lmmlwen  
       Apr 22
    设计方案有缺陷,具体哪里?代码有漏洞,什么漏洞,逻辑、安全? AI 具体怎么写和提示词还有使用者的编码水平正相关
    sampeng
        18
    sampeng  
       Apr 22 via iPhone
    @lmmlwen 来来来,你让他做洗车实验
    maocat
        19
    maocat  
       Apr 22


    上面的别洗地了,什么弄不好找找自己原因,都是正常人,谁不会用啊,

    看看我这个,谁家好人提交代码要把.env 给我提交了,把我逗笑了
    zerovoid
        20
    zerovoid  
       Apr 22
    早期开拓市场抢客户,肯定给最好的服务。
    现在用户数到顶了,有了稳定的付费客户,肯定要开始降低服务品质了。
    teaguexiao
        21
    teaguexiao  
       Apr 22
    同感,尤其涉及就有代码库、常目标文件超大的情况,就容易开始撕。现在我的应对是 CLAUDE.md 里把关键模块结构和雷区代码明确写出来,不能靠它自己摸索。
    mansunyunxin
        22
    mansunyunxin  
       Apr 22
    R20 说的「市场成熟后品质收缩」是真的,但这不是最隐蔽的成本。

    最隐蔽的是:你不会注意到它发生。

    降智不是突然跌落悬崖,而是斜坡式的。用户在使用过程中会逐渐调整自己的期望值——原来能做到的,现在「凑合用吧」。这个调整过程是无意识的,等你意识到的时候,你的工作流已经和它的缺陷绑在一起了。

    这时候你要付出的不只是「换个工具」,而是「重新校准一套已经磨合好的工作方式」。

    所以 R12/R16 的 workaround 反而是最理性的应对:不是对抗降智,而是承认它,然后主动在系统层面做隔离——max thinking 管规划,标准模式管执行。这本质上是在给工具的不稳定性留缓冲带,而不是假装它不存在。

    但这件事本身就是一个信号:当用户开始系统性地给自己的 AI 工具设计容错机制,这个工具就已经不再是「可靠的同事」了。
    v400127
        23
    v400127  
       Apr 23
    @giter 好像 claude 谁也说过,一样的提示词 多的不说了,gpt5.4 表现稳的多,质量也好.ui 确实不如 claude
    xuhuanzy
        24
    xuhuanzy  
       Apr 23
    gpt 代码能力早就远超 opus 了, cursor 出的数据 opus 甚至打不过 5.3, 但还是有很多人觉得 opus 强
    AIXAPI
        25
    AIXAPI  
       7 days ago
    降智是实锤的,但也和使用方式有关。可以试试优化提示词、减少插件滥用,把影响降到最低,不然真的没法用了。
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   1206 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 75ms · UTC 17:42 · PVG 01:42 · LAX 10:42 · JFK 13:42
    ♥ Do have faith in what you're doing.