当 AI"不说胡话"的时候

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

最近 GPT-5 发布了，然后全世界的人都开始骂它。

骂它变笨了，骂它没有创造力了，骂它回答问题像个死板的公务员。这让我想起了一个古老的笑话：有个人祈祷上帝让他中彩票，上帝说你至少得先买张彩票吧。现在的情况是，大家祈祷 AI 不要胡说八道，结果 AI 真的不胡说八道了，大家又开始怀念它胡说八道的时候。

人类真是矛盾的生物。

幻觉这件小事

我们先说说什么是 AI 的"幻觉"。听起来很玄乎，其实就是 AI 一本正经地胡说八道。比如你问它某个 API 怎么用，它会非常自信地告诉你一个根本不存在的 API 。就像那种在酒桌上吹牛的人，什么都知道，什么都敢说，而且说得特别有道理。

但是问题来了：我们真的希望 AI 永远不胡说八道吗？

阿里的技术专家甄焱鲲最近和人聊了这个话题，他说了一句特别有意思的话：把幻觉单纯当成一个"病"，是片面的。

这话听起来有点反直觉，但细想想确实有道理。你看，人类的创造力往往也来自于"胡说八道"。艺术家、作家、发明家，哪个不是先在脑子里胡思乱想，然后才创造出新东西？如果一个人只说 100%确定的事情，那他永远不会有任何创新。

AI 也一样。当你要求它绝对准确的时候，它就变成了一个查字典的机器。当你允许它有一点"不靠谱"的时候，它可能会给你意想不到的惊喜。

概率游戏

从技术角度来说，AI 生成内容本质上是一个概率游戏。它不是真的"知道"什么，而是根据训练数据计算出最可能的下一个词。

这就像掷骰子，如果你想要绝对的确定性，那就只能用一个六面都是"1"的骰子。但这样的话，你永远不会掷出"6"。

GPT-5 就是这样一个"保守的骰子"。它降低了幻觉率，但代价是变得更加死板。用户抱怨它需要非常详细的提示词才能好好工作，就像你得写一份详细的使用说明书才能让一个机器人帮你倒杯水。

以前的 AI 有点像那种聪明但不太靠谱的朋友，你说半句话他就知道你想要什么，虽然有时候会搞砸。现在的 AI 像那种严谨但刻板的公务员，你得把每个细节都写清楚，他才会按部就班地执行。

五种胡说八道的方式

甄焱鲲把 AI 的幻觉分成了五类，听起来像是给胡说八道建立了一个分类学：

语言生成幻觉：编造不存在的代码库和 API ，就像那种在简历上写精通十八种编程语言的程序员。
逻辑推理错误：明明给了上下文，还是根据别的地方瞎推理，就像那种不看题目就开始答题的学生。
过度简化：给出一些看似合理但实际危险的建议，比如"想快速减肥就不吃饭"，就像那种半瓶水晃荡的健身教练。
数据错误：基于错误或不完整的信息瞎说，就像那种道听途说然后传播谣言的大妈。
时效性错误：用过时的信息回答现在的问题，就像那种还在推荐 IE 浏览器的技术文章。

成本这笔账

有趣的是，幻觉到底算不算问题，很大程度上取决于你是谁。

甄焱鲲举了个例子：一个行政人员用 Cursor 做个表格工具，即使错误频出，效率还是比"找产品提需求→找研发开发→找测试评估→找运维部署"这一套流程高得多。但如果是程序员用，可能就会觉得这玩意儿太笨了，还不如自己写。

这就像是买车，对于一个住在五环外每天通勤两小时的人来说，一辆二手 QQ 也比挤地铁强。但对于一个住 CBD 的金融精英来说，可能宁可打车也不开 QQ 。

关键在于你的 baseline 是什么。如果 AI 能帮你把工作效率提升 50%，那即使它偶尔胡说八道，你也会觉得值得。但如果你本来就很专业，AI 的错误反而会拖你后腿，那你当然会嫌弃它。

治疗幻觉的三种药方

业界现在主要有三种方法来"治疗"AI 的幻觉：

第一种是换个更好的模型。就像治感冒，最简单的方法就是吃更贵的药。参数更多的模型确实幻觉更少，但也更贵。

第二种是 RAG （检索增强生成）。简单说就是让 AI 先去查资料再回答问题。就像让一个不靠谱的朋友回答问题之前先去百度一下。这种方法工程周期短，几天就能搞定，效果也不错。

第三种是微调。就是重新训练模型，让它在特定领域更准确。但这个方法有个大问题：费时费力，而且容易"灾难性遗忘"——就像一个人学会了新技能但忘了旧技能。更要命的是，等你花几个月微调完了，可能基础模型已经更新了，你的工作就白费了。

甄焱鲲的团队就遇到过这种情况：花了半年训练一个模型，结果还没上线，新的基础模型就出来了，效果直接超过了他们的微调版本。这就像你辛辛苦苦攒钱买了最新款 iPhone ，结果第二天苹果就发布了更新的版本。

效果排序

从实践效果来看，这三种方法的排序是：In-Context Learning > RAG > 微调。

In-Context Learning 就是在提示词里给 AI 提供具体的例子和上下文，让它现学现用。这种方法效果最好，但门槛也最高，需要你很懂怎么"调教"AI 。

这就像教小孩做题，最好的方法是给他讲解题思路和几个例子，让他举一反三。但这需要你自己很会教。如果你不会教，那就给他一本参考书让他自己查（ RAG ），效果差一点但简单。最笨的方法是专门给他补习这一类题目（微调），费时费力还可能把其他知识忘了。

AI 编程的"大力出奇迹"

现在很多 AI 编程工具都是"大力出奇迹"的思路。甄焱鲲试过让一个 AI 帮他写 Rust 代码，结果这 AI 花了两三个小时不断试错，最后才搞出一个能跑的版本。如果是程序员来写，可能十几分钟就搞定了。

但问题是，大部分人不是程序员啊。

这就像修水管，对于水暖工来说，可能十分钟就能搞定。但对于一个从来没碰过扳手的人来说，即使有个笨拙的机器人帮忙，花两个小时修好也比找不到水暖工要强。

当然，这种"大力出奇迹"的方法会消耗大量的 token ，也就是说很烧钱。但甄焱鲲指出一个有趣的现象：现在很多人不太关心这个成本，因为 token 价格已经被压得很低了，而且对于投资了 AI 公司的资本来说，token 消耗越多他们越高兴。

思维链的新问题

最近推理模型开始流行"思维链"，也就是让 AI 把思考过程写出来。但这又带来了新的幻觉：推理过程和结论不匹配，或者重复推理、无效推理。

甄焱鲲用 Cursor 举例：它经常会在思维链里说"我觉得这个问题是什么，所以我要尝试什么"，然后得出一个错误结果。错了之后又重复同样的思路，陷入死循环。

这让我想起了那种特别固执的人，明明方向错了，但还在那里使劲儿。AI 现在还没有真正的思维能力，更多是在机械地模仿人类的思考过程。

就像那句话说的：如果一个东西走路像鸭子，叫声像鸭子，看起来像鸭子，那它就是鸭子。但现在的 AI 只是学会了模仿鸭子，本质上还不是鸭子。

理论的支撑

有研究从理论上证明了 AI 永远无法完全消除幻觉。新加坡国立大学的论文指出，这是 LLM 的固有限制，就像哥德尔不完全性定理一样，是结构性的、无法根除的。

这其实挺让人安心的。就像我们知道人类永远不可能 100%理性一样，AI 有幻觉反而证明了它和人类的某种相似性。完全没有幻觉的 AI 可能也就失去了创造力。

垂直领域的尴尬

很多人以为针对特定领域训练的"垂直 AI"会更好，但甄焱鲲的实践发现，效果往往不如预期。

原因很简单：现实世界的问题很少是完全单一领域的。即使是医疗 AI ，也经常需要跨领域的知识。而且训练垂直模型的成本很高，效果却不见得比微调通用模型好多少。

这就像培养专才和通才的区别。专才在特定领域很厉害，但一旦遇到跨领域问题就抓瞎。通才虽然在每个领域都不是最专业的，但适应性更强。

心态的转变

甄焱鲲观察到一个有趣的现象：DeepSeek 的出现成了一个分水岭。在此之前，大家对 AI 幻觉过度恐慌；之后，大家变得更理性了，有时甚至觉得幻觉是良性的。

这很正常。当你没有真正使用过一个工具的时候，往往会被媒体报道吓到。但当你开始实际使用，你就会知道哪些问题是真问题，哪些问题是可以接受的。

就像刚学开车的时候，觉得路上到处都是危险。开了几年之后，你就知道哪些危险是真的需要小心的，哪些只是看起来吓人而已。

未来在哪里

甄焱鲲最看好的是"世界模型"这个方向。不是简单的预测下一个词，而是让 AI 真正理解世界的运行规律。

这听起来很玄，但想想也有道理。现在的 AI 有点像那种死记硬背的学生，记住了很多标准答案，但不理解背后的原理。世界模型更像是让 AI 理解物理定律、因果关系，然后基于这种理解来生成内容。

这才是真正接近人类思维的方式。人类不是通过记忆所有可能的句子来说话的，而是基于对世界的理解来表达想法。

最后的思考

回到开头的问题：我们真的希望 AI 永远不胡说八道吗？

我觉得答案是否定的。一个永远不犯错的 AI 可能也永远不会有惊喜。关键是要知道什么时候可以容忍 AI 的"胡说八道"，什么时候不可以。

在创意写作、头脑风暴、初步方案设计这些场景下，AI 的"幻觉"可能正是我们需要的。在医疗诊断、金融决策、安全系统这些场景下，我们当然希望 AI 尽可能准确。

技术本身是中性的，关键在于如何使用。就像刀子可以用来切菜也可以用来伤人，AI 的幻觉可以是创造力的源泉，也可以是危险的陷阱。

我们需要的不是完全消除 AI 的幻觉，而是学会和它共处，知道什么时候相信它，什么时候质疑它，什么时候享受它的"胡说八道"，什么时候严肃地要求它给出准确答案。

毕竟，人类几千年来不也是在幻想和现实之间找平衡吗？

写于 2025 年 9 月 2 日，当 AI 开始变得"聪明"而"无趣"的时候。

目前尚无回复

AI 幻觉创造力