最近 GPT-5 发布了,然后全世界的人都开始骂它。
骂它变笨了,骂它没有创造力了,骂它回答问题像个死板的公务员。这让我想起了一个古老的笑话:有个人祈祷上帝让他中彩票,上帝说你至少得先买张彩票吧。现在的情况是,大家祈祷 AI 不要胡说八道,结果 AI 真的不胡说八道了,大家又开始怀念它胡说八道的时候。
人类真是矛盾的生物。
我们先说说什么是 AI 的"幻觉"。听起来很玄乎,其实就是 AI 一本正经地胡说八道。比如你问它某个 API 怎么用,它会非常自信地告诉你一个根本不存在的 API 。就像那种在酒桌上吹牛的人,什么都知道,什么都敢说,而且说得特别有道理。
但是问题来了:我们真的希望 AI 永远不胡说八道吗?
阿里的技术专家甄焱鲲最近和人聊了这个话题,他说了一句特别有意思的话:把幻觉单纯当成一个"病",是片面的。
这话听起来有点反直觉,但细想想确实有道理。你看,人类的创造力往往也来自于"胡说八道"。艺术家、作家、发明家,哪个不是先在脑子里胡思乱想,然后才创造出新东西?如果一个人只说 100%确定的事情,那他永远不会有任何创新。
AI 也一样。当你要求它绝对准确的时候,它就变成了一个查字典的机器。当你允许它有一点"不靠谱"的时候,它可能会给你意想不到的惊喜。
从技术角度来说,AI 生成内容本质上是一个概率游戏。它不是真的"知道"什么,而是根据训练数据计算出最可能的下一个词。
这就像掷骰子,如果你想要绝对的确定性,那就只能用一个六面都是"1"的骰子。但这样的话,你永远不会掷出"6"。
GPT-5 就是这样一个"保守的骰子"。它降低了幻觉率,但代价是变得更加死板。用户抱怨它需要非常详细的提示词才能好好工作,就像你得写一份详细的使用说明书才能让一个机器人帮你倒杯水。
以前的 AI 有点像那种聪明但不太靠谱的朋友,你说半句话他就知道你想要什么,虽然有时候会搞砸。现在的 AI 像那种严谨但刻板的公务员,你得把每个细节都写清楚,他才会按部就班地执行。
甄焱鲲把 AI 的幻觉分成了五类,听起来像是给胡说八道建立了一个分类学:
语言生成幻觉:编造不存在的代码库和 API ,就像那种在简历上写精通十八种编程语言的程序员。
逻辑推理错误:明明给了上下文,还是根据别的地方瞎推理,就像那种不看题目就开始答题的学生。
过度简化:给出一些看似合理但实际危险的建议,比如"想快速减肥就不吃饭",就像那种半瓶水晃荡的健身教练。
数据错误:基于错误或不完整的信息瞎说,就像那种道听途说然后传播谣言的大妈。
时效性错误:用过时的信息回答现在的问题,就像那种还在推荐 IE 浏览器的技术文章。
有趣的是,幻觉到底算不算问题,很大程度上取决于你是谁。
甄焱鲲举了个例子:一个行政人员用 Cursor 做个表格工具,即使错误频出,效率还是比"找产品提需求→找研发开发→找测试评估→找运维部署"这一套流程高得多。但如果是程序员用,可能就会觉得这玩意儿太笨了,还不如自己写。
这就像是买车,对于一个住在五环外每天通勤两小时的人来说,一辆二手 QQ 也比挤地铁强。但对于一个住 CBD 的金融精英来说,可能宁可打车也不开 QQ 。
关键在于你的 baseline 是什么。如果 AI 能帮你把工作效率提升 50%,那即使它偶尔胡说八道,你也会觉得值得。但如果你本来就很专业,AI 的错误反而会拖你后腿,那你当然会嫌弃它。
业界现在主要有三种方法来"治疗"AI 的幻觉:
第一种是换个更好的模型。就像治感冒,最简单的方法就是吃更贵的药。参数更多的模型确实幻觉更少,但也更贵。
第二种是 RAG (检索增强生成)。简单说就是让 AI 先去查资料再回答问题。就像让一个不靠谱的朋友回答问题之前先去百度一下。这种方法工程周期短,几天就能搞定,效果也不错。
第三种是微调。就是重新训练模型,让它在特定领域更准确。但这个方法有个大问题:费时费力,而且容易"灾难性遗忘"——就像一个人学会了新技能但忘了旧技能。更要命的是,等你花几个月微调完了,可能基础模型已经更新了,你的工作就白费了。
甄焱鲲的团队就遇到过这种情况:花了半年训练一个模型,结果还没上线,新的基础模型就出来了,效果直接超过了他们的微调版本。这就像你辛辛苦苦攒钱买了最新款 iPhone ,结果第二天苹果就发布了更新的版本。
从实践效果来看,这三种方法的排序是:In-Context Learning > RAG > 微调。
In-Context Learning 就是在提示词里给 AI 提供具体的例子和上下文,让它现学现用。这种方法效果最好,但门槛也最高,需要你很懂怎么"调教"AI 。
这就像教小孩做题,最好的方法是给他讲解题思路和几个例子,让他举一反三。但这需要你自己很会教。如果你不会教,那就给他一本参考书让他自己查( RAG ),效果差一点但简单。最笨的方法是专门给他补习这一类题目(微调),费时费力还可能把其他知识忘了。
现在很多 AI 编程工具都是"大力出奇迹"的思路。甄焱鲲试过让一个 AI 帮他写 Rust 代码,结果这 AI 花了两三个小时不断试错,最后才搞出一个能跑的版本。如果是程序员来写,可能十几分钟就搞定了。
但问题是,大部分人不是程序员啊。
这就像修水管,对于水暖工来说,可能十分钟就能搞定。但对于一个从来没碰过扳手的人来说,即使有个笨拙的机器人帮忙,花两个小时修好也比找不到水暖工要强。
当然,这种"大力出奇迹"的方法会消耗大量的 token ,也就是说很烧钱。但甄焱鲲指出一个有趣的现象:现在很多人不太关心这个成本,因为 token 价格已经被压得很低了,而且对于投资了 AI 公司的资本来说,token 消耗越多他们越高兴。
最近推理模型开始流行"思维链",也就是让 AI 把思考过程写出来。但这又带来了新的幻觉:推理过程和结论不匹配,或者重复推理、无效推理。
甄焱鲲用 Cursor 举例:它经常会在思维链里说"我觉得这个问题是什么,所以我要尝试什么",然后得出一个错误结果。错了之后又重复同样的思路,陷入死循环。
这让我想起了那种特别固执的人,明明方向错了,但还在那里使劲儿。AI 现在还没有真正的思维能力,更多是在机械地模仿人类的思考过程。
就像那句话说的:如果一个东西走路像鸭子,叫声像鸭子,看起来像鸭子,那它就是鸭子。但现在的 AI 只是学会了模仿鸭子,本质上还不是鸭子。
有研究从理论上证明了 AI 永远无法完全消除幻觉。新加坡国立大学的论文指出,这是 LLM 的固有限制,就像哥德尔不完全性定理一样,是结构性的、无法根除的。
这其实挺让人安心的。就像我们知道人类永远不可能 100%理性一样,AI 有幻觉反而证明了它和人类的某种相似性。完全没有幻觉的 AI 可能也就失去了创造力。
很多人以为针对特定领域训练的"垂直 AI"会更好,但甄焱鲲的实践发现,效果往往不如预期。
原因很简单:现实世界的问题很少是完全单一领域的。即使是医疗 AI ,也经常需要跨领域的知识。而且训练垂直模型的成本很高,效果却不见得比微调通用模型好多少。
这就像培养专才和通才的区别。专才在特定领域很厉害,但一旦遇到跨领域问题就抓瞎。通才虽然在每个领域都不是最专业的,但适应性更强。
甄焱鲲观察到一个有趣的现象:DeepSeek 的出现成了一个分水岭。在此之前,大家对 AI 幻觉过度恐慌;之后,大家变得更理性了,有时甚至觉得幻觉是良性的。
这很正常。当你没有真正使用过一个工具的时候,往往会被媒体报道吓到。但当你开始实际使用,你就会知道哪些问题是真问题,哪些问题是可以接受的。
就像刚学开车的时候,觉得路上到处都是危险。开了几年之后,你就知道哪些危险是真的需要小心的,哪些只是看起来吓人而已。
甄焱鲲最看好的是"世界模型"这个方向。不是简单的预测下一个词,而是让 AI 真正理解世界的运行规律。
这听起来很玄,但想想也有道理。现在的 AI 有点像那种死记硬背的学生,记住了很多标准答案,但不理解背后的原理。世界模型更像是让 AI 理解物理定律、因果关系,然后基于这种理解来生成内容。
这才是真正接近人类思维的方式。人类不是通过记忆所有可能的句子来说话的,而是基于对世界的理解来表达想法。
回到开头的问题:我们真的希望 AI 永远不胡说八道吗?
我觉得答案是否定的。一个永远不犯错的 AI 可能也永远不会有惊喜。关键是要知道什么时候可以容忍 AI 的"胡说八道",什么时候不可以。
在创意写作、头脑风暴、初步方案设计这些场景下,AI 的"幻觉"可能正是我们需要的。在医疗诊断、金融决策、安全系统这些场景下,我们当然希望 AI 尽可能准确。
技术本身是中性的,关键在于如何使用。就像刀子可以用来切菜也可以用来伤人,AI 的幻觉可以是创造力的源泉,也可以是危险的陷阱。
我们需要的不是完全消除 AI 的幻觉,而是学会和它共处,知道什么时候相信它,什么时候质疑它,什么时候享受它的"胡说八道",什么时候严肃地要求它给出准确答案。
毕竟,人类几千年来不也是在幻想和现实之间找平衡吗?
写于 2025 年 9 月 2 日,当 AI 开始变得"聪明"而"无趣"的时候。