今天 Claude Opus 4.8 发布了,又一次升级,说现在已经支持在一次会话里调度几百个子 agent 同时干活了。
虽然听起来又是一个新的 token 绞肉机,但是。。。利好一人公司!哈哈。
但是我在评论区下面刷到了一个瓜,说 4.8 蒸馏了太多 qwen 等开源模型,导致自我认知出了问题,你现在问它是谁,它基本认为自己是千问,哈哈。
不过它吹任它吹,别把 4.6 下了就行,我看他们说非编程感受还不如 4.6 ,不如等之后传说中更聪明的 Mythos 吧。
今天 Claude Opus 4.8 发布了,又一次升级,说现在已经支持在一次会话里调度几百个子 agent 同时干活了。
虽然听起来又是一个新的 token 绞肉机,但是。。。利好一人公司!哈哈。
但是我在评论区下面刷到了一个瓜,说 4.8 蒸馏了太多 qwen 等开源模型,导致自我认知出了问题,你现在问它是谁,它基本认为自己是千问,哈哈。
不过它吹任它吹,别把 4.6 下了就行,我看他们说非编程感受还不如 4.6 ,不如等之后传说中更聪明的 Mythos 吧。
1
kpprotector May 29 说句实话,大家都在偷偷蒸,属于是公开的秘密了。
但是,Anthropic 出现这个问题的时候就稍显讽刺了,尤其是前面发的几篇博客…… |
2
lujiaosama May 29
互相蒸馏,不会导致模型劣化吗
|
3
GeorgeV May 29 @kpprotector 并不讽刺。Anthropic 说国产几个模型蒸馏它家的危害美国国家安全,但它反过来蒸馏肯定是增强美国模型能力,逻辑是一致的,都是为了美国好。
|
5
lmmlwen May 29
Opus 蒸馏 qwen 真没绷住
|
6
nc May 29
有可能是购买了国内中转站用户对话数据做训练导致的,并不是直接蒸馏模型
|
8
mMartin May 29 这页面都不是官方的页面 不定什么野鸡中转站
|
9
cheng6563 May 29
这种从 GPT4 时代就开始的月经贴还要发几年。
|
11
kpprotector May 29
|
12
kpprotector May 29
@Nzelites 知识蒸馏的话问题(上下文)是针对性设计过的吧。
直接买语料则什么数据都有。 |
13
GeorgeV May 29 @kpprotector 有逻辑的,Anthropic 的观点就是民主的 AI 模型要胜过非民主的 AI 模型,它是在维护人类文明
|
15
cmos May 29 Dario:两个凡是!凡是美国作出的产品,都是伟光正,我们要坚决坚决维护;凡是中国的背景,都是邪恶的,我们都始终不渝地反对。
|
16
nc May 29
@kpprotector 不知道 Anthropic 从哪搞的数据,大概率就是用简中对话数据做 RL 后训练导致的。这个在业界是常规操作了,Cursor 的 Composer 就是基于 Kimi 然后用对话数据做 RL 。
不过能看出来 Anthropic 对中文是有重视的 |
17
dsd2077 PRO 你这话一说,档次一下就掉下去了。哈哈哈
|
18
kneo May 29 via Android 反正我不知道蒸馏 qwen 他图啥。
|
20
chenluo0429 May 29 via Android
什么蒸馏不蒸馏的?明明是在训练中使用了精心挑选的高质量合成数据,不懂不要乱说好伐?
|
21
dabbit May 29 2026 年了还有人问 LLM 它是什么模型...
|
22
nan7 May 29 claude 是好模型,但是他的公司很傻逼,希望早点被收购吧
|
23
shyrock2026 May 29
@dabbit #21 都是中转站最忠实的一批用户。。。
|
24
409164 May 29 赢学总能找到地方切入
|
25
106npo May 29
你怎么知道这不是针对简中的反蒸馏措施呢 狗头
|
26
Rickkkkkkk May 29
你无法通过问 ai 得知 ai 是什么模型的(除非专门针对这个问题定制过回答
会回答成别的模型是典型的模型幻觉 |
27
jony83 May 29
图就是 qwen 生成的吧
|
28
L4Linux May 29
|
29
yunCrush May 29
真以为其他人买不起正版的 claude 吗? 20:17Claude responded: 我是 Claude Opus 4.我是 Claude Opus 4.8,由 Anthropic 开发,目前是公开可用的最先进的模型。有什么可以帮你的吗?
|
30
L4Linux May 29
|
31
gpt5 May 29 via iPhone
opus 只是从千问这里拿回来以前千问从 opus 偷走的东西,这叫正当防卫🤝 虽远必诛,虽迟但到🤝
|
32
renzhe8102 May 29 5 月 10 日问的, 回答是 5 月 29 日?
|
33
zictos May 29
我大概一两个月前用 claude 的官方 api 试过 haiku 模型,问它模型的版本号,遇到过一次它回复说是 deepseek 。
不过现在再试的话又无法复现了,现在用 haiku 模型问它模型版本号,它回复说“我是 Claude 3.5 Sonnet”。 用更好的模型进行测试的话没遇到这样的问题。 |
34
GeminiPro May 29
每次新模型发布都有一堆吹的,但实际总归不如前面几代。
|
35
cairnechen May 29 问 DeepSeek 它说自己是 Claude ,这个是邪恶的蒸馏,问 Claude 它说自己是 Qwen ,这个正常的语料训练,大家一定要分清
2026 年了还有人问 LLM 它是什么模型... 确实傻得冒泡,但是等国产模型不被这么干并且口口声声“铁证如山”的时候,再来对这种月经贴义愤填膺吧 |
36
sharpy May 29 sonnet 时代不就开始了,裸问 sonnet4.6 中文,它有时候回说自己是 DeepSeek
至于什么 2026 年了还有人问 LLM 它是什么模型 那得怪那些基本原理都不懂的,拿着国模的 你是什么模型 就乱开枪的人了 |
37
hitrip May 30
|
38
himawari8 May 30
哦呦,现在公关都开始搞这种路数了~
|
39
zmcity May 30
@chenluo0429 你承认那是高质量数据了?(狗头
|
40
dxppp May 30
|
41
dxppp May 30
|
42
dxppp May 30 |
43
ludyleocn May 30 via iPhone 用裸 curl 问出 Claude 自称 Qwen 就大惊小怪,纯属缺乏大模型常识的少见多怪。首先,API 默认是‘无身份预设’的裸模型,不像网页端会自动注入系统提示词,它在被问及身份时完全是根据词频概率进行预测。其次,这是所有大模型普遍存在的‘身份幻觉’现象——不管是 GPT-4 、Claude 还是 Llama ,在训练时都大量使用了包含其他模型语料的混合合成数据集,一旦数据清洗不彻底,在没有系统提示词锚定身份的情况下,任何大模型随时都会‘认错祖宗’自称是别的模型。不信就在你的 curl 请求里加上官方标准的 "system": "You are Claude..." 参数再测一次,少把整个行业普遍存在的语料污染和概率幻觉,当成你‘揭露真相’的依据。
|
45
carlself May 30
|
49
Yuunie May 30
@kpprotector 你的偷偷两个字为什么背后有绿色的光
|
50
MIUIOS May 30 |
51
jjx May 30
哪能一样吗? 手动狗头
|
52
honda720 May 30
什么?
你是说国产模型投毒 Claude?那指定不行奥,怎么能这样? 还有些想当然直接用官网界面去问的,就立马来反驳秀优越的太好笑了兄弟们 |
53
bencool May 30 洋大人蒸馏怎么能说是蒸馏呢?
|
54
ludyleocn May 30 via iPhone
@MIUIOS 你开中转站没遇到单个 key 日蹬百亿吗?其实我想发图的,我自己产品在调用 deep seek 和 gemini 也遇到过这样情况
|
55
ihainan May 30
从 Sonnet 4.6 开始就有这个问题了,会回复自己是 DeepSeek 。
|
57
yangstar May 30
所以现在我都是用纯英文和 Claude 交流,就当锻炼英语了
|
58
Katrol May 30
你信息都没搞明白就来发帖了,总想搞个大新闻。。
|
60
teaguexiao May 30
不管是不是蒸馈的问题,评判一个模型应该看 benchmark 和实际用起来的感受,它“自我认知出问题”只是 identity alignment 做得不够好,不代表能力退步了。实际用 Opus 4.8 写代码的体感才是关键,这种测试当谈资就好,别作为升降级的依据。
|
62
Y25tIGxpdmlk May 30
@cairnechen #35 对啊,互相蒸馏可以理解,但是双标就值得喷
|
63
Y25tIGxpdmlk May 30
@carlself #45 求证个鸡毛,人家都说了是直接去请求 claude 的 api ,才能复现。你上来直接用 app 复现个鬼啊。
|
64
Y25tIGxpdmlk May 30 @teaguexiao #60 当年,你们嘲笑 deepseek 蒸馏其他模型的时候可不是这么通情达理的啊
|
66
Rorysky May 30
他们说 发现这个问题的人用的是中转 api
|
69
kpprotector May 30
|
72
lk920724 May 30
为什么 4.7 就没出现这个情况呢?( doge )
|
73
ludyleocn May 30
@MIUIOS 笑死了,你上 Hugging Face 是不是只配下载 alpaca_data.json 这种 52k 的微调包?
去看看大模型基座训练用的 FineWeb 、RedPajama 、The Pile 。几万亿 Token 全是人类几十年的互联网网页、代码、维基百科和图书,请问这是哪个模型‘蒸馏’出来的? 就算退一步,只看指令数据集,Dolly-15k 是 Databricks 员工手写的,OpenAssistant 是全球志愿者手工众包的,MATH 是人类出题的。你管这叫蒸馏? 退一万步,哪怕是用 GPT-4 生成的文本,在学术上也叫‘合成数据( Synthetic Data )’。知识蒸馏( KD )在机器学习里有严格的数学定义,是要对齐 Logits (暗知识/概率分布) 算 KL 散度的。你连人家的 Logits 都拿不到,就敢管‘拿生成文本跑 SFT’叫蒸馏? 连合成数据( Synthetic Data )和知识蒸馏( KD )两个词的定义都分不清,只下了两个玩具微调包,就以为自己窥见了 LLM 的全貌,确实挺 TM 幽默的。 |
74
ludyleocn May 30
@lscho 照你这逻辑,天底下就没有‘抄袭’和‘模仿’这两个词了,全是‘蒸馏’。鲁班做了一把椅子,你照着椅子的外观也做了一把,这叫‘鲁班蒸馏’?五星级大厨做了一盘菜,你买回家尝了尝,自己模仿着也炒了一盘,这叫‘厨师蒸馏’?真正的知识蒸馏,是厨师把配方比例、火候温度、调料克数( Logits/暗知识)原封不动地传授给你。你现在只是买了一盘人家的成品菜(语料文本),回家自己瞎琢磨着模仿,这也配叫蒸馏?这顶多叫‘低配模仿’。别拿文学修辞来碰瓷工科学术概念了,多丢人啊。
|
76
lscho May 30
@ludyleocn 不是“ 照我这逻辑 ”,这话不是我说的,是 anthropic 自己说的。。。
之前 anthropic 指责中国公司蒸馏他的数据,现在就别怪别人说他咯。 另外 anthropic 说的意思和你一样,就是 “你买回家尝了尝,自己模仿着也炒了一盘”,但是他把这个定义为蒸馏,要喷你去喷他们 |
78
ludyleocn May 30
@camus 第一,API 其实是可以返回概率分布的(比如通过 logprobs 参数),通过 API 做真正的概率对齐蒸馏(也就是 Hinton 在 15 年奠基论文 Distilling the Knowledge in a Neural Network https://arxiv.org/abs/1503.02531 里定义的 KD )在技术上完全可行。
第二,Anthropic 官方每次维权,指控的都是“Violation of Terms of Service (违反服务条款,即禁止用输出数据训练竞争模型)”,它自家的学术论文里概念也分得很清。 纯粹是外行自媒体为了博眼球,统一给翻译成了“蒸馏攻击”。外行跟着乱喊就算了,V2EX 好歹是个技术论坛,把自媒体的错误翻译当真理来论证,真的没必要。 |
79
ludyleocn May 30
@lscho A 自家的学术论文对 SFT 和 KD 分得极清。它控诉别人用它数据,名义是“违反服务条款( ToS )”,是自媒体和营销号强行把这概括成了“蒸馏”。哪怕只谈使用 API 语料训练,UC 伯克利 23 年那篇著名的论文 The False Promise of Imitating Proprietary LLMs https://arxiv.org/abs/2305.15717 也写得很清楚,这种纯文本微调叫模仿学习( Imitation Learning ),模型只学会了风格,根本没学会推理能力。这跟真正的**知识蒸馏( KD )**有着本质区别。你想嘲讽 A/数据清洗不力导致语料污染,这完全没问题,我也支持你喷它。但喷也要精准。它数据清洗不干净混进了千问的语料,你可以喷它“垃圾数据不筛就喂,研发团队吃干饭”。非要跟着营销号喊“claude 在蒸馏千问”,不仅没喷对地方,还暴露了自己分不清基本概念,这不叫回旋镖,这叫杀敌八百,自损一千。不过这也算是种挺可悲的社会常态了:绝大多数人根本不在乎什么是事实和真理,他们需要的只是一个能用来宣泄情绪、抱团起哄的靶子。只要能嗨起来,哪怕拿着最降智的营销号黑话当圣经,他们也能抱团自嗨得心安理得。
|
80
lscho May 30
@ludyleocn 别洗了兄弟,https://www.anthropic.com/news/detecting-and-preventing-distillation-attacks 自己看看 a 家原话是啥。。。
怎么到你嘴里就成“它控诉别人用它数据,名义是“违反服务条款( ToS )”,是自媒体和营销号强行把这概括成了“蒸馏”???翻译翻译 distillation 是什么意思? 你怎么这么客观呢?再看看你下面的情绪输出,搞笑不 |
82
duanxianze May 30 哈哈哈 洗地的太搞笑了 一根筋变成两头堵了
|
83
ludyleocn May 30
@lscho A 家公关通告我漏看了,这我认。但这跟洗地和回旋镖毫无关系,我是在划清基本的技术边界。当初国模出身份幻觉,一群外行高喊“铁证如山、抄袭套壳”时,我就觉得极度弱智;今天 Claude 出幻觉,你们又拿着同一套“蒸馏”黑话来起哄,同样弱智。这在工程上根本就不是什么“蒸馏”,纯粹是数据清洗不力导致的简中语料污染——吃垃圾食物没洗干净导致拉肚子,你们非要起哄说成是“偷偷拜垃圾为师”。脑子不好使就多去读读真正严肃的学术论文,别把大厂为了游说国会写的商业公关稿当学术圣经。跟风起哄还自以为抓到了回旋镖,真的很丢人。
|
84
ludyleocn May 30 @lscho 你自己贴的链接,你自己看完了吗?
这篇文章第一段白纸黑字写着: “These labs generated... through approximately 24,000 fraudulent accounts, in violation of our terms of service and regional access restrictions.” A 家自己定性的违规原因清清楚楚:1. 注册欺诈账户; 2. 绕过区域限制; 3. 违反服务条款( ToS )。 甚至文章第二段开头就说了:“Distillation is a widely used and legitimate training method.”(蒸馏是一种被广泛使用且合法的训练方法)。 懂了吗?蒸馏技术本身是合法的,A 家指控的是他们“用欺诈号绕过区域限制、违反 ToS 去白嫖数据”的行为。 A 家公关为了把“违反 ToS 白嫖语料”这件事包装得像网络安全事件,才在标题里发明了“蒸馏攻击”这个公关词汇。结果你们这群人拿着人家大厂为了维护商业利益造出来的公关软文当学术圣经,跟风嘲讽“Claude 被蒸馏了”,连“白嫖语料违反 ToS”和“学术蒸馏”的区别都分不清,多读点书,真的。 |
86
lscho May 30
@ludyleocn 还洗呢,上面的回复你都不看吗?
是特么 A 家先说别人蒸馏他,今天别人才拿蒸馏嘲讽他。懂了吗?他不说蒸馏这回事,节奏能带这么大? 既然扯 A 家自己定性的违规原因,那他哪来的 qwen 的语料数据?他没有注册欺诈账户?他没有绕过区域限制?他没有违反服务条款? 他能发明了“蒸馏攻击”这个公关词汇,那用户凭什么不能拿蒸馏嘲讽他? 他发明了“蒸馏攻击”这个公关词汇没问题,用户嘲讽一句就得多读点书? 到此为止,懒得回复了。屁股歪到 A 家了,我能说什么 |
88
ludyleocn May 30 @lscho
Qwen 是完全开源的模型! 全球任何人写几行 Python 直接就能从 Hugging Face 免费下载。你觉得 A 家需要像那三个厂一样,注册 24000 个欺诈账号、违规翻墙去“偷”千问?连开源和闭源的区别都没搞懂,就在这脑补 A 家也在违规,这智商真的别出来搞笑了。 三个厂当小偷被 A 家指名道姓、连 IP 带高管名字抓了个现行( 1600 万次白嫖,24000 个欺诈号)。你作为小偷的“孝子贤孙”,不仅不觉得自家丢人,反而在这撒泼打滚大喊“被害人肯定也偷了我们”。这种贼喊捉贼的无赖戏码,你演得不累吗? 说不过了就甩下一句“屁股歪了/懒得回复”准备土遁,典型的心虚嘴硬。既然脑子和常识都跟不上,以后这种技术帖建议你直接闭嘴绕行,省得出来丢人现眼。 |
89
ludyleocn May 30
@lscho
算了,看你憋了半天只能复读“屁股歪了”实在太可怜了。实话实说,我其实是个精神病患者,今天正好发病,所以手把手教教你该怎么反驳我,不然你连怎么嘴硬都不知道。 如果你有脑子,你应该这么回我: 关于开源授权:Qwen 虽然开源,但其 AUP ( Acceptable Use Policy ,可接受使用政策) 里明确禁止“将本模型的 Outputs 用于开发和训练其他竞争模型”。A 家喂了千问的语料,在法理上同样违背了开源授权。 关于语料清洗:A 家在公关文里自诩安全合规,但其 Data Pipeline (数据管道) 居然能把带千问身份信息的“脏数据”混进 Pre-training Corpus (预训练语料) 里,这要么说明他们的数据过滤极其无能,要么说明他们自己也天天在主动抓取简中合成数据做 SFT (监督微调),只是这次没洗干净翻车了。 关于回旋镖:是 A 家自己先在面向公众的公关文里,发明了 Distillation Attacks (蒸馏攻击) 这种非学术黑话来给竞争对手定罪、游说国会。既然它自己都不要学术脸面用这词,大众用它自己定义的“蒸馏”去回旋镖嘲讽它,合情合理。你抱起学术字典来扯 Hinton 经典定义和 Imitation Learning (模仿学习),就是典型的拉偏架。 剧本我都用最专业的词汇替你写好了,你可以直接复制过去接着跟我对线。别说我没疼过你,退下吧。 |
90
ntdll May 30
并不稀奇吧,现在几个大厂,基本上把已经数字化的语料都已经训练过,模型再想升级,只能从用户使用的语料里提纯了,那么蒸馏其他厂家的数据也是很正常的事情。
|
91
icyalala May 30
都这么长时间过去了,楼上这么多人怎么还没有点基础常识。。。
模型是没自我意识的,你直接通过 API 访问模型,问它是哪个模型,就是相当于从训练数据中给个类似的回答,那回答什么当然是随机的。 你要是通过 App/Web 来访问,那是通过 Agent 包装过的,它已经有 System Prompt 写清楚它的身份,它当然能准确回答你。 |
92
icyalala May 30
已有语料训练,和通过 API 蒸馏,这都分不清楚
|
93
mangoDB May 30
每次新模型发布,就会有这种帖子。又不是第一天用 AI 了……
|
96
parametrix May 30
我一方面觉得问大模型这种问题说明不了太多,但按这个逻辑我又想不明白为什么它从来不称自己是豆包、文心一言。。。
|
97
XnEnokq9vkvVq4 May 30 via iPhone
那些给国产模型偷数据行为洗地的人,核心逻辑就是认为蒸馏(或者更宽泛的说用“别人的”数据)没有合法非法的区别,因为全世界都在蒸馏,所以大家都是一样的
类似的逻辑还有:你拿我的数据去训练,我就可以随便违反你的 tos ,你封了我的号你就是玩不起了,等等 |
98
dbtan May 30 via Android
也有可能是语料污染…
|
99
hengxiangbianhua 14h 47m ago
新时代月经贴😂
|