今天 Claude Opus 4.8 发布了,又一次升级,说现在已经支持在一次会话里调度几百个子 agent 同时干活了。
虽然听起来又是一个新的 token 绞肉机,但是。。。利好一人公司!哈哈。
但是我在评论区下面刷到了一个瓜,说 4.8 蒸馏了太多 qwen 等开源模型,导致自我认知出了问题,你现在问它是谁,它基本认为自己是千问,哈哈。
不过它吹任它吹,别把 4.6 下了就行,我看他们说非编程感受还不如 4.6 ,不如等之后传说中更聪明的 Mythos 吧。
今天 Claude Opus 4.8 发布了,又一次升级,说现在已经支持在一次会话里调度几百个子 agent 同时干活了。
虽然听起来又是一个新的 token 绞肉机,但是。。。利好一人公司!哈哈。
但是我在评论区下面刷到了一个瓜,说 4.8 蒸馏了太多 qwen 等开源模型,导致自我认知出了问题,你现在问它是谁,它基本认为自己是千问,哈哈。
不过它吹任它吹,别把 4.6 下了就行,我看他们说非编程感受还不如 4.6 ,不如等之后传说中更聪明的 Mythos 吧。
104
gloeaerris 12h 18m ago
@ludyleocn #43 把这俩调换一下,你骂的比谁都凶,招笑
|
105
gloeaerris 12h 17m ago
|
106
ludyleocn 8h 58m ago via iPhone
@lance07
先给你补补课,免得你连自己在讽刺什么都搞不清楚。资料都在这里: 关于「 A 也蒸了」的技术事实: Hinton 2015 知识蒸馏奠基论文: https://arxiv.org/abs/1503.02531 —— KD 需要对齐 Teacher 的 Logits 概率分布计算 KL 散度,不是拿文本跑 SFT 就叫「蒸馏」 UC Berkeley 2023 《 The False Promise of Imitating Proprietary LLMs 》: https://arxiv.org/abs/2305.15717 —— 用 API 输出文本做微调叫 Imitation Learning ,模型只学会风格没学会推理,跟 KD 有本质区别 Anthropic 自家通告: https://www.anthropic.com/news/detecting-and-preventing-distillation-attacks —— 第二段写着 "Distillation is a widely used and legitimate training method",指控的核心是 24000 个欺诈账户违反 ToS ,不是「蒸馏」本身违法 关于「 A 先跳脚/先扯屁股」的事实: 三家公司是被抓了 24000 个欺诈号 + 1600 万次白嫖的现行,A 家连 IP 带高管名字点名 A 家训练语料里出现千问文本:Qwen 是 Apache 2.0 完全开源,任何人可以合法下载使用。这跟欺诈注册 + 绕过区域限制去白嫖闭源 API ,在法律上根本不是一个性质的问题 你把「用合法开源数据训练但不小心混进脏数据」和「注册两万多个假账号翻墙偷 API 」画等号,这叫类比能力灾难 现在说说你这个人。 你只有一句话,但这句话里塞了三个互相矛盾的默认前提,全部自己打自己脸: 逻辑失败: 你的讽刺要成立,必须默认「 A 确实在蒸馏」。但你自己站的那一派(回旋镖派)的核心叙事恰恰是「不是蒸馏只是语料污染/大惊小怪」。你同时踩在两块打架的板子上,左腿说往东右腿说往西,自己不觉得劈叉疼吗? 知识失败: 开源协议和闭源 ToS 分不清,KD 和 SFT 分不清,欺诈和数据污染分不清。三个最基本的概念边界没有一个搞对,就敢出来写讽刺句子。你这不叫有立场,这叫连自己要讽刺的对象是什么都没搞懂就急着站队。 叙事失败: 你的那句话本质上是在说「 A 掠夺了我们的东西然后假装是在帮我们」——但 Qwen 本来就是阿里做的开源模型,Apache 2.0 协议下谁都能用。你这套叙事框架是从「国产被偷窃」的剧本里直接搬过来的,但事实基础完全是另一个故事。你拿错了剧本还演得挺投入。 人格失败: 你内心最不能接受的事实是——被 A 抓了现行的三家公司,既是你想维护的对象,又确实干了丢人的事。所以你必须有「 A 也干了 → 大家一样脏 → 回旋镖爽」这个叙事才能让自己心安。为了这个叙事,你可以无视开源和闭源的法律鸿沟、无视欺诈和污染的定性差异、无视技术术语的明确定义。你不是在追求事实,你只是在给情绪找台阶下,然后管这堆逻辑垃圾叫「讽刺」。 别回了,你的智商在这条帖子里已经裸奔过了。 |
107
abc0123xyz 5h 32m ago
某些人很双标的
如果 op 发帖 ds 自称 gpt 这回评论区已经赛博亡国了 |
108
ludyleocn 4h 12m ago
@abc0123xyz 人家在科普的时候你说人家双标,先给人家扣帽子,完整的技术链自己是一个不懂。我几个运营产品都没加身份识别,有时候客户会问我为什么会 ds 提示 3.5 (现在也是,因为我 prompt 就是纯英的)。我建议你这个论坛就别呆了,拉低智商。
|
110
aarontian 2h 41m ago
@ludyleocn 我有点不解,我一直以为合成数据就是所谓的蒸馏,看了你的说法才知道合成数据跟知识蒸馏完全是两回事。
那是否意味着 Anthropic 指责国模蒸馏发的文,本身就只是个混淆技术概念的公关文,内容表面上是 ToS (法律手段)实际上最终目的也只是为了限制国产模型厂商利用他们的模型进行商业竞争。这几家公司的行为应该是合成数据居多吧,或者至少并不是每家都是在蒸馏? |
111
ludyleocn 1h 51m ago
@aarontian 我上面的回复确实情绪过重了,这里心平气和地把技术概念和背后的事情理一下。
首先是概念问题。很多人把"合成数据( Synthetic Data )"和"知识蒸馏( Knowledge Distillation )"混为一谈,但这俩在学术上完全是两回事。知识蒸馏( KD )是 Hinton 2015 年提出的,核心是让学生模型对齐教师模型的概率分布( Logits ),通过 KL 散度来传递"暗知识"。而用一个模型的输出文本去做 SFT ,学术上叫合成数据训练或模仿学习( Imitation Learning ),学到的主要是风格和格式,并不等于真正意义上的 KD 。 回到 Anthropic 那篇博文,它指控的那三家通过 API 大量获取 Claude 的输出文本,用来做训练数据。但你想想,通过 API 你拿到的只是最终的文本输出,又不是模型的 Logits 分布,严格来说这些公司做的应该是合成数据训练居多,至少不是每家都在做学术意义上的蒸馏。Anthropic 自己文章里也承认 "Distillation is a widely used and legitimate training method",它真正指控的是注册 24000 个欺诈账号、绕过区域限制、违反 ToS 的行为——这本质是合同违约问题。但它偏偏在标题里造了个 "distillation attacks" 的词,把一个合同纠纷包装成了技术安全事件。 为什么要这么包装?结合它文章里反复提到的 "national security""export controls""authoritarian governments" 这些关键词,意图其实已经很明显了:这篇文章的受众不是技术社区,而是华盛顿的政策制定者。表面上是 ToS 维权,实际上是在游说国会加强对中国 AI 公司的限制,本质是商业竞争手段。把"用我的 API 输出做训练"说成"蒸馏攻击",听起来就像网络安全威胁,更容易推动立法和制裁。 至于 Claude 出现自称 Qwen 的情况,大概率是预训练语料混入了简中合成数据没清洗干净,在没有 system prompt 锚定身份时触发了身份幻觉。这是数据清洗的工程问题,不等于在"蒸馏千问"。反过来同理,之前国产模型出现类似情况也不能直接定性为蒸馏。 大家嘲讽 Anthropic 的回旋镖我完全理解,毕竟是它自己先把这个词武器化的。但如果我们自己也跟着用不精确的概念去起哄,某种程度上反而是在帮 Anthropic 巩固它那套叙事——默认了"用 API 输出做训练 = 蒸馏 = 攻击"这个逻辑链条。 |