工具不变,项目不变,换 GLM/MiniMax/qwen 思考过程都是中文,而 deepseek-v4-flash 思考过程都是英文。是不是因为 DeepSeek 蒸馏过程不用中文了?
工具不变,项目不变,换 GLM/MiniMax/qwen 思考过程都是中文,而 deepseek-v4-flash 思考过程都是英文。是不是因为 DeepSeek 蒸馏过程不用中文了?
1
accacc 3h 22m ago 你这不都自己有答案了么 是不是想发一贴期望有更多往这个上面靠拢的答案 切! ε=(´ο`*)))
|
2
xiaofeilongyy555 3h 2m ago
有看过相关解释,1.大模型使用了海量的英文高质量数据,特别是代码、顶级论文都是英文; 2.大模型在思考时,其实并不是在单纯地使用某种人类语言,而是将各种语言转化为一种抽象的“概念向量”,也就是说思考过程是没有语言概念的,只有 token
|
3
kyro00000 2h 16m ago
人类的发展就是靠蒸馏前人啊,这是事实啊
|
5
v1 1h 12m ago
相信后人的智慧,含金量进一步提升。
|