工具不变,项目不变,换 GLM/MiniMax/qwen 思考过程都是中文,而 deepseek-v4-flash 思考过程都是英文。是不是因为 DeepSeek 蒸馏过程不用中文了?
工具不变,项目不变,换 GLM/MiniMax/qwen 思考过程都是中文,而 deepseek-v4-flash 思考过程都是英文。是不是因为 DeepSeek 蒸馏过程不用中文了?
1
accacc 4 days ago 你这不都自己有答案了么 是不是想发一贴期望有更多往这个上面靠拢的答案 切! ε=(´ο`*)))
|
2
xiaofeilongyy555 4 days ago
有看过相关解释,1.大模型使用了海量的英文高质量数据,特别是代码、顶级论文都是英文; 2.大模型在思考时,其实并不是在单纯地使用某种人类语言,而是将各种语言转化为一种抽象的“概念向量”,也就是说思考过程是没有语言概念的,只有 token
|
3
kyro00000 4 days ago
人类的发展就是靠蒸馏前人啊,这是事实啊
|
5
v1 3 days ago
相信后人的智慧,含金量进一步提升。
|
6
Nzelites 23h 22m ago
我这边 qwen 和 glm 也是英文思考 系统提示词的问题吧
|
7
Nzelites 23h 21m ago
其实小米 xla 智驾提到了模型间沟通还是什么不使用自然语言而是模型的中间语言 如果这个做法能套到现在的模型思考上说不定效率会更高
|