yidinghe
V2EX  ›  DeepSeek

为何 deepseek-v4-flash 思考过程都是英文

  •  
  •   yidinghe · 4 days ago · 762 views

    工具不变,项目不变,换 GLM/MiniMax/qwen 思考过程都是中文,而 deepseek-v4-flash 思考过程都是英文。是不是因为 DeepSeek 蒸馏过程不用中文了?

    accacc
        1
    accacc  
       4 days ago   ❤️ 1
    你这不都自己有答案了么 是不是想发一贴期望有更多往这个上面靠拢的答案 切! ε=(´ο`*)))
    xiaofeilongyy555
        2
    xiaofeilongyy555  
       4 days ago
    有看过相关解释,1.大模型使用了海量的英文高质量数据,特别是代码、顶级论文都是英文; 2.大模型在思考时,其实并不是在单纯地使用某种人类语言,而是将各种语言转化为一种抽象的“概念向量”,也就是说思考过程是没有语言概念的,只有 token
    kyro00000
        3
    kyro00000  
       4 days ago
    人类的发展就是靠蒸馏前人啊,这是事实啊
    yidinghe
        4
    yidinghe  
    OP
       3 days ago
    @accacc 人凡是有疑问,自然带着猜测。但猜测是主观的,答案是客观的。你为什么觉得一个人有自己的猜测,就必然不会去寻求答案?这想法挺窄的。
    v1
        5
    v1  
       3 days ago
    相信后人的智慧,含金量进一步提升。
    Nzelites
        6
    Nzelites  
       23h 22m ago
    我这边 qwen 和 glm 也是英文思考 系统提示词的问题吧
    Nzelites
        7
    Nzelites  
       23h 21m ago
    其实小米 xla 智驾提到了模型间沟通还是什么不使用自然语言而是模型的中间语言 如果这个做法能套到现在的模型思考上说不定效率会更高
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   2982 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 34ms · UTC 09:40 · PVG 17:40 · LAX 02:40 · JFK 05:40
    ♥ Do have faith in what you're doing.