从大语言模型训练角度理解,成年人的英语学习本质是一个已经训练好的中文 LLM 继续训练英文 LLM
应该从头训练吗?(像小孩一样学习)
不,应该跨语言迁移学习( Cross-Lingual Transfer Learning ),也就是在原有大语言模型上进行持续预训练
其中持续预训练过程中有一个非常重要的步骤,共享表示学习,实现不同语言的相似概念或实体在表示空间中彼此接近
怎么做到共享表示学习呢?
用传统机械式记单词,可能无法准确捕捉不同语言之间的语义差异,从而导致表示空间中的混淆和不准确性
用中夹英方式,模型在处理包含英文的中文句子时,会被迫学习如何在两个语言系统中找到共同的表示,能更好地将相似的语义概念在表示空间中彼此靠近
如今知名的 LLM 能非常轻松地输出中夹英也验证了以上论述
以上是我做产品混阅的背后理论支撑