百度文心和其他模型的一个重大的不同点

2023-11-02 16:09:09 +08:00
 nomagick

百度的模型是针对中文的,它的 Tokenizer 对英文进行编码的效率特别低,大概两个字母一个 token ,接近字符计数

现在市面上其他的模型基本上是 BPE 编码,编码中文的效率相对低,token 大概是中文字符数*2 的程度

总的来讲在其他模型里面中文水土不服,而在百度这里英文水土不服,而其水土不服的程度超过中文在其他模型的水土不服程度

从结果看,用于 GPT 的英文 prompt 不能直接用于文心,prompt 必须改成中文,并且回复大概率也是中文,做不了国际化的出海应用,只能国内自己用。

可以说是内循环的急先锋了。

891 次点击
所在节点    分享发现
4 条回复
whileFalse
2023-11-02 18:48:03 +08:00
中文的 prompt 能用于 gpt 吗?
nomagick
2023-11-02 18:58:07 +08:00
@whileFalse 能啊怎么不能
whileFalse
2023-11-02 19:06:40 +08:00
那是不是 gpt 也直接用中文 prompt 就行了
nomagick
2023-11-02 20:59:54 +08:00
@whileFalse 不是

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/987921

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX