GPT-4o 的新 tokenizer 词库污染严重

42 天前
 Xs0ul

https://twitter.com/op7418/status/1790292330156863964

https://zhuanlan.zhihu.com/p/697675593

463 次点击
所在节点    OpenAI
3 条回复
jhdxr
42 天前
说的好像现在有高质量中文语料来源一样的。

本身简体中文(可公开访问的)内容就少,墙内网站还在纷纷对海外 IP 建墙,爬到的内容全是垃圾岂是并不奇怪。

对于大陆的炼丹师来说这个问题当然是致命的,但反正 openai 和大陆早就双向奔 ping 赴 bi 了,所以也没啥问题?
wangyaominde
41 天前
这好像说明不了什么,这类词在 ChatGPT 里面的权重也看不到,调用分词器输出就跟查词典直接让他输出一样
Xs0ul
41 天前
上面两个链接都给了例子,因为这些 token 没被合理地分词,并且在训练数据里也很难被训练到,会导致 chatgpt 在遇到这些词的时候输出无关或者无意义的回答,例如 https://twitter.com/HanchungLee/status/1790273097188393391

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1040797

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX