GPT-4o 的新 tokenizer 词库污染严重

233 天前

Xs0ul

694 次点击

所在节点

3 条回复

jhdxr

233 天前

说的好像现在有高质量中文语料来源一样的。

本身简体中文（可公开访问的）内容就少，墙内网站还在纷纷对海外 IP 建墙，爬到的内容全是垃圾岂是并不奇怪。

对于大陆的炼丹师来说这个问题当然是致命的，但反正 openai 和大陆早就双向奔 ping 赴 bi 了，所以也没啥问题？

wangyaominde

232 天前

这好像说明不了什么，这类词在 ChatGPT 里面的权重也看不到，调用分词器输出就跟查词典直接让他输出一样

Xs0ul

232 天前

上面两个链接都给了例子，因为这些 token 没被合理地分词，并且在训练数据里也很难被训练到，会导致 chatgpt 在遇到这些词的时候输出无关或者无意义的回答，例如 https://twitter.com/HanchungLee/status/1790273097188393391

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.