GPT 是如何学习高质量中文语料的呢?

361 天前
 koto
首先请原谅我小白的提问。

简体中文互联网的内容这些年越来越封闭,许多都只存在于 app 内部,网络很难检索到。
那么 GPT 是怎么学习一些高质量且比较新的简中语料的呢?
1323 次点击
所在节点    OpenAI
9 条回复
naminokoe
361 天前
v2ex 就是能检索到的,难道 V2EX 上的语料不是高质量的吗?
lDqe4OE6iOEUQNM7
361 天前
爬取互联网内容,加上合作伙伴的数据,中文压根没有很多优质的的高质量数据,学术论文都在国外,国外 ai 没爆发之前,推特,国外的贴吧都好爬,现在都做了反扒,加高收费接口
lDqe4OE6iOEUQNM7
361 天前
现在很多网站直接屏蔽 openai 的爬虫机器人
lDqe4OE6iOEUQNM7
361 天前
还有就是用户输入的数据,别国内大厂的开发,产品策划,行政,jc,各大高校的学生,老师主动输入的数据
lDqe4OE6iOEUQNM7
361 天前
你能想到的国内的职业,无论各行各业,都有人用,他们自己主动上传的
lDqe4OE6iOEUQNM7
361 天前
不过 openai 会做脱敏处理保护隐私
Liftman
361 天前
所以 gpt 的中文文案能力一直起不来。。。而且中文文字的含义过于复杂了。。本身他对单个字的使用就比较拉胯。。。
dence
361 天前
你知道世界上藏书量最大的图书馆(也含大量中文书籍)是盗版图书馆吗
dence
361 天前
而且 chatgpt 的回答,不同语言之间的数据并不是孤立的,也就是你问他中文问题,他背后可能调用的是英文数据集,只不过以中文呈现给了你而已

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/995909

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX