大模型下优质中文语料匮乏问题

2023-06-10 23:11:52 +08:00
 libinglong9

随着 gpt 等 aigc 模型的兴起,语料质量也变得重要起来。国外有 Stack Overflow 等类似网站,对问答的要求很高,严谨,认真的回答更可能获得高分。再看国内,百度知道,知乎等网站,对提问与回答则要求较低。甚至知乎也有“知乎,分享你刚编的故事”这样的调侃,csdn 则 copy 盛行,近期不登录还不能查阅和复制。

国内是否需要一个真正严肃认真的问答网站呢?我有的时候跟朋友谈这个事,甚至都想,哪怕只有一小部分人用,我自己每年掏钱维护服务器都行。别让一个网站为了盈利,最后像知乎一样,处处都是故事。

5658 次点击
所在节点    程序员
59 条回复
Track13
2023-06-10 23:23:23 +08:00
这不是钱的问题。
seres
2023-06-10 23:23:56 +08:00
UGC 网站面临最大的问题是合规审查
一但有用户作妖碰到红线,网站就没了。。。
libinglong9
2023-06-10 23:26:34 +08:00
@seres 所以这个网站,从一开始我的想法就是架设在国外
huijiewei
2023-06-10 23:26:34 +08:00
问题是你敢弄就有人给你搞赵弹袭击。。
huijiewei
2023-06-10 23:26:51 +08:00
@libinglong9 然后被墙了,也没啥人气
yyws2012
2023-06-10 23:30:43 +08:00
如果真的不想盈利甚至回本、并且能持续用爱发电的话,可以不用国内服务器,把各种反 GFW 的思路换上,还是能做的。
但是前面两个条件很难实现。
libinglong9
2023-06-10 23:30:52 +08:00
@huijiewei 其实这种网站,即使在国外,我也不希望他谈政治,谈政治对这种网站没什么意义
malusama
2023-06-10 23:37:38 +08:00
别的不过..现在国内的模型都还在对标 chatgpt.
chatgpt 也是用 Common Crawl
WebText2
Books
Wikipedia
这些语料训练出来的啊, 这些也都是公开的. 有什么缺乏的问题.
等到啥时候目标是赶超才需要提优质语料吧?
libinglong9
2023-06-10 23:46:10 +08:00
@malusama 优质语料是一个更需要日积月累的东西,硬件和软件差距肯定会越来越小,或者即使有很大差距,但是够用就好了
wdlth
2023-06-10 23:46:35 +08:00
我觉得如果只有所谓的高质量语料可能效果更难以满足,本身每个人的表达方式就不一样,有的人可能会突出重点,有的人会发散一下思维,做个比喻什么的,如果只以所谓的高质量语料去训练,那又如何去满足质量低的输入呢?
像 Common Crawl 数据集就是低质量,但可以从中提取到各种各样表达方式。
Trello
2023-06-10 23:47:19 +08:00
国内思否还行,就是没什么人气。
haha512
2023-06-10 23:47:47 +08:00
并非是谈不谈政治的问题,国内太多敏感点,挂满全身,还没有违规标准。
比如那 8 个字不能随便说,一不小心就辱军了、某种炒饭在某些场合下也涉及侮辱烈士、提到 HK/TW 时,少说个中国可能就被指辱华、一不小心夸奖个美日就是崇洋媚外 50 万... 太多太多了。
Ericcccccccc
2023-06-10 23:50:19 +08:00
样本投毒这种事最早百度给 google 做过了.
libinglong9
2023-06-10 23:53:56 +08:00
@wdlth 你说的有道理,只是低质量的语料太容易获取了。
huijiewei
2023-06-11 00:05:29 +08:00
@libinglong9 国外谈政治你可以删帖(反正慢慢删除就好了),国内你删慢点自己就没了
JinBin
2023-06-11 00:17:42 +08:00
政治在现代文明国家就是吃饭呼吸一样寻常的事,不谈才奇怪。主动阉割是掩耳盗铃,治标不治本。只有简中言论自由,没有变态的 censorship 了,才有可能谈高质量的内容。
greatbody
2023-06-11 00:22:11 +08:00
StackOverflow 上面大量的英文内容不是英文为母语的国家的人贡献的。例如我就贡献过很多的被采纳的优质回答。为什么用英语贡献?很简单,在编程的世界中,很多术语是英语的,而且使用英语能让更多的人看懂。

语料匮乏中国人也不必纠结。大语言模型核心的是训练出来的网络权重,而我理解这个就类似人学习到的经验,是非语言的。当你使用中文提问的时候,英文的知识也会被用上,只不过在输出的时候多了一个翻译的步骤。

最后,不论中文,英文都是人类的共同财富。不应该因为中文的语料少而自卑。
ltltfuture
2023-06-11 00:38:01 +08:00
说实话,不如学好英语
hsir
2023-06-11 00:46:24 +08:00
其实不是语言语料的问题,因为大模型不是用语言思考的,翻译只是人类传递信息所需要的,就像 E=mc^2 这个公式一样,AI 理解的是公式本身,而和表达或者输入的语言无关。

美国是互联网的发源地和创新地,拥有最大最全的互联网基础设施,所以 AI 自然是最发达的;国内的 AI 主要问题其实就类似一众手机国产厂商定制系统和 Android 系统的关系一样,美国人制定了标准,中国只能 follow ,吃别人的,用别人的,从别人那里来,有问题等别人先解决,别人解决了自己直接拿来用,至于自己的创新、甚至造轮子的想法,则是不会有,不敢有,不能有。
libinglong9
2023-06-11 00:55:18 +08:00
@JinBin 不谈政治的意思是,网站本身不是要做那种任意的问答,就如同 Stack Overflow 一样,只做 code 相关的问答

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/947622

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX