大模型下优质中文语料匮乏问题

2023-06-10 23:11:52 +08:00
 libinglong9

随着 gpt 等 aigc 模型的兴起,语料质量也变得重要起来。国外有 Stack Overflow 等类似网站,对问答的要求很高,严谨,认真的回答更可能获得高分。再看国内,百度知道,知乎等网站,对提问与回答则要求较低。甚至知乎也有“知乎,分享你刚编的故事”这样的调侃,csdn 则 copy 盛行,近期不登录还不能查阅和复制。

国内是否需要一个真正严肃认真的问答网站呢?我有的时候跟朋友谈这个事,甚至都想,哪怕只有一小部分人用,我自己每年掏钱维护服务器都行。别让一个网站为了盈利,最后像知乎一样,处处都是故事。

5659 次点击
所在节点    程序员
59 条回复
realpg
2023-06-11 02:17:56 +08:00
@libinglong9 #7
大型中文社区,境外的,你没有 50%用户有管理权限可以 ban 人,基本就会变为政治和垃圾 spam 集中营
Lightbright
2023-06-11 02:34:46 +08:00
你是否在找:v2ex
Sting1226
2023-06-11 02:52:25 +08:00
知乎早期还是邀请注册的时候,回答的质量都很高,干货很多。
后来开放注册以后,越来越的品牌也加入进来,软文越来越多。
不谈 zz ,只单说回复的内容,感受就是这样的。
之前看过一个调查报告,中国网民的学历及年龄,不成熟的人很多。
这中间认知的偏差,就很容易各种撕 B 。
haichaofine32
2023-06-11 07:43:01 +08:00
能访问境外网站的是极少数,如果只能谈技术无法谈论价值观,那和境内的删评论和关键字审查有何区别?没有独立思考的人哪来高质量的答复,不信对比一下百度百科和维基百科,前者据说重要关键字请特定人作答
dji38838c
2023-06-11 09:39:44 +08:00
你可能把语料理解狭隘了。
ChatGPT 除了网上的内容外,还把海量的书籍,各类专业的书籍,都作为训练的内容
而别的不说,就说专业书籍,比如中文的生物学科的教材,就完全没有和英文的相比
这些教材和书籍的智力投入,都不是一代人了。
这恐怕远远不是做一个“更好的知乎”能改变的。
ttys001
2023-06-11 09:46:36 +08:00
@seres
作妖碰到红线?
是正常碰到作妖好嘛。
hhylx1950
2023-06-11 10:19:41 +08:00
其实从 chatgpt 的中文质量来看,语料似乎不是什么大问题。
acctv2
2023-06-11 10:38:59 +08:00
一个纯粹的图文 UGC 平台,其实成本还可以,不是那么高, 如果配合上使用 Google Ads 基本不用用爱发电太多。

所以我觉得你的想法是可行的,但是难点在于:
- 很难推广,墙外的中文用户毕竟是极少数
- 你肉身在国内,一旦平台负面言论过多,仍然存在合规风险
javlib
2023-06-11 10:54:51 +08:00
其实 ai 底层不区分语言,用大量的英语数据+少量的中文数据,训练出来的 ai 一样能掌握中文。所以你只要找到优质数据即可,不需要特定语言。
documentzhangx66
2023-06-11 11:17:16 +08:00
这本质是一个经济问题。

我国虽然是世界上第二大经济实体国家,但人均后,被第一名远超地不要不要的,仍然是一个发展中的穷国。

那些发达国家,就算不上班,偶尔接点小活,也能舒舒服服过日子。只有在这种情况下,才有人愿意把时间与精力,花在所谓的文章审核、文档编辑上。比如 GPT 训练语料的来源之一:维基百科,上面很多词条都没有中文的,就算是有中文的,内容数量也远少于英文。

穷,则需要疲于奔命。
optional
2023-06-11 11:21:59 +08:00
你错了,语料数据这方面其实问题不大,硬件的落后才是大问题,现在国内大厂 A100 都不够训练的。
learningman
2023-06-11 11:26:58 +08:00
v2ex 往前五年还是个技术社区,现在是个键政垃圾集散地。
中间发生了什么,各位有头绪吗?
libinglong9
2023-06-11 11:31:58 +08:00
@Lightbright V2EX 问答是比较轻松的。不像在 so 上会有压力。
mazyi
2023-06-11 11:33:37 +08:00
有地方可以谈政治,才会有地方不谈政治,如果大部分人接触到的地方不能谈政治,那少部分人可以接触到的地方就一定会变成谈政治的。
libinglong9
2023-06-11 11:35:11 +08:00
@learningman 社区是要有严格的规范的,该封的封就是了。但问题在于,有的社区又需要一定的活跃用户,这存在一些矛盾,因此从一开始,我就希望哪怕只有 1000 人用,也不会为了社区的活跃而放弃原则
aphorism
2023-06-11 11:45:12 +08:00
1. 你对中文的理解存在偏差。语料丰富度是一种语言的内在属性。语料匮乏是中文这种语言的最显著的特征。如果语料不匮乏了,那么这种语言就不能叫做中文了,叫做东文、西文、南文、北文,或者内文、外文、前文、后文都可以,就是不叫中文。

2. 语料的丰富度其实反映的是思想的多样化程度。这两者是互相影响的。从东亚大陆的历史来看,中文及相关语言的使用者都具有非常强烈的“多样性厌恶"特征,这种思想偏好决定了东亚大陆语言的核心特征。

3. 中文及其相关语言的表达能力是非常弱的,建议任何一个希望有所发现、有所创造的人尽可能地选择更强的语言来开展工作。
cassyfar
2023-06-11 11:56:12 +08:00
实名制,登录需要认证公司或者 org ,edu 邮箱。但这种网站太暴露隐私,一般人也不愿意用,毕竟你作为小网站没公信力。
Al0rid4l
2023-06-11 11:58:28 +08:00
语言是思维的工具, 思想被阉割, 却希望像别人一样诞生出高质量的思想产物(语料), 想的是挺美的
Jirajine
2023-06-11 12:06:08 +08:00
@realpg 据我见到的几个境外中文社区(非“大型”),非政治领域但不禁止政治的,政治内容占比重都不高。
但因为众所周知的原因,中文使用群体在涉及政治的话题中会产生大量的 flamewar 。
HN 之类的英文技术社区中的政治话题会好不少(当然吵架也不少)
realpg
2023-06-11 12:15:30 +08:00
@Jirajine #39
非大型肯定啊 键盘侠都不知道怎么来
而 OP 想做的东西,是要大型才有价值

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/947622

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX