大模型下优质中文语料匮乏问题

2023-06-10 23:11:52 +08:00
 libinglong9

随着 gpt 等 aigc 模型的兴起,语料质量也变得重要起来。国外有 Stack Overflow 等类似网站,对问答的要求很高,严谨,认真的回答更可能获得高分。再看国内,百度知道,知乎等网站,对提问与回答则要求较低。甚至知乎也有“知乎,分享你刚编的故事”这样的调侃,csdn 则 copy 盛行,近期不登录还不能查阅和复制。

国内是否需要一个真正严肃认真的问答网站呢?我有的时候跟朋友谈这个事,甚至都想,哪怕只有一小部分人用,我自己每年掏钱维护服务器都行。别让一个网站为了盈利,最后像知乎一样,处处都是故事。

5660 次点击
所在节点    程序员
59 条回复
Torpedo
2023-06-11 12:26:32 +08:00
先研究英文怎么翻译到中文,然后直接学习英文资料

当然,本地化的,那只能想想能不能拿到内参啥的资料了
THESDZ
2023-06-11 13:02:58 +08:00
最简单地方式,就是做成点对点或者群组加密,只有网站和群组内成员才能阅读.
Jirajine
2023-06-11 13:39:45 +08:00
@realpg 什么样的能称为“大型”?如果限定简中的话,v2ex 应该已经算是最大的了吧,其他 reddit 之类的只有政治领域有用户规模。群组、Twitter 、youtube 这些本来就是吵架的地方没有计入的必要。
主要原因还是 GFW 以外简体中文语言使用者之间立场分化极其严重、矛盾尖锐,HN 这些地方政治话题虽然也有吵架但不至于变成粪坑。
vlgs
2023-06-11 14:22:55 +08:00
不如直接用英文的
zhchyu999
2023-06-11 15:39:33 +08:00
所以 chatgpt 回答不了中文的问题和问题么
kawaii303
2023-06-11 16:03:37 +08:00
中文里面相对质量高的网站只有 V2EX 了,里面的“问与答”节点相当于问答网站。想自己建一个严肃认真的问答网站还是很难的,一是盈利,二是管理,自己没有闲钱闲工夫,网站很难做好。
libinglong9
2023-06-11 16:22:29 +08:00
@zhchyu999 能回答,就是国内不知道啥时候能用啊?处处被卡脖子哪里受得了
calon
2023-06-11 16:50:55 +08:00
里屋论坛在做中文语料集的事情,现在需要技术人员和贡献语料,有兴趣的可以参与。
链接:
https://mnbvc.253874.net/
https://github.com/esbatmop/MNBVC
calon
2023-06-11 16:54:55 +08:00
目标是 40T 的数据量,目前的进度是 5T 多,12.6%
yvescheung
2023-06-11 17:43:42 +08:00
互联网上英文页面占 55%,中文仅占 1.4%,和波兰语一个水平,不如土耳其语,荷兰语,日语
这种差距不是几个严肃问答网站就可以抹平的
zisen
2023-06-11 18:09:39 +08:00
之前参加过一个高校内部的类似 stackoverflow 的问答网站,老师和学生都在网站内实名提问和回答,然后被创业中心给否了,也没拿到经费
fengjianxinghun
2023-06-11 18:24:50 +08:00
@yvescheung 有没有可能,这是 2012 年开始的大规模关停网站导致的。
dyllen
2023-06-11 18:56:06 +08:00
审核都搞死你,不审核搞出来敏感的东西你人在国内小心被请去喝茶,人不在国内的直接墙了。
yvescheung
2023-06-11 19:21:12 +08:00
@fengjianxinghun 华生,你发现了盲点
yankebupt
2023-06-11 19:41:56 +08:00
@libinglong9 V2EX 也架设在国外,你猜站长为什么还是上关键字了?
中国人的劣根性,有些人即使是来讨论热点事件的,也不真的是来认真讨论热点事件的,而是精心设计一个局,制造几个风口新闻,然后准备踩着你的网站上位。
而这些,对于早就习惯了的国外浏览者而言,都只不过是不值得关注的杂谈而已。
我觉得有些人累了,不再想帮你免费劳动
IndexOutOfBounds
2023-06-11 20:42:48 +08:00
相同的一件事情,用中文还是英文语料训练区别大吗?只需要少量的中文语料让模型掌握中文本身不就好了
w210934618
2023-06-11 21:01:55 +08:00
1
frankies
2023-06-11 22:27:56 +08:00
国内有专门雇人把英文语料翻译成中文进行训练的。
domoco
2023-06-11 23:39:25 +08:00
@JinBin 难道不是因为国外导向了所谓的言论自由,才造成这个原因?没那么狼口,谁管你言论自由呢
Inevitable
2023-06-12 14:32:30 +08:00
@frankies 改善翻译来提高素材质量了,不过这种类型其实也不需要担忧吧,毕竟高价值的很多都藏着的

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/947622

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX