看到说国内的 ai 发展不起来其中一个原因是因为中文语料库

2023-03-27 14:13:03 +08:00
 woshipanghu

中文优质开源的语料库信息太少

如果觉得少不能去把国外的英文语料库翻译成中文

然后再训练

是我想的太简单了吗 有做 ai 相关的大佬吗 这种可行吗

17235 次点击
所在节点    程序员
120 条回复
evan9527
2023-03-27 22:28:39 +08:00
我觉得发展的瓶颈主要是不能说。
Calen
2023-03-27 22:30:12 +08:00
看到很多杠精都在说中文有多复杂,难道非得钻着牛角尖搞 AI 吗,不能先从人话开始搞?最根本的原因是,有钱人都在忙着做微贷。
Microi
2023-03-27 22:35:54 +08:00
不要怪公司短视,换了你上去,你会在这边的环境下全力投入一个以年为单位的项目吗?
我想起一个视频:
俞敏洪揶揄马云说,教育是永远的行业,一百年后教育还在,但阿里巴巴不一定在。
马云回击说,教育一定在,但新东方不一定在。
结果十年还没到,教育行业没了,哈哈。
levelworm
2023-03-27 22:38:28 +08:00
@8355 用爱发电只能希望企业能够重视起来了,华为我觉得似乎还是不错的。
huijiewei
2023-03-27 23:47:45 +08:00
我没用过,也懒得用,但是我觉得就是这样的。啊啊啊啊
misslita
2023-03-28 02:03:00 +08:00
数据集真的是大问题,看看百度自己都在用英文数据集训练好像是一家非盈利公司整理的图片数据集,国内有没有一家专门做这些的感觉前景不是很大吗,这么多人想做但是都没有靠谱的数据🐶openai 是真的牛去那找的中文数据
Rrobinvip
2023-03-28 04:29:59 +08:00
训练 gpt3.5 这种模型不仅仅需要的是数据集。时间和显卡也是很重要的。论文“ Measuring the Carbon Intensity of AI in Cloud Instances”是和微软合作完成的,其中提到用 256 块 a100 训练一个 6b 参数的 nlp transform 模型需要 60 天。可想而知训练 gpt3.5 的时间绝对不会短。我印象中在另外一篇有微软参与的论文中看到过相关 gpt3.5 的训练细节,但我记不清了。由此可见这东西是一个既费时又费钱的东西。
cassyfar
2023-03-28 06:08:57 +08:00
@mikewang 没毛病 1 ) bus and mouse 2 ) crane
cassyfar
2023-03-28 06:10:32 +08:00
优秀人才都润国外去了,看看 FLAG 里多少国人做 ML 的,北美院校多少华人教授搞 AI 。还是那句话,你就是霍金来,也要站起来敬酒。
DFC
2023-03-28 06:26:28 +08:00
无恒产者无恒心
dayeye2006199
2023-03-28 07:21:18 +08:00
@NoOneNoBody 现在的模型都可以不分词,可以字符进去一个一个喂。注意力机制,可以让模型根据上下文搞明白这些歧义的句子意思式什么。你说没上下文,人都搞不明白,那就别指望机器了。
alne
2023-03-28 08:56:09 +08:00
@worldqiuzhi 有没有可能用英文训练出来不用特定调整就能识别大部分语言?并且这个准确度还是非常高的?
有没有可能进行针对性微调后这个准确度会变得非常可用?

现在的大模型最缺的就是数据了
DAPTX4869
2023-03-28 08:56:54 +08:00
我觉得是 AI 会搞不懂 nm, fa, xswl 这种乱七八糟的玩意....
encro
2023-03-28 09:21:52 +08:00
你说对了,

中文匮乏的根源却在有质量可信的资源几乎没有。

比如某百科和百 x 号里面有什么值得看的内容?这些本应是权威的网站,结果成了公关运作的!

比如某 ys 网里面的新闻是能信的?里面大多数新闻没有具名公司,来源于网络。这本来也应该真的新闻,结果也真假难辩!

某乎都在抖机灵!

相对国外:维基百科,github ,stackoverflow ,等各行个也顶级刊物。。。。

国内可以看的是曾经的 cnblogs ,SegmentFault ,掘金,你看我加上了曾经。。。后来因为不赚钱、评论不能说话、自我阉割、商业化各种因素吧,搜索引擎都不愿意给流量了。
CaptainD
2023-03-28 09:30:07 +08:00
数据质量应该是个决定性因素,国内的数据不开放且质量差,缺乏像 wiki 这种整理数据周期发布的,也因为审核等原因缺乏高质量数据
sunyang
2023-03-28 09:36:07 +08:00
要感谢审查,创造好多莫名其妙毫无逻辑相关的语料。同样是 AI 你琢磨自动审核都搞不定的语料库,其他 AI 能搞定?
ql562482472
2023-03-28 09:48:27 +08:00
人一生接触的无非也就是 10 亿个 token 或者*2 看起来语料库的大小与 gpt 并无关联:

https://www.yuque.com/3dinternet/gpt/gtc2
yesicoo
2023-03-28 09:51:11 +08:00
@encro 说起 cnblogs 这个小站正在被百度恶意爬数据 也不知道是不是用来训练。不让爬就降权,就是你说的不愿意给流量。百度这个毒瘤倒了,中文环境应该会干净一点吧... 应该吧...
tusik
2023-03-28 09:52:27 +08:00
@maggch97
@daliusu
你们两个答案都相反
maggch97
2023-03-28 09:54:15 +08:00
@tusik 因为一个是 gpt4 一个是 gpt3.5

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/927530

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX