看到说国内的 ai 发展不起来其中一个原因是因为中文语料库

2023-03-27 14:13:03 +08:00
 woshipanghu

中文优质开源的语料库信息太少

如果觉得少不能去把国外的英文语料库翻译成中文

然后再训练

是我想的太简单了吗 有做 ai 相关的大佬吗 这种可行吗

17235 次点击
所在节点    程序员
120 条回复
hackersee
2023-03-28 10:02:51 +08:00
都在谈特殊语句歧义问题,实际上让一个普通人听到一句“乒乓球拍卖多少钱”,“一把把把手把住”,“武汉市长江大桥分词” 第一感觉就是通常意思,为什么需要纠结歧义想法,若 AI 真的是一个人,那它的想法和普通人一样,首先给定的就是最常见的意境。其他语境里的理解,交给语境就行,仍然是技术理解问题。就好像一句话中如果颠倒了几个字,但普通人仍然能读懂语义一样,而 AI 可能就理解错了,一切都可以技术理解。只是没人钻研罢了。

根本上就是普通语句理解 + 语境理解技术。国内只钻最简单的语句拆词理解,语境不想涉及因为技术难度大。
PEALFK
2023-03-28 10:11:29 +08:00
带着锁链起舞的永远没有自由起舞的好看
chenPiMeiHaoChi
2023-03-28 10:23:12 +08:00
@NoOneNoBody 哪怕你去淘宝买个十块钱的共享账号都不会在这嘴硬。
kennylam777
2023-03-28 10:29:17 +08:00
想多了, ERNIE-VILG 的論文裡面早就說明白用百度翻譯做 dataset
https://arxiv.org/pdf/2112.15283.pdf
glfpes
2023-03-28 10:46:57 +08:00
chatgpt 证明了语料库不是问题。问题还是出在其他方面。
其实在 chatgpt 之前,国内的 AI 看起来还是很先进的,卡脖子的点在 gpu 上。像业务直接相关的搜广推 AI 算法,国内还是出了不少能有实际价值的好论文的。
chatgpt 是一个异类,吊打了全世界包括谷歌这个 AI 传奇大厂。。。
gladuo
2023-03-28 10:48:26 +08:00
忍不住回一下。不是说简体中文世界没有输出,而是高质量、有逻辑的严肃写作越来越匮乏。假设你现在需要帮你续写一篇严肃协作,你觉得所谓『高质量』的充满 emoji 的小红书,充满推广链接的知乎,大量的抄袭成风的各种号,还有各种官媒通稿,能不能作为合格的语料。当然你不能说完全没有,我们总有百度百科,有少量高质量的公众号,我们也可以逐渐用各种 AI 手段清洗现有的数据,筛选好的内容。但和 new yorker 那样的媒体,medium 上的大量高质量内容,大量的独立博客相比,中文世界最优质的创造者已经全盘导向视频制作了。比较新的中文文本内容整体质量下降,可以认为是客观事实。是会影响模型能力的。
Leviathann
2023-03-28 11:01:21 +08:00
@glfpes 事实证明大力才能出奇迹,对于那些追求理论上简洁优雅可解释性强的学者真是一件幻灭的事情
pcmgr456
2023-03-28 11:08:03 +08:00
去除掉西方元素,某国真就成为农业国了,搭了巨人的肩膀成为暴发户后就觉得自己了不起了,殊不知离了西方元素,屁也不是
rpish
2023-03-28 11:39:10 +08:00
国内 AI 公司为什么不能用英文语料库?是英文的不好?
zzzzzzZ
2023-03-28 12:07:01 +08:00
建议看看 openai 公布的数据
[https://github.com/openai/gpt-3/blob/master/dataset_statistics/languages_by_word_count.csv]
chatgpt 训练中文词汇不到 0.1%,为什么解答中文也这么好?

语义本身就只是语义,它 chatgpt 可以不懂「沉舟侧畔千帆过」,但是基于现代人类的基本语义都是没问题的。
NLP 这玩意国内也有大把成品,但是跟 LLM 完全不是一个东西。
LLM 要投入大量的算力卡和电费,谁舍得像它那样一个月烧一千万刀电费?现在火爆全球,你去问问李彦宏舍得吗,他说的不还是个资本家。


不要再给「国内 AI 」找借口,发展不起来纯粹是钱、算力、心态的问题。
dubidu
2023-03-28 12:40:34 +08:00
@Admstor 其实就算把隐私收集一个遍,还是不全面和不自然。这边语言表达和行为上的自我阉割自我审查也是很严重的。个人这样平台也是这样。
6i3BMhWCpKaXhqQi
2023-03-28 13:19:01 +08:00
@maggch97 我用 GPT35 试了一下,和 GPT4 差距还是有点大的,虽然 3.5 就能够完全把这两句话的意思翻译正确了,但在你这个问题上,回答截然相反。

什么时候能让我用上 GPT4 啊,哈哈……
6i3BMhWCpKaXhqQi
2023-03-28 13:28:47 +08:00
@chenPiMeiHaoChi 哈哈,10 块钱可能都不到就可以试一试的事情,非要去犟。
nkloveni
2023-03-28 13:51:01 +08:00
@churchmice
行车快倒了,他一把把把手把住。是什么意思


这个句子的意思是,当自行车快要倒下时,他迅速地用一只手抓住了自行车的把手,以避免自行车倒下。

通常情况下,当自行车快要倒下时,骑车的人会试图保持平衡并用手抓住自行车的把手,以防止摔倒。因此,这个句子的意思是在描述一个人在自行车快要倒下时,用手抓住自行车的把手以保持平衡的情况。
ans by chatgpt
sunyang
2023-03-28 14:22:32 +08:00
@LaurelHarmon 你对大陆程序员要求的过分了,一边是 996 猝死,一边是车贷房贷彩礼贷。就这种环境,哪行来钱快大家干哪行,谁有功夫投资未来?好不容易出那么一两个头铁的,还分分钟被人像素级抄袭,告又告不赢南山必胜客。
sunyang
2023-03-28 14:25:03 +08:00
@encro 央视造假,官媒造假,统计局造假,上下一起造假。
NoOneNoBody
2023-03-28 14:40:04 +08:00
@dayeye2006199 #71
都活了半个世纪,我也不是那种非黑即白的人,一些例子,是说“不容易”,而不是“不行”,大家都是成年人,交流本以为不用解释这些,但好像总有人以“非黑即白”去判断别人。我就是做数据分析的,虽然不是语言相关,但持完全否定那就相当于自我否定了

“AI”简单分几个层次
聚类,就是机器学习,从采集样本聚类,根据测试样本的归类对应结果
深度学习,采集样本数据拟合、动态收敛(大概意思),然后按测试样本反向执行推导
创造,是混合的,学习后对采集样本以外无关样本推导,这个才是我心目中的 AI

chatgpt 目前的表现算是里程碑式的,但我希望了解它的实现方式后再去判断,它究竟有否达到创造的境界
作为一个问答机器人,我是真心没兴趣的,我希望答案能对“乒乓球拍卖”,同时给出“卖”和“拍卖”两种情况;如果只是给出单一个高概率的答案,那跟某些人说“美国是坏的”、“华为是坏的”,都是同类“人”,更像是聊天机器人而不是问答机器人,不过它的名字好像就是聊天用的(我理解错了?)
去 so 或其他问答社区,我都是要看包括已选答案在内的所有回答的,因为“最佳”只是对某个人某个时空的最优而已
如果只给“最优解”,其他都隐去,有种“听 XX 的话”的感觉

如果 chatgpt 能作为“辩论机器人”,能持续抛出论据,那就有点意思。我是个怪人,喜欢从辩论中学习,因为在短时间内,对方就能抛出我不懂的知识点,比我自己搜索快得多

我对它最大兴趣就是看它“创造”的占比,表象看是有的,因为对一些“未知领域”它会给出错误答案,这是一个具有创造雏形的表现,对不对不重要(准确度以后能修正),能“胡编乱造”还通顺也是“造”,具体要看团队公开的信息判断

最后,我是没有离开 OP 的题目原文讨论的(是我太认真了么?),chatgpt 无论多大的成就,也不是国内从业者的产品,国内 AI 就是这么个状况,有专业知识的人从事或协助 AI 发展的太少,非专业就攻坚困难,一直修修补补
现在的推荐算法真实弱爆了,这个还不到“创造”阶段呢,不少都是行业巨头,说缺钱是说不过去的,这点就体现国内对待 AI 的态度如何了
wupher
2023-03-28 15:08:23 +08:00
1. 原因之一,其实还是可以通过算法自动生成语料的。当前各种审,各种拦,确实阻止了大家说话,说实话。感觉这个会随着时间发展越加显著突出。
2. 芯片限制也是其中原因之一,而且有可能随着时间越久影响越大。
3. 赢利前景,这东西投入大,变现前景不明,更别提政策风险了。
4. 就是政策了,大家都懂的

个人浅见
encro
2023-03-28 16:02:31 +08:00
@NoOneNoBody


缺钱还真是的,
其实还是 SHZY 初级阶段问题,
就如 95 楼,
车贷房贷彩礼贷,
多少年前我们还在解决温饱问题呢。

大家目光都不长远,第二代企业家刚出来,第三代还没造呢。



@sunyang

中国不仅没有 chatgpt ,
连优衣裤都没有,
前几年连保鲜袋都是日本的便宜实惠。。。
现在日本的 byt 还是世界第一。

大家都还活在毫无产权意识的封建社会!

所以不能怪谁,只能靠我们自己和后代吧。
zhangtest
2023-03-28 17:06:06 +08:00
国内敏感词过滤是世界性难题,很多东西只可意会不可言传,还要随着环境变化而变化,今天是正能量,明天可能是负能量,以后做大了还要符合主流宣传方向,都是需要一个一个难题需要突破。
这个门槛没突破还想发展 AI 是痴人说梦,国内就几家公司能勉强做得到。
你不想过滤?直接举报下停业整改。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/927530

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX