看到说国内的 ai 发展不起来其中一个原因是因为中文语料库

2023-03-27 14:13:03 +08:00
 woshipanghu

中文优质开源的语料库信息太少

如果觉得少不能去把国外的英文语料库翻译成中文

然后再训练

是我想的太简单了吗 有做 ai 相关的大佬吗 这种可行吗

17233 次点击
所在节点    程序员
120 条回复
maggch97
2023-03-27 17:02:57 +08:00
不要脑补技术好不好,看一点科普文也不至于误解这么深
woshipanghu
2023-03-27 17:06:26 +08:00
@NoOneNoBody 英翻中 也没什么难度 现在做到 99%的准确率肯定有的 准确率甚至更高
LaurelHarmon
2023-03-27 17:07:36 +08:00
跟语料没关系,跟背后的很多东西有关系。
中国并不缺少聪明人,也不缺钱。
但是纵观 NLP 这黄金十年,没有一个革命性技术是在中国大陆诞生的,是的,没有一个。
中国研究者擅长跟随,刷榜,不擅长探索,开创。
HeyWeGo
2023-03-27 17:18:21 +08:00
从国内外的 app 思路就能看出,国内资本发展更像资本注意会干出的事。哪哪都是贷款入口!别的国家的,实在是太太恶心了
Admstor
2023-03-27 17:20:59 +08:00
笑死了

隐私侵犯如此剧烈的土地,跟我说缺少语料库...你自己想想这合理吗?

承认一下公司短视
承认一下技术落后
没那么难
NoOneNoBody
2023-03-27 17:21:32 +08:00
@LaurelHarmon #19
没帐号,也没多大兴趣
我不喜欢别人帮我选择一个,虽然多数情况下省时省成本,我更多喜欢自己选择并验证一次(能力范围内)
maggch97
2023-03-27 17:22:26 +08:00
gpt 的中文和英文的准确率论文里面都有,而且是一个非常简单直观的图标。
maggch97
2023-03-27 17:23:30 +08:00
@NoOneNoBody 虽然说评论厨子不需要会做菜,但起码得吃过厨子做的菜吧
NoOneNoBody
2023-03-27 17:26:50 +08:00
@woshipanghu #22
这个?你理解错了?我不是说英翻中不准,而是英语语料没有汉语特有的东西,例如汉语成语

@Pin #18
OP 原文说的是 英语语料翻译成中文再训练,不是 中翻英
Chad0000
2023-03-27 17:28:17 +08:00
@Admstor #25
李某宏:我谁说我们落后了?我们离 ChatGPT 只有一两个🈷️的距离而已。
iamwho
2023-03-27 17:30:38 +08:00
@NoOneNoBody

几乎任何语言都会有出现歧义的情况,当你把一些英语或是其它语言中具有歧义的文本扔到 ChatGPT 一样会出现仅针对特定释义的回答,但是你对它进行纠正,它也是能够理解的。所以,很明显国内 AI 发展不起来是因为前瞻性不足和人才缺失。
NoOneNoBody
2023-03-27 17:32:00 +08:00
@maggch97 #28
chatgpt != AI
我只是对 chatgpt 没兴趣,不是对 AI 没兴趣,我大学的毕设(上世纪)就是聚类分析(化工分析方面)
Admstor
2023-03-27 17:34:50 +08:00
@NoOneNoBody 英语也有俚语和成语,只不过英文的成语并不是中文这种缩写的表达方式
但依然符合"字面意思多与其实际想表达的意思不同"以及较为正式

每个语音都有自己的特殊的地方
不要把汉语的特殊认为"难以理解"或者"高人一等"
maggch97
2023-03-27 17:38:20 +08:00
@NoOneNoBody 你理解的那套 AI 早就已经是时代的眼泪了。。。
NoOneNoBody
2023-03-27 17:38:37 +08:00
@iamwho #31
同意

但我有个疑问,OP 说的是 AI ,为何好几楼回复我的都是说 chatgpt ?
chatgpt 只是 AI 及分支 语言 AI 的一个表现,不是全部
churchmice
2023-03-27 17:47:45 +08:00
@worldqiuzhi 一把把把手把住
老五对老四说,老三的老二老大了
你试试这些能理解吗?
sampeng
2023-03-27 17:47:52 +08:00
最大的卡脖子居然没说,在这扯技术…
哪来的 gpu 算例啊…
binfengxy
2023-03-27 17:48:22 +08:00
多家外资企业运维经验。海外的架构搬到国内要脱一层皮,同理国内的架构出海也是要脱皮换骨

这些中小外资企业,只要一个模式能跑好,很简单就可以把用户扩展到全世界。大陆这种,老板们要出海要有其他“出海方案”(代价)了,基本等于重做
muntoya
2023-03-27 17:51:44 +08:00
@sampeng #37 我感觉最大的卡脖子是中国政|府的百变政策规定
NoOneNoBody
2023-03-27 17:52:16 +08:00
@maggch97 #34
这就看怎么理解了,你去翻我在其他帖子的回复,我不认为 AI 是一蹴而就的东西,是要几代人数十年甚至上百年的累积
我一直持这个观点,我能做到一个因子的合理量化就算有贡献了
其实过去的半个世纪,大概每十年 AI 就会“热”一阵子,大部分的成果都不是那么彰显的,step by step

我从事聚类分析(非主业)二十多年了,也曾从旁协助过一些搞 AI 的小项目,但我没有直接参与,时间精力能力都不足以让我承担些什么

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/927530

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX