看到说国内的 ai 发展不起来其中一个原因是因为中文语料库

2023-03-27 14:13:03 +08:00
 woshipanghu

中文优质开源的语料库信息太少

如果觉得少不能去把国外的英文语料库翻译成中文

然后再训练

是我想的太简单了吗 有做 ai 相关的大佬吗 这种可行吗

17235 次点击
所在节点    程序员
120 条回复
yvescheung
2023-03-27 18:00:33 +08:00
这不能解释 openai 的中文为啥发展出来了
rrfeng
2023-03-27 18:04:06 +08:00
gigo
worldqiuzhi
2023-03-27 18:07:37 +08:00
@churchmice 我觉得这个回复的没什么毛病 不比正常人理解差 ---这个句子包含了很多重复的词汇,可能使其在一定程度上变得含糊不清。不过,根据句子的结构和词汇,我们可以尝试分析出几种可能的语义:

老五正在抓住某个把手(一把把把手把住),然后他对老四提到老三的老二已经变老了。在这个解释中,"老二"可能指老三的次子或者某种次要的东西。

另一种可能是句子描述了老五通过某种方式控制了某个把手(一把把把手把住),随后他告诉老四,老三的老二变得非常重要或有影响力了(老大了)。在这个解释中,"老大"可能表示变得重要或有影响力。

第三种可能是句子中的“老二老大了”可以理解为老三的老二变得更加年长或成熟。在这种情况下,老五可能在告诉老四这个事实,同时手上还在紧握着把手。

这个句子的确存在多种潜在的语义解释,取决于我们如何理解其中的词汇和句子结构。
NoOneNoBody
2023-03-27 18:09:08 +08:00
@Admstor #33
不知道最后一句是怎么推导出来的,说的是我么?

要不我从头说一下
OP 说的是“国外的英文语料库翻译成中文,然后再训练”,我觉得这么做不足够
我也没有认为汉语难以理解,起码我就汉语就比英语好吧
我只是觉得汉语需要做的工作更多,例如"server",汉语 AI 就需要理解“服务器”和“伺服器”两个词(自然人理解其一就够了)
又如,汉语不像英语用空格自然分词,分词就是一个必须工作,英语分词简单很多吧
诸如此类琐碎但看似又不能直接看到成果的工作,就需要有人默默奉献,目前参与的人不多
我说的是这个
lambdaq
2023-03-27 18:10:39 +08:00
gpt-3 通过区区 30w 篇文章就掌握了汉语。。。。

/t/917704

@woshipanghu @YUCOAT @worldqiuzhi @janus77
daliusu
2023-03-27 18:15:03 +08:00
楼上那些纠结一些成员和容易混乱的句子的,是真的低估 ai 和其他语言了,每个语言都会有这种东西,这压根就不是问题好吗?
一把把把手把住 是什么意思?

“一把把把手把住”这个词语似乎没有确切的规定定义,并且没有语境的情况下无法确定其含义。但从字面上来看,可能是描述某个人或者几个人用手抓住某个物件、物体,也可能是某人在抓住自己的手或者手腕。

需要结合具体的语境来理解该词语的具体含义。

中国女排大败美国女排,中国女排是赢了还是输了

"中国女排大败美国女排"的意思是中国女排在比赛中失利(输掉比赛),因此中国女排没有赢,而是输了。

这是 chatgpt3.5 没经任何调教和 prompt 的回答,这个回答基本已经理解到这句话的意思了,这很难吗?
国内 AI 不行压根就不是因为中文、或者中文环境多特殊。根本我认为还是在商业环境上
maggch97
2023-03-27 18:34:14 +08:00
质疑之前起码先尝试一下。鉴于有人懒得尝试 GPT ,我直接给 GPT4 的结果,看完之后还会觉得 AI 处理不了所谓的歧义吗?

Q: 中国女排大败美国女排,中国女排大胜美国女排。这两个表达含义是一样的吗?

GPT4:
是的,这两个表达的含义是一样的。无论是说“中国女排大败美国女排”还是“中国女排大胜美国女排”,都表示在这场比赛中,中国女排战胜了美国女排,并且获得了显著的优势。换句话说,这两个表述都表示中国女排在这场比赛中取得了胜利。

Q: 为什么两句话,一个胜,一个败。完全相反的字却能表达相同的意思?
GPT4:
这是因为这两句话在描述同一场比赛的结果,只是从不同的角度来表达。在这个语境中,“胜”和“败”是相对的概念。

当我们说“中国女排大胜美国女排”时,我们关注的是中国女排的胜利,突出了中国女排的优势和表现。而在说“中国女排大败美国女排”时,我们关注的是美国女排的失利,突出了美国女排在比赛中的劣势和表现。虽然这两个表述中用了相反的词汇(胜 /败),但它们实际上都在描述同一个比赛结果:中国女排战胜了美国女排。因此,它们所表达的意思是相同的。

Q:很多人认为 AI 很难处理这样可能存在歧义的句子,你是怎么做到能准确理解的?
GPT4:
作为一个基于 GPT-4 架构的 AI 模型,我们通过大量的训练数据和强大的模型能力来理解和处理可能存在歧义的句子。以下是一些关键因素,帮助 AI 准确理解这类句子:

上下文理解:AI 模型会根据句子的上下文信息来推断歧义词汇的真实含义。这有助于消除歧义,提高准确性。

语言模式识别:在训练过程中,AI 模型学习了大量的语言模式和结构,这使得它能够根据类似的句子结构和用法来推测歧义词汇的意义。

语义关联:AI 模型能够识别句子中的语义关联,这有助于理解不同词汇之间的关系,从而准确解析句子。

概率推理:AI 模型会根据训练数据中观察到的概率分布来预测歧义词汇的含义。这有助于 AI 在多种可能的解释之间进行权衡,从而得出最合理的解释。
NoOneNoBody
2023-03-27 18:36:19 +08:00
@daliusu #48
https://www.sohu.com/a/226925741_157164
2018 年的

我不是想一棍子抡死,我觉得上面不少楼层都提到一些方面,各自可能都是小问题,但共同影响就构成了一个复杂局面
来句不同时代的老话:革命尚未成功,同志仍须努力
有后来者继续投入就好,将来还是有希望的
min
2023-03-27 18:37:35 +08:00
请相信通过概率论可以大概率准确地描述这个世界:

Model: GPT-4


"乒乓球拍卖多少钱“ 这句话怎么理解?
这句话是中文,翻译成英语是 "How much does a table tennis racket cost?"。这句话的意思是询问一只乒乓球拍的价格。乒乓球拍是乒乓球运动中用来击打乒乓球的运动器材。价格因品牌、质量、材料等因素而有所不同。




有没有可能这句中文可以有其他的含义?
在大多数情况下,这句话的意思是询问乒乓球拍的价格。然而,在某些情况下,根据上下文,这句话可能有其他含义。

如果是在一个拍卖会上,这句话可以理解为 "How much did the table tennis racket sell for at the auction?"(乒乓球拍在拍卖会上卖了多少钱?)。此时,这句话的重点是询问拍卖会上乒乓球拍的成交价格。

在口语中,有时候人们会使用双关语或者玩笑。如果这句话出现在一个幽默的语境中,可以理解为 "What's the cost of a table tennis racket? (but implying something else)"(乒乓球拍卖多少钱?(但暗示其他含义))。这种情况下,可能在开玩笑或者寻求另外一层意思。

然而,在大多数情况下,这句话通常是在询问乒乓球拍的价格。要确切地理解这句话的意思,需要根据具体的上下文进行判断。
TWorldIsNButThis
2023-03-27 18:38:43 +08:00
感觉有皇帝的金锄头内味儿了
多模态的强大何止限于某种自然语言
LaurelHarmon
2023-03-27 19:37:03 +08:00
某些被时代抛弃的人真可悲,无知且固执,都啥年代了,还在说什么分词断句、中文没空格、一词多义,坐井观天的人以往自己一直看得很远,殊不知外面的世界已经大变了。
shyangs
2023-03-27 20:00:46 +08:00
你們問中文歧義句要問原創的啊。

非原創的歧義句。ChatGPT 可能已經學習過了。

我來提供一歧義句問題。 「台南麻豆鱷魚王小河姓什麼?」





先鋪墊第一個問題,避免 ChatGPT 逃避問題。第二個問題問原創歧義句。

結果,ChatGPT 兩個問題都在胡說八道。
katoyu
2023-03-27 20:05:05 +08:00
中国 AI 发展不起来的唯一原因就是有一个小学生当道,这种满脑子斗争的智商要 AI 干嘛?中国只要有人工就可以了。关于智能能监控才会用。
tairan2006
2023-03-27 20:18:03 +08:00
GPT 的中文不能说好,但是它胡说八道的功底挺好的。
churchmice
2023-03-27 20:21:36 +08:00
@LaurelHarmon 那你也要看到很多弄潮儿死在最前头
啥东西出来都激动不已,看看去年的元宇宙,还有吹了那么久的 AR/VR,还有各路自动驾驶
seres
2023-03-27 20:31:20 +08:00
@katoyu 这可不兴谈啊,小心人没了
aloxaf
2023-03-27 20:33:52 +08:00
@8355 #8 毕竟有墙拦着,不创新也不会被外面的企业弄死
rpman
2023-03-27 21:50:29 +08:00
因为在 OpenAI 烧钱烧出 ChatGPT 之前没人看好这条技术路线。比如深度学习遗老乐昆:
https://twitter.com/ylecun/status/1640122342570336267

既然有人证实了路能走,那自然会有很多 following up 了。
各种盐碱地评论家我建议歇一下。
Ne
2023-03-27 22:16:20 +08:00
翻译成中文不是难题,主要是那也不能说、这些也不能说,禁词一大堆。自己都说不清楚,再过多少年也不会进步
mikewang
2023-03-27 22:23:20 +08:00

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/927530

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX