惊讶于 chatgpt 汉语如此精通的能力！

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 876 天前的主题，其中的信息可能已经有所发展或是发生改变。

许多梗都能玩得转，目前为止解决实际问题还没遇到要转换到英语提问的地步。相比之下 bard 还不支持中文就更能突出 gpt 的能力。如果有会日语和韩语的可以说说其他语种是否同样厉害？猜测了几点原因：
1. 华人工程师多？有报道说 openai 华裔工程师很多，但没有根据。
2. 汉语数据完整？ 5 千年的诗词起作用了？针对汉语 model 单独训练？
3. 没见国内公司高调宣布为 openai 做支持的，如果都是 openai 独立完成岂不是要封神？！

openai

汉语

工程师

Bard

21 条回复 • 2023-06-05 18:59:45 +08:00

pepsiwant

2023-06-03 16:14:35 +08:00

我可以很负责任的说，比起英文，汉语能力差了一大截

linearxian

2023-06-03 16:21:32 +08:00

能把题目写通顺了吗

LaurelHarmon

2023-06-03 16:26:48 +08:00

bard 垃圾极了，别说中文了，就算用英文，保持对话上下文语义连贯都做不到。真不知谷歌这几个月做了个啥玩意。
还加了一个“google it”的按钮，妄图给搜索导流，抱缺守残，这样下去，只会和 GPT 差距越拉越大。

snw

2023-06-03 16:28:58 +08:00

语言模型嘛，语料训练得多了，说话就熟练。
平时人们说话写文章大多是有套路和思维习惯的，越练越熟，你看外向的人越说越会说，不动脑子就能滔滔不绝；内向的人总是想不出该说些什么，一张口又常常说出病句，越不说越不熟

hsfzxjy

2023-06-03 16:34:25 +08:00 via Android

“惊讶于 chatgpt 如此精通汉语”
“惊讶于 chatgpt 如此强的汉语能力”

感觉 chatgpt 的汉语能力确实比楼主强不少😂

ispinfx

2023-06-03 16:35:21 +08:00 via iPhone

喂了约等于整个互联网的数据，你说呢？

wint

2023-06-03 16:38:16 +08:00

@snw 我觉得数量不是关键，质量才是关键。你用百度搜出来的东西能看吗，目前热门的自媒体、头条质量都不敢恭维。但 gpt 中文问答质量很高，明显人为监督提供了高质量语料。与此相对，以百度的搜索质量他的 ai 质量可想而知。

wint

2023-06-03 16:41:03 +08:00

@ispinfx 光论数据量 Google 独一档，但 bard 争气吗？

zictos

2023-06-03 17:38:35 +08:00 via Android

反正我觉得它能用中文回答很多英文互联网才有的内容，很多东西在中文互联网根本没有任何信息，它照样能回答得很好。这意味着不需要去谷歌搜索英文，在 chatgpt 用中文提问就能获取到很多英文互联网才有的信息

xmlf

2023-06-03 18:26:56 +08:00 via Android

很多古文用 chatgpt 可以很完美的翻译出来

luckyjoe

2023-06-03 19:14:33 +08:00

peter deng ，vp of consumer product openai 刚上任的，是华裔但是好像不懂中文

ispinfx

2023-06-03 19:37:23 +08:00

@wint #8 我说的是是个人说过的话它都见过了，没什么值得惊叹，并不是说“有了很多数据就能训练一个很屌的模型”。

jack4536251

2023-06-03 19:48:47 +08:00 via Android

因为开发这个产品的程序员基本都是国内润出去的中国人

RoccoShi

2023-06-03 20:56:34 +08:00 via Android

说明咱们人多

IDAEngine

2023-06-03 21:02:08 +08:00

@wint 很多都不知道是几代华裔了，从清朝就过来了

XnEnokq9vkvVq4

2023-06-03 21:09:36 +08:00

楼主用的应该是 gpt4 吧，我记得 openai 说 gpt4 的中文能力比 gpt3.5 的英文能力还高

fds

2023-06-03 21:40:36 +08:00

学语言对我们人类来说，并不是最难的事情，对吧？从小学到中学，我们就已经基本学会了。而且，语言为了让大家更容易学，也尽量简化了一些难度。不过，GPT-4 不仅仅是擅长语言这么简单，它在逻辑推理和分析方面可是厉害得多呢！这正好说明，GPT-4 的能力已经超过了我们通常理解的“掌握语言”。当然啦，作为一种人工智能，GPT-4 还有很多可以进步的地方，但它确实在很多方面都做得相当不错！

不过上面这段 GPT-4 的发言还是不够自然，我已经让他尽量口语化了。之前的回答更是一眼 GPT 生成。

Ocean810975

2023-06-04 09:53:41 +08:00 via Android

从语言学上讲，各种语言上并不是完全孤立的，所以即使是印欧语系的数据也有助于汉藏语系的训练。

wint

2023-06-04 19:57:25 +08:00

@hanqian 基本是 bing chat 的体验。

wint

2023-06-04 19:58:14 +08:00

@fds 🐮，读出来没，整段整段的傲娇😄

razeen

2023-06-05 18:59:45 +08:00 via iPhone

非常感谢你的赞赏！ OpenAI 的 GPT-3 和 ChatGPT 都是基于大量的多语言文本数据进行训练的，这包括了英语、中文、日语、韩语等多种语言。这使得它们能够理解和生成多种语言的文本。

对于你的猜测，我来进行一些解答：

1. 华人工程师多？ OpenAI 的团队中确实有来自世界各地的工程师，包括华人工程师。但是，模型的训练并不依赖于特定的工程师的语言背景，而是依赖于训练数据。
2. 汉语数据完整？ GPT-3 和 ChatGPT 的训练数据包括了大量的互联网文本，这当然也包括了中文的文本。但是，模型并没有针对特定的语言或文化进行特殊的训练。
3. OpenAI 是一个独立的研究机构，它的模型训练主要依赖于公开的互联网文本数据。至于是否有国内公司为 OpenAI 提供支持，这个我无法提供准确的信息。

至于其他语种的表现，GPT-3 和 ChatGPT 对于大部分主要语言的理解和生成能力都是相当强大的。但是，由于训练数据的限制，对于一些较少使用或者文本数据较少的语言，模型的表现可能会不如主要语言。总的来说，模型的表现能力主要取决于其训练数据的质量和数量。