chatgpt(bing)的中文回答太差了,可以窥知中文网络的谬误和谎言有多夸张了

2023-03-04 22:11:01 +08:00
 lefthand2006

是啊,可为什么我问你“爱一个人不孤单,想一个人才孤单是什么歌的歌词”,你用英文回答我呢

Bing, 9:59 PM 这句歌词出自于《想你的夜》,是由郭富城演唱的一首歌曲 。这首歌曲收录在郭富城 1997 年发行的专辑《我愿意》中,是一首抒情的情歌。

6423 次点击
所在节点    OpenAI
41 条回复
leimao
2023-03-05 00:56:04 +08:00
这个和无标注的中文数据集和有标注人工中文数据集,以及他们在所有数据中的比例有关。有可能是因为中文数据集质量的确不好,也有可能是数据集质量还可以但是比例不够。这个细节只有 MSFT 内部的人才知道了。
leimao
2023-03-05 00:57:43 +08:00
OpenAI ChatGPT 中文质量也一般,我问它一些变形金刚的基本术语的意思,用英文问都是没问题的,用中文问它的回答都是胡编乱造的,而且只有懂变形金刚的人才看的出来。
lefthand2006
2023-03-05 01:38:28 +08:00
@leimao 所以说现在网上的中文资料应该都已经被污染了
zictos
2023-03-05 01:42:56 +08:00
难道他不能通过英文资料用中文回答吗?比如很多技术方面的文档在中文互联网都找不到,但是它也一样能回答啊!
leimao
2023-03-05 03:14:49 +08:00
@zictos 这个属于 Cross-lingual learning 的范畴。跟他的学习的过程有关,对于一个训练的例子,问和答在数据集中如果都是中文,那么你在实际使用的时候,他的 attention 只会 attend 到对应的中文 token 上去,回答也一般只会是中文。估计未来模型会慢慢往这个方向上优化。
chonger
2023-03-05 03:17:19 +08:00
中文环境是什么样还需要旁证吗?
stabc
2023-03-05 03:42:19 +08:00
我在 new bing chat 用中文提问,它明确显示了搜索了英文内容,然后用中文回答。
metalvest
2023-03-05 03:49:15 +08:00
@lefthand2006 变形金刚的术语有啥可污染的?
hanqian
2023-03-05 07:19:24 +08:00
是的,这段时间我在努力和 chatgpt 、bing 练习用英语对话。逆水行舟不进则退吧
zzm88104
2023-03-05 07:51:16 +08:00
@hanqian #9 三个月来我 99%与 chatgpt 的对话都是英语进行 感觉英语输出进步极大 输入也
争取今年抽空用它把日语学会( 达到能看懂 youtube 教程的水平)
hanqian
2023-03-05 07:58:41 +08:00
@zzm88104 没错,这是中文的坏时代,但又是学习新语言的好时代,一起加油吧
ViolaH
2023-03-05 08:21:42 +08:00
@zzm88104 日语有那么简单么 u
cmdOptionKana
2023-03-05 08:33:31 +08:00
偏见太严重了,中文内容可能有问题,但就这个事例无法证明这一点。

chatgpt 是用英语研发的,研发人员可能不懂中文,那么他们自己调试、改进的时候就只能主要使用英语。另外我们也不知道英文中文的训练量是否一致,例如,现在外国网络访问中文资源也不流畅,有反向墙,这个因素是否影响了他们获取中文资源?

因素有很多,但你都不考虑,只看对自己的偏见有利的一面,这又何尝不是自己给自己建的一堵墙。
hidemyself
2023-03-05 09:46:18 +08:00
你这个例子说明不了 “中文网络的谬误和谎言有多夸张”。
你问 chatGPT 中国历史的相关问题,也是有大量的错误,只能说明数据集的质量不好。
你可以尝试用非英语语种去问,看能不能得出相同的结论
zzm88104
2023-03-05 09:47:00 +08:00
@ViolaH 日语很难 我大学时二外有一些基础 毕业后断断续续也学了一下
ersic
2023-03-05 10:14:23 +08:00
任何语言的网络世界中谬误和谎言都很多
edinina
2023-03-05 10:26:11 +08:00
你这么说是因为你只熟悉中文
koto
2023-03-05 10:42:05 +08:00
他用别的语言也是在胡扯的..
zpf124
2023-03-05 10:44:00 +08:00
实际上英文回答也会有这个问题,要不为什么 stackoverflow 为什么要禁它,就是它只会使用已收录的各种元素拼接一个似是而非的答案,所以在有确定正确结论的问题下它的回答都不准确。

而中文比英语效果更差的原因应该就是数据量的差距,毕竟这软件就是外国人做的,人家训练肯定还是优先用英语,而且参与它的用户也是英语受众更多,那自然英语效果会与其他语言拉开的差距越来越大。
LXchienne
2023-03-05 11:17:04 +08:00
你看见的终究限制于你自己的眼界,和中文无关

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/921185

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX