V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
lefthand2006
V2EX  ›  OpenAI

chatgpt(bing)的中文回答太差了,可以窥知中文网络的谬误和谎言有多夸张了

  •  
  •   lefthand2006 · 2023-03-04 22:11:01 +08:00 · 6423 次点击
    这是一个创建于 626 天前的主题,其中的信息可能已经有所发展或是发生改变。

    是啊,可为什么我问你“爱一个人不孤单,想一个人才孤单是什么歌的歌词”,你用英文回答我呢

    Bing, 9:59 PM 这句歌词出自于《想你的夜》,是由郭富城演唱的一首歌曲 。这首歌曲收录在郭富城 1997 年发行的专辑《我愿意》中,是一首抒情的情歌。

    41 条回复    2023-03-07 20:52:44 +08:00
    leimao
        1
    leimao  
       2023-03-05 00:56:04 +08:00
    这个和无标注的中文数据集和有标注人工中文数据集,以及他们在所有数据中的比例有关。有可能是因为中文数据集质量的确不好,也有可能是数据集质量还可以但是比例不够。这个细节只有 MSFT 内部的人才知道了。
    leimao
        2
    leimao  
       2023-03-05 00:57:43 +08:00
    OpenAI ChatGPT 中文质量也一般,我问它一些变形金刚的基本术语的意思,用英文问都是没问题的,用中文问它的回答都是胡编乱造的,而且只有懂变形金刚的人才看的出来。
    lefthand2006
        3
    lefthand2006  
    OP
       2023-03-05 01:38:28 +08:00 via iPhone
    @leimao 所以说现在网上的中文资料应该都已经被污染了
    zictos
        4
    zictos  
       2023-03-05 01:42:56 +08:00 via Android
    难道他不能通过英文资料用中文回答吗?比如很多技术方面的文档在中文互联网都找不到,但是它也一样能回答啊!
    leimao
        5
    leimao  
       2023-03-05 03:14:49 +08:00
    @zictos 这个属于 Cross-lingual learning 的范畴。跟他的学习的过程有关,对于一个训练的例子,问和答在数据集中如果都是中文,那么你在实际使用的时候,他的 attention 只会 attend 到对应的中文 token 上去,回答也一般只会是中文。估计未来模型会慢慢往这个方向上优化。
    chonger
        6
    chonger  
       2023-03-05 03:17:19 +08:00   ❤️ 4
    中文环境是什么样还需要旁证吗?
    stabc
        7
    stabc  
       2023-03-05 03:42:19 +08:00
    我在 new bing chat 用中文提问,它明确显示了搜索了英文内容,然后用中文回答。
    metalvest
        8
    metalvest  
       2023-03-05 03:49:15 +08:00 via Android
    @lefthand2006 变形金刚的术语有啥可污染的?
    hanqian
        9
    hanqian  
       2023-03-05 07:19:24 +08:00   ❤️ 1
    是的,这段时间我在努力和 chatgpt 、bing 练习用英语对话。逆水行舟不进则退吧
    zzm88104
        10
    zzm88104  
       2023-03-05 07:51:16 +08:00   ❤️ 1
    @hanqian #9 三个月来我 99%与 chatgpt 的对话都是英语进行 感觉英语输出进步极大 输入也
    争取今年抽空用它把日语学会( 达到能看懂 youtube 教程的水平)
    hanqian
        11
    hanqian  
       2023-03-05 07:58:41 +08:00   ❤️ 1
    @zzm88104 没错,这是中文的坏时代,但又是学习新语言的好时代,一起加油吧
    ViolaH
        12
    ViolaH  
       2023-03-05 08:21:42 +08:00 via iPhone
    @zzm88104 日语有那么简单么 u
    cmdOptionKana
        13
    cmdOptionKana  
       2023-03-05 08:33:31 +08:00   ❤️ 14
    偏见太严重了,中文内容可能有问题,但就这个事例无法证明这一点。

    chatgpt 是用英语研发的,研发人员可能不懂中文,那么他们自己调试、改进的时候就只能主要使用英语。另外我们也不知道英文中文的训练量是否一致,例如,现在外国网络访问中文资源也不流畅,有反向墙,这个因素是否影响了他们获取中文资源?

    因素有很多,但你都不考虑,只看对自己的偏见有利的一面,这又何尝不是自己给自己建的一堵墙。
    hidemyself
        14
    hidemyself  
       2023-03-05 09:46:18 +08:00   ❤️ 1
    你这个例子说明不了 “中文网络的谬误和谎言有多夸张”。
    你问 chatGPT 中国历史的相关问题,也是有大量的错误,只能说明数据集的质量不好。
    你可以尝试用非英语语种去问,看能不能得出相同的结论
    zzm88104
        15
    zzm88104  
       2023-03-05 09:47:00 +08:00 via iPhone
    @ViolaH 日语很难 我大学时二外有一些基础 毕业后断断续续也学了一下
    ersic
        16
    ersic  
       2023-03-05 10:14:23 +08:00
    任何语言的网络世界中谬误和谎言都很多
    edinina
        17
    edinina  
       2023-03-05 10:26:11 +08:00 via iPhone
    你这么说是因为你只熟悉中文
    koto
        18
    koto  
       2023-03-05 10:42:05 +08:00
    他用别的语言也是在胡扯的..
    zpf124
        19
    zpf124  
       2023-03-05 10:44:00 +08:00
    实际上英文回答也会有这个问题,要不为什么 stackoverflow 为什么要禁它,就是它只会使用已收录的各种元素拼接一个似是而非的答案,所以在有确定正确结论的问题下它的回答都不准确。

    而中文比英语效果更差的原因应该就是数据量的差距,毕竟这软件就是外国人做的,人家训练肯定还是优先用英语,而且参与它的用户也是英语受众更多,那自然英语效果会与其他语言拉开的差距越来越大。
    LXchienne
        20
    LXchienne  
       2023-03-05 11:17:04 +08:00   ❤️ 1
    你看见的终究限制于你自己的眼界,和中文无关
    su100
        21
    su100  
       2023-03-05 11:26:26 +08:00
    @zpf124 是的,前两天问了一个 kotlin 的问题,让它给个示例代码,结果运行报错,后来发现它的示例是 stackoverflow 上提问者的出错代码
    littleBink
        22
    littleBink  
       2023-03-05 12:15:35 +08:00 via iPhone
    @leimao 纯好奇,真的会把 transformer 叫做变形金刚吗
    snw
        23
    snw  
       2023-03-05 12:27:28 +08:00 via Android   ❤️ 1
    训练用的素材必须用高质量并且做过大量标记的源才行,不然无论中文还是英文都会被内容农场污染。

    1145148964
        24
    1145148964  
       2023-03-05 12:30:58 +08:00 via Android
    这事真的不怪 chatgpt
    YooboH
        25
    YooboH  
       2023-03-05 12:33:24 +08:00
    chatgpt 里面英语训练语料占比超过 90%,而中文语料占比只有 0.1%,900 倍的差距你的论证完全是胡扯
    wqzjk393
        26
    wqzjk393  
       2023-03-05 12:51:19 +08:00 via iPhone
    其实现在的 chatgpt 参数配置感觉更像是一个玩具,以 api 里面 temperature 设置来说感觉在 0.7 0.8 左右,给出的答案看似正确但是有很多漏洞。你可以不断否定他的答案看看他是怎么说的,基本你只要说“你说的不对”,那么他必定会说“你说的对,是我错了”,像这种真的很难拿来作为应用工具,只能做休闲娱乐骗骗不懂行的人
    snw
        27
    snw  
       2023-03-05 12:52:51 +08:00 via Android   ❤️ 1
    再举个例子,如果你搜可口可乐原浆工厂在哪里,你会发现回答都很肯定地告诉你在“俄亥俄州”,然而这些回答显然都是基于近期某爆款自媒体文章,因为如果把时间限定到旧一些就几乎没有这个答案。

    这种错误回答甚至能骗过大部分真人(点赞率很高),你又怎么指望 AI 仅靠搜索去辨别?
    (俄亥俄州确实有 syrup plant ,但并不是自媒体所说的全球唯一唯二的原浆厂,可能也不是最大的。更不知道“原浆工厂官网”是什么鬼)



    learningman
        28
    learningman  
       2023-03-05 15:08:48 +08:00   ❤️ 2
    q:“chatgpt 的中文回答太差了”是否能得出结论“中文网络的谬误和谎言非常夸张”
    a:不能仅凭“chatgpt 的中文回答太差了”这一点就得出结论“中文网络的谬误和谎言非常夸张”。尽管 ChatGPT 是一个大型的人工智能语言模型,但其回答的质量受到其所训练的数据集和算法等多种因素的影响。如果 ChatGPT 的中文回答质量差,可能是由于其训练数据集的不足或者模型算法的局限等因素所致,而这些因素与中文网络的谬误和谎言无必然联系。

    要评估中文网络上的谬误和谎言的严重程度,需要采用更加科学的方法进行分析和研究,例如基于大数据的分析和调查研究等。只有通过充分的数据和证据,才能得出准确的结论。

    有的人的智力水平是真的不如 AI 。
    tooroot
        29
    tooroot  
       2023-03-05 16:21:31 +08:00
    让它用英文资料思考就行了
    ruxuan1306
        30
    ruxuan1306  
       2023-03-05 16:41:48 +08:00   ❤️ 1
    @learningman 有些人思维惯性已经深入潜意识了,国外产品对中文支持不好,立马就开始反思。

    当年计算机不能输入汉字时,有人就提议废象形汉字,完全拼音化。

    > 1980 年权威刊物《语文现代化》丛刊第一期的一篇文章宣称:“方块汉字在电子计算机上遇到的困难,好像一个行将就木的衰老病人。历史将证明,电子计算机是方块汉字的掘墓人,也是汉语拼音文字的助产士。”
    AOK123
        31
    AOK123  
       2023-03-05 20:37:12 +08:00
    @leimao 2L
    老哥你现实中和人聊 Transformer 也叫它变形金刚吗...
    leimao
        32
    leimao  
       2023-03-05 22:53:59 +08:00 via iPhone
    @AOK123 我说的是真的变形金刚啊,汽车人霸天虎啥的
    leimao
        33
    leimao  
       2023-03-05 22:55:55 +08:00 via iPhone
    @grahamsa0503 现在年轻人看变形金刚已经不叫他变形金刚了吗
    LaurelHarmon
        34
    LaurelHarmon  
       2023-03-05 23:20:13 +08:00   ❤️ 3
    纯属放屁。

    英文效果为什么好:
    首先,原始预训练的语料英文占绝大多数,大力出奇迹,英文自然不会差。
    其次,开发过程肯定重点精调英文的效果,因为更通用,熟悉的人更多,所以英文表现更好。
    而超大规模模型的涌现能力+人工反馈精调,是 ChatGPT 远超之前模型的关键。

    中文这边来说:
    没有找到 ChatGPT 用到大量中文的互联网上垃圾语料进行训练的证据(难道中文维基质量差吗?),所以中文互联网恶劣环境污染了 ChatGPT 这个推论不严谨。

    就算你抛开训练过程不谈,你能证明法西葡阿这些大语言效果跟英文没有差别,才能得到这个结论。但是估计你也不会这些语言,也没有认真调研过,直接开喷。

    你看,你自己的用中文发表的结论都这么草率,经不起推敲,反过来却怪中文互联网环境差。退一步讲,就算真的成立,是不是也有你这种人的一份功劳呢。
    alex177027
        35
    alex177027  
       2023-03-06 01:33:57 +08:00 via Android
    那你是没见过离谱的英文回答,属于是没见识什么张口就来了
    LowBi
        36
    LowBi  
       2023-03-06 09:14:44 +08:00
    一个外国人研发的语言模型,你指望它完美支持中文?凭什么,甚至还锁国区
    marcong95
        37
    marcong95  
       2023-03-06 09:46:54 +08:00
    又来定体问了?明显就是 ChatGPT 在不懂装懂而已,或者准确地说就是没有加入自己知识盲区的逻辑。我把我自己原创的五言绝句丢给 ChatGPT 它也说是李白的《行路难》。当年大学毕业脑抽写在毕业纪念册上的原创五言绝句。
    6167
        38
    6167  
       2023-03-06 13:14:15 +08:00
    这国怎,定体问
    littleBink
        39
    littleBink  
       2023-03-07 01:04:06 +08:00
    @leimao 对不起哈哈哈,我也以为你说的是 transformer 框架
    anotherside
        40
    anotherside  
       2023-03-07 14:52:02 +08:00
    从这贴可以窥之楼主的思维有多狭隘
    customer
        41
    customer  
       2023-03-07 20:52:44 +08:00
    PO 主的贴子也印证了中文网络的谬误和谎言有多夸张,还好回复的人都很有理性
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5820 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 34ms · UTC 02:42 · PVG 10:42 · LAX 18:42 · JFK 21:42
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.