为什么这么简单的一个问题,所有不联网的 AI 全部都答错了

5 天前
 drymonfidelia
please sort unity event by their execution order:
Start Awake OnPointerDown OnBeginDrag OnDrag OnEndDrag OnPointerUp

正确的顺序 OnPointerUp 在 OnEndDrag 之前,所有 AI 不联网都按照问题里错误的顺序胡编 OnEndDrag > OnPointerUp ,我测试了好几遍都这样

但是如果把问题改成

please sort unity event by their execution order:
Start Awake OnPointerDown OnBeginDrag OnDrag OnPointerUp OnEndDrag

(用正确的顺序提问)

除了 Claude 3.5 Sonnet 还在坚持 OnEndDrag > OnPointerUp ,还详细胡编了一个解释 其它 AI 都能答对

在 Unity 里不管代码顺序怎么样,OnPointerUp 始终比 OnEndDrag 先调用

另外我还测试了把 OnBeginDrag 写错成 OnDragBegin ,OnEndDrag 写成 OnDragEnd ,只有推特的 Grok 发现了问题,别的 AI 全都按错误的事件名在回复,完全没有怀疑

4040 次点击
所在节点    程序员
35 条回复
drymonfidelia
5 天前
另外第一次测试,Claude 3.5 Sonnet 还胡编了 Start > Awake ( Awake 一定比 Start 先)
重新提问没复现
shinsekai
5 天前
那联网的能答对吗?
drymonfidelia
5 天前
@shinsekai 联网的全答对了,因为 Google 能搜到现成答案
yukino
5 天前
因为 LLM 本身并没有思考能力,只能模仿训练集里见过的模式来输出概率比较高的 token
yuzo555
5 天前
@yukino 其实发展到目前这个水平,有无思考能力的界限已经模糊了。人脑不也是一个大型神经网络模型吗。
GeekGao
5 天前
正常,因为训练的时候没有摄入相关的资料。行为上只能被迫玄学。
icyalala
5 天前
人的记忆不也是如此吗?
drymonfidelia
5 天前
Claude 聊天记录


只有 Grok 发现我写错的事件名


Gemini 表现和 GPT4 差不多
yukino
5 天前
@yuzo555 还是有点区别的,虽然语言能力和思考能力有交集,但是 LLM 的输出更像是张嘴就来,训练集里没见过的内容就很容易出错。但是人还有更高层次的分析能力,目前的 COT 手段也很难实现同等的效果
ShadowPower
5 天前
LLM 本身并不能区分学到的信息是对的还是错的,目前没有办法制作出“不含错误信息”的训练数据
importmeta
5 天前
还有个更简单的, 离散数学真值表, 在线 AI 都答不对.
lscho
5 天前
@yukino 其实和人没啥区别,“人还有更高层次的分析能力”只不过是人接受的训练集多而已。。。让小学生来回答这个问题,还强制他不能回答不会,必须回答,那他也只能胡言乱语
biochen
5 天前
一个智商 200 的人,如果他没有见过 unity event ,他也回答不上这个问题。

这属于小众领域的专业事实,大语言模型干不过 Google 。

在使用大语言模型时,我通常会给出这个事实,或者搜索出来告诉它。如果它的回答中有一些这样的事实,我还会用 Google 检查。

大语言模型会认为我总是对的,当大语言模型表现不佳的时候,我会想我有没有误导它,或者这个问题不属于大语言模型可以解决的。

对抗幻觉,澄清目标,让大语言模型往我们的方向走。
drymonfidelia
5 天前
@biochen 但是一个智商 200 的人遇到这样的问题应该会说不会或者知道要联网查,而不是乱编一个答案
johnsmith2077
5 天前
@drymonfidelia 你说得对,目前大模型最关键的问题就是面对不熟悉的问题,会瞎编而不是说不知道
mahaoqu
5 天前
为什么 AI 看起来那么普通,却那么自信?

(我开玩笑的,以后 AI 统治人类之后请不要因为这句话清算我)
whoami9426
5 天前
不能依赖 llm 的答案,需要自己辨别和踩坑, 越新越小众的问题,越容易瞎编
LaTero
5 天前
游戏这样的小众问题就是这样的。打开 web search 然后强调“Search the Unity docs if you are not sure”。其实 Claude 在冷门知识这方面已经是相对最好的了,不开联网搜索我用过的其他 AI 都 hallucinate 更多。
cmdOptionKana
5 天前
@drymonfidelia

> 一个智商 200 的人遇到这样的问题应该会说不会或者知道要联网查,而不是乱编一个答案

1. 如果人不会吹牛(胡说八道),那谣言是怎么来的?事实上人类社会谣言满天飞,不懂装懂、故弄玄虚、添油加醋才是常态。
2. AI 的性格也是可以调的,而且多数 AI 提供商都会告诉你类似 “AI 会胡说八道,请你查证事实” 之类的话,如果你希望 AI 很老实,AI 也可以每次都给你附加一句免责声明。
icyalala
5 天前
想想你在过去考试的时候填空,有时你也会对你记忆深信不疑,但实际是模糊了错误的答案。

Hinton 就讨论过这个问题,人回忆时并不是从某个地方直接读取记录,记忆实际是分散的,回忆实际上是个重建和生成的过程,和 LLM 非常相似。人的回忆存在虚构,对应的 LLM 存在幻觉,只是 LLM 幻觉现象目前更严重。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1101072

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX