为什么这么简单的一个问题，所有不联网的 AI 全部都答错了

5 天前

drymonfidelia

please sort unity event by their execution order:
Start Awake OnPointerDown OnBeginDrag OnDrag OnEndDrag OnPointerUp

正确的顺序 OnPointerUp 在 OnEndDrag 之前，所有 AI 不联网都按照问题里错误的顺序胡编 OnEndDrag > OnPointerUp ，我测试了好几遍都这样

但是如果把问题改成

please sort unity event by their execution order:
Start Awake OnPointerDown OnBeginDrag OnDrag OnPointerUp OnEndDrag

（用正确的顺序提问）

除了 Claude 3.5 Sonnet 还在坚持 OnEndDrag > OnPointerUp ，还详细胡编了一个解释其它 AI 都能答对

在 Unity 里不管代码顺序怎么样，OnPointerUp 始终比 OnEndDrag 先调用

另外我还测试了把 OnBeginDrag 写错成 OnDragBegin ，OnEndDrag 写成 OnDragEnd ，只有推特的 Grok 发现了问题，别的 AI 全都按错误的事件名在回复，完全没有怀疑

4040 次点击

所在节点

程序员

35 条回复

drymonfidelia

5 天前

另外第一次测试，Claude 3.5 Sonnet 还胡编了 Start > Awake （ Awake 一定比 Start 先）
重新提问没复现

shinsekai

5 天前

那联网的能答对吗？

drymonfidelia

5 天前

@shinsekai 联网的全答对了，因为 Google 能搜到现成答案

yukino

5 天前

因为 LLM 本身并没有思考能力，只能模仿训练集里见过的模式来输出概率比较高的 token

yuzo555

5 天前

@yukino 其实发展到目前这个水平，有无思考能力的界限已经模糊了。人脑不也是一个大型神经网络模型吗。

GeekGao

5 天前

正常，因为训练的时候没有摄入相关的资料。行为上只能被迫玄学。

icyalala

5 天前

人的记忆不也是如此吗？

drymonfidelia

5 天前

Claude 聊天记录

只有 Grok 发现我写错的事件名

Gemini 表现和 GPT4 差不多

yukino

5 天前

@yuzo555 还是有点区别的，虽然语言能力和思考能力有交集，但是 LLM 的输出更像是张嘴就来，训练集里没见过的内容就很容易出错。但是人还有更高层次的分析能力，目前的 COT 手段也很难实现同等的效果

ShadowPower

5 天前

LLM 本身并不能区分学到的信息是对的还是错的，目前没有办法制作出“不含错误信息”的训练数据

importmeta

5 天前

还有个更简单的, 离散数学真值表, 在线 AI 都答不对.

lscho

5 天前

@yukino 其实和人没啥区别，“人还有更高层次的分析能力”只不过是人接受的训练集多而已。。。让小学生来回答这个问题，还强制他不能回答不会，必须回答，那他也只能胡言乱语

biochen

5 天前

一个智商 200 的人，如果他没有见过 unity event ，他也回答不上这个问题。

这属于小众领域的专业事实，大语言模型干不过 Google 。

在使用大语言模型时，我通常会给出这个事实，或者搜索出来告诉它。如果它的回答中有一些这样的事实，我还会用 Google 检查。

大语言模型会认为我总是对的，当大语言模型表现不佳的时候，我会想我有没有误导它，或者这个问题不属于大语言模型可以解决的。

对抗幻觉，澄清目标，让大语言模型往我们的方向走。

drymonfidelia

5 天前

@biochen 但是一个智商 200 的人遇到这样的问题应该会说不会或者知道要联网查，而不是乱编一个答案

johnsmith2077

5 天前

@drymonfidelia 你说得对，目前大模型最关键的问题就是面对不熟悉的问题，会瞎编而不是说不知道

mahaoqu

5 天前

为什么 AI 看起来那么普通，却那么自信？

（我开玩笑的，以后 AI 统治人类之后请不要因为这句话清算我）

whoami9426

5 天前

不能依赖 llm 的答案,需要自己辨别和踩坑, 越新越小众的问题,越容易瞎编

LaTero

5 天前

游戏这样的小众问题就是这样的。打开 web search 然后强调“Search the Unity docs if you are not sure”。其实 Claude 在冷门知识这方面已经是相对最好的了，不开联网搜索我用过的其他 AI 都 hallucinate 更多。

cmdOptionKana

5 天前

@drymonfidelia

> 一个智商 200 的人遇到这样的问题应该会说不会或者知道要联网查，而不是乱编一个答案

1. 如果人不会吹牛（胡说八道），那谣言是怎么来的？事实上人类社会谣言满天飞，不懂装懂、故弄玄虚、添油加醋才是常态。
2. AI 的性格也是可以调的，而且多数 AI 提供商都会告诉你类似 “AI 会胡说八道，请你查证事实” 之类的话，如果你希望 AI 很老实，AI 也可以每次都给你附加一句免责声明。

icyalala

5 天前

想想你在过去考试的时候填空，有时你也会对你记忆深信不疑，但实际是模糊了错误的答案。

Hinton 就讨论过这个问题，人回忆时并不是从某个地方直接读取记录，记忆实际是分散的，回忆实际上是个重建和生成的过程，和 LLM 非常相似。人的回忆存在虚构，对应的 LLM 存在幻觉，只是 LLM 幻觉现象目前更严重。

第 1 页／共 2 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1101072

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.