Musk 搞出来 Grok 好像效果很不错,免费版感觉比 Claude 付费版 Sonnet 还强,至少没有那么经常胡说八道

1 天前
 drymonfidelia

我给 Claude 贴了一段我写的有 Bug 的 Unity 代码,他乱改了一遍,然后我觉得是调用顺序的问题,不太熟悉 Unity 的生命周期,问它哪个事件先触发,他按照我有 Bug 的代码一本正经地胡编了一个错的顺序,别的我不知道,它把 Start 放在 Awake 前面我还是看出它在胡说了,重问还是一样。

发给 Grok ,Grok 知道要上网搜索,一下就找出了 Bug 还给出了文档地址

1658 次点击
所在节点    程序员
14 条回复
dobelee
1 天前
grok 总体可以的,t1 梯队,但该有的问题也不少,也是几大里交互最粗糙的。黑五刚订阅了 x 没过两天就惨遭背刺,12 月的 app 也鸽了。
GeekGao
1 天前
没感觉,还是觉得 Claude Sonnet 3.5 更胜一筹
iorilu
1 天前
模型 100 多 G 阿, 怎么跑的
yuhaofe
22 小时 20 分钟前
Grok 某些方面确实强一些,问了一个现实中的数学问题,只有 grok 在我纠正一次之后答对,gpt4o 、sonnet3.5 、gemini1.5pro 连续引导多次给的答案还是错的

问题如下,大家也可以试试:
tangle 是一种玩具,由多个弧形的塑料节段连接而成,首尾相连,每个节段可以 360 度旋转,每段是一个 1/4 圆环形状,两端有连接结构,可以和相邻段扣合,横截面是圆形。
假设它有 18 个节段,任选一个段,它与左右相邻的分别 3 个段在任意空间角度都不会在非连接面上发生相撞,与剩下的 11 个段都有可能相撞发出声音,如果我想通过包裹塑料套让它静音,我至少要包裹多少段?

正确答案是 12 ,每包裹两段空出一段

P.S. 其实第二段话的前提也不该给,只留下最后的问题,但得把 tangle 的空间特性完全描述清楚,不太现实,AI 也答不上来
GeekGao
21 小时 58 分钟前
@yuhaofe 我尝试了 o1 ,回答最终结果是:最少需要包裹 14 段才能避免任何碰撞发出声音。
GeekGao
21 小时 56 分钟前
@yuhaofe grok 我也试过了,最终回答是:至少需要包裹 6 个节段来确保玩具在旋转时不会发出声音。
yuhaofe
20 小时 38 分钟前
@GeekGao 我是纠正了一次(指出它的方案里可能相撞的段),grok 给出了正确的数字和方案,虽然解释有一点小问题,其他模型不管怎么纠正给的都是错的
tt83
20 小时 0 分钟前
跟 twitter 绑一起很烦,分散注意力
sonu648
16 小时 44 分钟前
q1102389095
14 小时 27 分钟前
试了下 o1 ,第一次 18 ,我质疑后回答 12 ,再次质疑后回答仍旧 12 ,询问是否确定依然回答 12 ,当我说这是不对的时最后回答了 9 ,图片地址 http://img.oneself.icu/uploads/676f852e02589_image.png ,再次否定 9 然后又给出了 12 的答案
yuhaofe
9 小时 57 分钟前
@q1102389095 感觉就是因为这个问题是个首尾相连的环形,需要一定的迭代思考,AI 很难一次性答对,有了一次错误的思考结果之后,才更容易推理出正确的答案。
ffgrinder
2 小时 5 分钟前
@yuhaofe 说句实话,你这个描述和问题都挺抽象的,我看了半天,又去搜索了这个玩具的实物,才理解了你的 360 度是基于哪个轴,而且作为一个硬物体,我不理解你说的静音又是什么,我更倾向于你的问题出的有问题
yuhaofe
1 小时 50 分钟前
@ffgrinder 理解问题也是 AI 能力的一环,AI 的训练数据里关于 tangle 的信息也不少,而且我第二段给出的信息其实也足够了,就算不是 tangle 也应该能算出来
最理想的情况下我问出“我想通过包裹塑料套让 tangle 玩具静音,我至少要包裹多少段?”这个一句话,AI 就应该能答上来
yuhaofe
1 小时 38 分钟前
@ffgrinder 我的问题其实来自于很实际的场景,tangle 可以在 18 个段的连接下任意扭曲,扭曲过程中硬塑料段就可能碰到一起发出声音(忽略轻微关节旋转噪音的情况下),在图书馆、办公室场景下就不合适拿出来把玩
tangle 官方有推出包裹硅胶的静音版,段相撞时几乎没有声音,但在国内没有直接卖的,我就想到了这个问题,不过确实是有实物拿在手里才好验证 AI 的答案,很难凭空想象

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1100788

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX