Grok 3 很强

我没给马斯克充钱，所以只能在 LMArena 上免费试试。虽然输出经常会被截断，但是可以感觉它还是挺强的。随便测了几个问题，非思考模型能达到 o3-mini 的水平。比如我经常用来测新模型的问题：给一台发射固定速率炮弹的炮台设计瞄准程序，能按目标的速度进行线性预判。并不算是什么难题，而是有实用价值的工作中能经常见到的问题。这个问题有两个需要注意的点：1. 在炮弹移动时，目标也会移动。不能用目标当前距离来估算 time to hit 。2. 359°和 1°只差了两度：往负方向（左手系就是顺时针）旋转 2°即可，不需要往正方向旋转 358°。

主流模型中，除了 Grok 3 之外的非思考模型全挂。以上提到的两点均错误。思考模型中，OpenAI 家的 o3-mini 完全正确，所以我就没浪费前去测 o1-pro 了。谷歌家的 Flash Thinking 和 Deepseek R1 搞定了第一点，第二点错误。Grok 3 是非思考模型中唯一一次两点都做对了的。而且这还是非正式版。现在出了的是 mini 版，普通版还在训练中，和 Gemini 的 experimental 模型性质差不多。LMArena 的是 mini 还是未完成的普通版还不清楚，但是效果真的不错：在 https://lmarena.ai/里点“Direct Chat”即可试用。

LaTero

37 天前

@mingtdlb 判断字符本来就不是 AI 该做的事，因为原理上 AI 收到的都是 token ，一个 token 可能有好几个字。而且假如真的有了 AGI ，和人类一样的智力水平，你觉得它会浪费算力去数吗？假如是一个聪明的人类，他应该做的是使用工具。AGI 也应该是写一个程序去数，不是自己数。最近 AI 进步也都是在数学、逻辑推理等方面。