Grok 3 很强

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

For Existing Member Sign In

This topic created in 442 days ago, the information mentioned may be changed or developed.

我没给马斯克充钱，所以只能在 LMArena 上免费试试。虽然输出经常会被截断，但是可以感觉它还是挺强的。随便测了几个问题，非思考模型能达到 o3-mini 的水平。比如我经常用来测新模型的问题：给一台发射固定速率炮弹的炮台设计瞄准程序，能按目标的速度进行线性预判。并不算是什么难题，而是有实用价值的工作中能经常见到的问题。这个问题有两个需要注意的点：1. 在炮弹移动时，目标也会移动。不能用目标当前距离来估算 time to hit 。2. 359°和 1°只差了两度：往负方向（左手系就是顺时针）旋转 2°即可，不需要往正方向旋转 358°。

主流模型中，除了 Grok 3 之外的非思考模型全挂。以上提到的两点均错误。思考模型中，OpenAI 家的 o3-mini 完全正确，所以我就没浪费前去测 o1-pro 了。谷歌家的 Flash Thinking 和 Deepseek R1 搞定了第一点，第二点错误。Grok 3 是非思考模型中唯一一次两点都做对了的。而且这还是非正式版。现在出了的是 mini 版，普通版还在训练中，和 Gemini 的 experimental 模型性质差不多。LMArena 的是 mini 还是未完成的普通版还不清楚，但是效果真的不错：在 https://lmarena.ai/里点“Direct Chat”即可试用。

Grok

非思考模型

瞄准程序

27 replies • 2025-02-20 11:24:28 +08:00

p7IySTldqB

Feb 18, 2025

今年 AI 大爆发令人兴奋。

chipipi

Feb 18, 2025

“工作中常见到的炮弹问题”

Satansickle

Feb 18, 2025

咋？老哥是华为驻非洲工程师？

paopjian

Feb 18, 2025

妈耶, 老哥是军工设计师么, 为什么会有弹道预测的问题

mingtdlb

Feb 18, 2025

怎么认为他很强？
![1739866530780.png]( https://cdn-fusion.imgcdn.store/i/2025/e9c270a4bd523838.png)

mingtdlb

Feb 18, 2025

@mingtdlb 我随便问的

pppcx

Feb 18, 2025

@mingtdlb #5
大部分人判断 ai 强不强都是用自己比较专业的领域去问 ai 看回复是否和自己判断类似

me1onsoda

Feb 18, 2025

大模型好像都是发布一开始强无敌，然后开始降智了。大模型质量问题，应该要有个监管的机制。

lthon

Feb 18, 2025

还在等 Claude 4

sunny352787

Feb 18, 2025

哈哈哈哈哈哈这例子要吓死了，其实是做游戏的吧？

LaTero

Feb 18, 2025

@chipipi
@sunny352787
@Satansickle 做游戏的

LaTero

Feb 18, 2025

@mingtdlb 判断字符本来就不是 AI 该做的事，因为原理上 AI 收到的都是 token ，一个 token 可能有好几个字。而且假如真的有了 AGI ，和人类一样的智力水平，你觉得它会浪费算力去数吗？假如是一个聪明的人类，他应该做的是使用工具。AGI 也应该是写一个程序去数，不是自己数。最近 AI 进步也都是在数学、逻辑推理等方面。