Grok 3 很强

37 天前
LaTero  LaTero
我没给马斯克充钱,所以只能在 LMArena 上免费试试。虽然输出经常会被截断,但是可以感觉它还是挺强的。随便测了几个问题,非思考模型能达到 o3-mini 的水平。比如我经常用来测新模型的问题:给一台发射固定速率炮弹的炮台设计瞄准程序,能按目标的速度进行线性预判。并不算是什么难题,而是有实用价值的工作中能经常见到的问题。这个问题有两个需要注意的点:1. 在炮弹移动时,目标也会移动。不能用目标当前距离来估算 time to hit 。2. 359°和 1°只差了两度:往负方向(左手系就是顺时针)旋转 2°即可,不需要往正方向旋转 358°。

主流模型中,除了 Grok 3 之外的非思考模型全挂。以上提到的两点均错误。思考模型中,OpenAI 家的 o3-mini 完全正确,所以我就没浪费前去测 o1-pro 了。谷歌家的 Flash Thinking 和 Deepseek R1 搞定了第一点,第二点错误。Grok 3 是非思考模型中唯一一次两点都做对了的。而且这还是非正式版。现在出了的是 mini 版,普通版还在训练中,和 Gemini 的 experimental 模型性质差不多。LMArena 的是 mini 还是未完成的普通版还不清楚,但是效果真的不错:在 https://lmarena.ai/里点“Direct Chat”即可试用。
4855 次点击
所在节点   Twitter  Twitter
27 条回复
p7IySTldqB
p7IySTldqB
37 天前
今年 AI 大爆发令人兴奋。
chipipi
chipipi
37 天前
“工作中常见到的炮弹问题”
Satansickle
Satansickle
37 天前
咋?老哥是华为驻非洲工程师?
paopjian
paopjian
37 天前
妈耶, 老哥是军工设计师么, 为什么会有弹道预测的问题
mingtdlb
mingtdlb
37 天前
怎么认为他很强?
![1739866530780.png]( https://cdn-fusion.imgcdn.store/i/2025/e9c270a4bd523838.png)
mingtdlb
mingtdlb
37 天前
@mingtdlb 我随便问的
pppcx
pppcx
37 天前
@mingtdlb #5
大部分人判断 ai 强不强都是用自己比较专业的领域去问 ai 看回复是否和自己判断类似
me1onsoda
me1onsoda
37 天前
大模型好像都是发布一开始强无敌,然后开始降智了。大模型质量问题,应该要有个监管的机制。
lthon
lthon
37 天前
还在等 Claude 4
sunny352787
sunny352787
37 天前
哈哈哈哈哈哈这例子要吓死了,其实是做游戏的吧?
LaTero
LaTero
37 天前
LaTero
LaTero
37 天前
@mingtdlb 判断字符本来就不是 AI 该做的事,因为原理上 AI 收到的都是 token ,一个 token 可能有好几个字。而且假如真的有了 AGI ,和人类一样的智力水平,你觉得它会浪费算力去数吗?假如是一个聪明的人类,他应该做的是使用工具。AGI 也应该是写一个程序去数,不是自己数。最近 AI 进步也都是在数学、逻辑推理等方面。
phinex
phinex
37 天前
@LaTero 哈哈 不是还以为是军工大佬
hiveex
hiveex
37 天前
Poe 用户等上线体验
pizone
pizone
37 天前
不知什么时候能用上 Grok 3 的 api ,还是有点期待。
CodeAllen
CodeAllen
37 天前
没必要问 AI 字符问题,这个跟 NLP 的 token 分词技术有关系,没什么意义。
这就有点像一个人口头问你,计算“饕餮盛宴”这几个字有几个笔画,能当面正确写下这四个字的人都不多吧,还得数笔画,有什么意义?
sunny352787
sunny352787
37 天前
@LaTero 哎,同行的敏锐性~
stone9527
stone9527
37 天前
你问它,5.21 和 5.3 谁大
LaTero
37 天前
@stone9527 没问题呀,现在主流的模型这个都不会错的吧。我平时主用 openrouter ,这个网站的 chatroom ,预设的几个问题就有 9.9 和 9.11 哪个大,还有 strawberry 里几个 r 。后者还有些模型会错,但是前者这样比大小的基本都是没问题的。
pkoukk
37 天前
强是很强..
但是老🐴用了快 10 万张 h100 ,居然只获得了 1400 分出头,仅仅比 R1 强 40 多分,3%左右
而且这么大的训练规模,预计参数量也不小,推理消耗估计也挺大
有点不及预期了

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1112331

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX