我没给马斯克充钱,所以只能在 LMArena 上免费试试。虽然输出经常会被截断,但是可以感觉它还是挺强的。随便测了几个问题,非思考模型能达到 o3-mini 的水平。比如我经常用来测新模型的问题:给一台发射固定速率炮弹的炮台设计瞄准程序,能按目标的速度进行线性预判。并不算是什么难题,而是有实用价值的工作中能经常见到的问题。这个问题有两个需要注意的点:1. 在炮弹移动时,目标也会移动。不能用目标当前距离来估算 time to hit 。2. 359°和 1°只差了两度:往负方向(左手系就是顺时针)旋转 2°即可,不需要往正方向旋转 358°。
主流模型中,除了 Grok 3 之外的非思考模型全挂。以上提到的两点均错误。思考模型中,OpenAI 家的 o3-mini 完全正确,所以我就没浪费前去测 o1-pro 了。谷歌家的 Flash Thinking 和 Deepseek R1 搞定了第一点,第二点错误。Grok 3 是非思考模型中唯一一次两点都做对了的。而且这还是非正式版。现在出了的是 mini 版,普通版还在训练中,和 Gemini 的 experimental 模型性质差不多。LMArena 的是 mini 还是未完成的普通版还不清楚,但是效果真的不错:在
https://lmarena.ai/里点“Direct Chat”即可试用。
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
https://www.v2ex.com/t/1112331
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.