目前靠谱的 AI 模型水平排行榜有哪些？ marena.ai 的 leaderboard 是否值得参考？

我看经常有大佬们提及 https://lmarena.ai/?leaderboard ，但是我看 gpt-4o 居然排名第二，比 gpt-o1-preview 和 Claude 3.5 Sonnet 还要强。个人平时用 AI 提问写代码，感觉 gpt-o1-preview 和 Claude 3.5 Sonnet 提供的基本都是可以直接用的，gpt-4o 提供的有时候不能使用。

有没有靠谱的 AI 模型水平排行榜？ marena.ai 的 leaderboard 的排名依据是啥？应该不是生成代码能力吧？

Persimmon08

1 天前

我也觉得 gpt4o 写代码的能力不如 o1 ，最近发布会后 4o 的表现更是比不上之前，似乎把算力都分配给 o1 了

Liftman

1 天前

反正都是第一梯队的。这个所谓的排名也只是针对特定情况下的分数。

你看国产模型的名次也不低，但是实际差太远了，全靠拟合。

只能说自己试才知道哪个最好。

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1096734

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.