目前靠谱的 AI 模型水平排行榜有哪些? marena.ai 的 leaderboard 是否值得参考?

1 天前
 laraws

目前靠谱的 AI 模型水平排行榜有哪些? marena.ai 的 leaderboard 是否值得参考?

我看经常有大佬们提及 https://lmarena.ai/?leaderboard ,但是我看 gpt-4o 居然排名第二,比 gpt-o1-preview 和 Claude 3.5 Sonnet 还要强。个人平时用 AI 提问写代码,感觉 gpt-o1-preview 和 Claude 3.5 Sonnet 提供的基本都是可以直接用的,gpt-4o 提供的有时候不能使用。

有没有靠谱的 AI 模型水平排行榜? marena.ai 的 leaderboard 的排名依据是啥?应该不是生成代码能力吧?

271 次点击
所在节点    OpenAI
4 条回复
eremit
1 天前
laraws
1 天前
@eremit 不错,这个感觉比较靠谱,和我自己的一些使用感觉相符
Persimmon08
1 天前
我也觉得 gpt4o 写代码的能力不如 o1 ,最近发布会后 4o 的表现更是比不上之前,似乎把算力都分配给 o1 了
Liftman
1 天前
反正都是第一梯队的。这个所谓的排名也只是针对特定情况下的分数。

你看国产模型的名次也不低,但是实际差太远了,全靠拟合。

只能说自己试才知道哪个最好。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1096734

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX