目前靠谱的 AI 模型水平排行榜有哪些? marena.ai 的 leaderboard 是否值得参考?
我看经常有大佬们提及 https://lmarena.ai/?leaderboard ,但是我看 gpt-4o 居然排名第二,比 gpt-o1-preview 和 Claude 3.5 Sonnet 还要强。个人平时用 AI 提问写代码,感觉 gpt-o1-preview 和 Claude 3.5 Sonnet 提供的基本都是可以直接用的,gpt-4o 提供的有时候不能使用。
有没有靠谱的 AI 模型水平排行榜? marena.ai 的 leaderboard 的排名依据是啥?应该不是生成代码能力吧?
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.