C-Eval, GPT4 节节败退,跌出前十。。。。

2023-09-06 10:36:10 +08:00
 luchenwei9266

讲道理,虽然 C-Eval 是中文的评估套件,GPT4 跌出前十,前面的都是国产大模型,这些勉强都能理解接受。

可是排名这一块,居然还有排名第 0 位的,这是几个意思。。。

附个网页链接: https://cevalbenchmark.com/static/leaderboard_zh.html

5911 次点击
所在节点    OpenAI
34 条回复
x86
2023-09-06 10:37:20 +08:00
0 是 foreach 循环的时候从 0 开始了填的呗
luchenwei9266
2023-09-06 10:40:08 +08:00
@x86 那大概率又是招的临时工没经验,前端显示排名的时候忘了+1
Chad0000
2023-09-06 10:45:58 +08:00
甭管他们怎么评,目前我只为 ChatGPT 付费。
leonhao
2023-09-06 10:48:20 +08:00
赢麻了
BingoXuan
2023-09-06 10:49:41 +08:00
看了一下测试内容,唯一想法是为何让大模型成为做题家呢?
jolanyu
2023-09-06 10:50:27 +08:00
(注:* 表示该模型结果由 C-Eval 团队测试得到,而其他结果是通过用户提交获得。)
zapper
2023-09-06 10:53:20 +08:00
考霸?要来干嘛
TimePPT
2023-09-06 10:54:18 +08:00
@jolanyu 哈哈哈正想吐槽来着
xlsepiphone
2023-09-06 10:55:10 +08:00
榜单里面的,我只可能为 ChatGPT 付费。
SomeBodsy
2023-09-06 10:56:21 +08:00
文心一言就是个人工智障,问啥都不知道,跟 chatGPT 最起码差 20 代
yigecaiji
2023-09-06 11:11:31 +08:00
idealhs
2023-09-06 11:16:26 +08:00
我们中国真是太厉害辣
Eissen
2023-09-06 11:22:21 +08:00
遥遥领先
BwNVlwSq
2023-09-06 11:25:21 +08:00
太酷辣
bt7vip
2023-09-06 11:32:02 +08:00
我也好奇,GPT4 的模型放出来了??他们可以调试??
excitedXXX
2023-09-06 11:39:42 +08:00
遥遥领先!!!
Navee
2023-09-06 11:44:42 +08:00
单走一个 6
cksspk
2023-09-06 11:50:04 +08:00
遥遥领先
chendl111
2023-09-06 12:07:49 +08:00
前面都是国内的,我严重怀疑测试的可靠性
yvescheung
2023-09-06 12:15:53 +08:00
在朝鲜最幸福国家的排名中,前五分别是中国,朝鲜,古巴,伊朗和委内瑞拉,邪恶的美帝国主义排 200 多

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/971319

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX