C-Eval， GPT4 节节败退，跌出前十。。。。

2023-09-06 10:36:10 +08:00

luchenwei9266

讲道理，虽然 C-Eval 是中文的评估套件，GPT4 跌出前十，前面的都是国产大模型，这些勉强都能理解接受。

可是排名这一块，居然还有排名第 0 位的，这是几个意思。。。

附个网页链接： https://cevalbenchmark.com/static/leaderboard_zh.html

5972 次点击

所在节点

OpenAI

34 条回复

x86

2023-09-06 10:37:20 +08:00

0 是 foreach 循环的时候从 0 开始了填的呗

luchenwei9266

2023-09-06 10:40:08 +08:00

@x86 那大概率又是招的临时工没经验，前端显示排名的时候忘了+1

Chad0000

2023-09-06 10:45:58 +08:00

甭管他们怎么评，目前我只为 ChatGPT 付费。

leonhao

2023-09-06 10:48:20 +08:00

赢麻了

BingoXuan

2023-09-06 10:49:41 +08:00

看了一下测试内容，唯一想法是为何让大模型成为做题家呢？

jolanyu

2023-09-06 10:50:27 +08:00

（注：* 表示该模型结果由 C-Eval 团队测试得到，而其他结果是通过用户提交获得。）

zapper

2023-09-06 10:53:20 +08:00

考霸？要来干嘛

TimePPT

2023-09-06 10:54:18 +08:00

@jolanyu 哈哈哈正想吐槽来着

xlsepiphone

2023-09-06 10:55:10 +08:00

榜单里面的，我只可能为 ChatGPT 付费。

SomeBodsy

2023-09-06 10:56:21 +08:00

文心一言就是个人工智障，问啥都不知道，跟 chatGPT 最起码差 20 代

yigecaiji

2023-09-06 11:11:31 +08:00

乐

idealhs

2023-09-06 11:16:26 +08:00

我们中国真是太厉害辣

Eissen

2023-09-06 11:22:21 +08:00

遥遥领先

BwNVlwSq

2023-09-06 11:25:21 +08:00

太酷辣

bt7vip

2023-09-06 11:32:02 +08:00

我也好奇，GPT4 的模型放出来了？？他们可以调试？？

excitedXXX

2023-09-06 11:39:42 +08:00

遥遥领先！！！

Navee

2023-09-06 11:44:42 +08:00

单走一个 6

cksspk

2023-09-06 11:50:04 +08:00

遥遥领先

chendl111

2023-09-06 12:07:49 +08:00

前面都是国内的，我严重怀疑测试的可靠性

yvescheung

2023-09-06 12:15:53 +08:00

在朝鲜最幸福国家的排名中，前五分别是中国，朝鲜，古巴，伊朗和委内瑞拉，邪恶的美帝国主义排 200 多

第 1 页／共 2 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/971319

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.