C-Eval， GPT4 节节败退，跌出前十。。。。

讲道理，虽然 C-Eval 是中文的评估套件，GPT4 跌出前十，前面的都是国产大模型，这些勉强都能理解接受。

可是排名这一块，居然还有排名第 0 位的，这是几个意思。。。

akira

2023-09-06 12:27:48 +08:00

想吐槽点啥，但是槽点太多了，以至于不知道怎么说好

234ygg

2023-09-06 13:17:05 +08:00

小镇做题家从人变模型了是吧😅
gpt4 是在规模部署的前提下实现当前性能的，不能以低于 20 刀/月的价格规模推广的就别来比了，田忌赛马也要让人见到马吧。
而且，最少也请做个网页版，并提供 API 。

cherryas

2023-09-06 14:17:57 +08:00

chatgpt 本来就对中国的人文历史社科胡编乱造，中国的测试打不过其他新模型很正常。

geomancy

2023-09-06 15:02:15 +08:00

我自己训练的模型最牛 x ，它居然知道我的生活习惯，和别人的聊天记录什么的，其他商业大模型则不可以，甚至不知道我叫什么，我觉得我自己的模型理所当然的排名最前。

cheese

2023-09-06 17:48:16 +08:00

这测试都是中文考证做题的,gpt4 玩不过很正常吧,gpt 的中文训练集相对英文本来就少,更别提这种专用形式的考试内容

hanqian

2023-09-06 22:10:52 +08:00

要不是我真用过好多开源模型我就真信了，完全无视这些所谓 benchmark

timestamp24

2023-09-07 02:41:11 +08:00

姑且相信这个评分(上传成绩的人都很诚实&测试结果可靠)，这是在挑选中文做题家/背题家吗？全是选择题考察有一定的局限性。其实开放公测大家一用就知道各种模型几斤几两了。

chancat

2023-09-07 17:09:08 +08:00

一方面判定别人家的东西违法，有害。自己又干不出来不是抄袭套皮就是自封第一，真的。很难进步。

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.