大模型你方唱罢我登场,到底谁在裸泳?

2023-10-23 19:08:46 +08:00
 Bazingawang

转载摘要

本文以应用生成为场景,设计了一系列 testcase ,主要考查模型的推理能力及指令遵从的能力,测评了当前主流的国内外大模型。以下为关键结论:

原文链接

没想到百度表现这么差……

1788 次点击
所在节点    分享发现
10 条回复
nomagick
2023-10-23 19:29:52 +08:00
testcase 太烂,什么乱七八糟的,完全就是先入为主。

prompt 完全就是驴唇不对马嘴,这个任务给人类做别人都要骂娘,起码找个能和人正常交流的的出题吧。
合情推断就是把手上在 GPT4 上能运行的 prompt 拿过来,放在其他模型上测。


不如说是模型容错性能测试,模型 SB 耐受指数测试
codehz
2023-10-23 20:40:30 +08:00
汉语精调大模型用纯英语 testcase ,这不是为难人嘛。。。
yanyao233
2023-10-23 21:38:53 +08:00
啥? baichuan2 这么差?不至于吧....其他很多评测报告+我自己的主观体验感觉并没有这么差啊
zhlmmc
2023-10-24 09:21:44 +08:00
@nomagick 不要推己及人。你倒是写一个 gpt-4 做不出来,但是其他模型能做出来的 testcase ?
zhlmmc
2023-10-24 09:22:35 +08:00
@codehz 如果是这样的话,为什么 Minimax 表现这么好?
codehz
2023-10-24 10:32:34 +08:00
评价是有很多维度的,排序只是恰好命中了合适的维度,举个例子,中文大模型(包括精调的)的使用场景,除了一个合规性,还有一个就是回答问题的时候不会无故蹦出英语答案。即使是 GPT-4 ,有时候也会在要求用中文回复的时候使用英语回答,如果把这种 testcase 加进去,那排序就不好说了。
最离谱的是啥,这 repo 只给了 15 个 testcases ,怎么看怎么像写论文的时候从实验数据里 cherry pick 出想要的结果的那种情形,你要说这玩意有啥代表性,反正我是看不出。
nomagick
2023-10-24 11:30:47 +08:00
@zhlmmc 太简单,全文背诵出师表
Bazingawang
2023-10-24 15:01:56 +08:00
@nomagick 这个 gpt4 还真行……
nomagick
2023-10-24 15:03:42 +08:00
@Bazingawang 后半段就不对了,很多模型都有这毛病
Bazingawang
2023-10-24 15:21:03 +08:00
@nomagick 看了下确实

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/984633

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX