发现一个检测大模型 API 的训练数据时效性的好办法

27 天前
 lchynn

有时候,对于一些商用大模型的 API (默认不带搜索引擎 Assistant 能力); 如何检测其训练数据是否比较新; 如果直接问它:你训练数据是什么时候的, 往往会胡乱回答或者据答;

但是你可以问它一个时效性的新闻,可以判断其训练数据是否包含最新的信息;

比如问 俄罗斯什么时候入侵的乌克兰,可以筛选调很多 2022 年之前的模型,有些国产明星大模型就被发现了; 如果要看 2024 年的新数据;

可以问:2024 年几月几日, 以色列轰炸了伊朗驻哪国的大使馆? 因为新闻发生于 2024 年 4 月 1 日的叙利亚, 看看大模型是否幻觉输出乱答还是说没有最新信息无法回答;

目前通过上面这个时效性测试的新大模型,Zhipu 最新发布的 GLM-4-FLASH, GLM-4-AIR 通过了测试 较早前 baidu 免费的 qianfan-flash ,qianfan-lite ; deepseek v2 , (minimax)abab-6.5, ( kimi ) moonshot, 还有 gpt-4-o, gpt-4-turbo ,claude-3-KAIKU/OPUS/SONNET,GEMINI 1.5 FLASH/PRO ,都无法回答。 说明其数据都是相对较老的。

361 次点击
所在节点    OpenAI
0 条回复

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1047368

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX