发现一个检测大模型 API 的训练数据时效性的好办法

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

For Existing Member Sign In

This topic created in 693 days ago, the information mentioned may be changed or developed.

有时候，对于一些商用大模型的 API （默认不带搜索引擎 Assistant 能力）；如何检测其训练数据是否比较新；如果直接问它：你训练数据是什么时候的，往往会胡乱回答或者据答；

但是你可以问它一个时效性的新闻，可以判断其训练数据是否包含最新的信息；

比如问俄罗斯什么时候入侵的乌克兰，可以筛选调很多 2022 年之前的模型，有些国产明星大模型就被发现了；如果要看 2024 年的新数据；

可以问：2024 年几月几日，以色列轰炸了伊朗驻哪国的大使馆？因为新闻发生于 2024 年 4 月 1 日的叙利亚，看看大模型是否幻觉输出乱答还是说没有最新信息无法回答；

目前通过上面这个时效性测试的新大模型，Zhipu 最新发布的 GLM-4-FLASH, GLM-4-AIR 通过了测试较早前 baidu 免费的 qianfan-flash ，qianfan-lite ； deepseek v2 ， (minimax)abab-6.5, （ kimi ） moonshot, 还有 gpt-4-o, gpt-4-turbo ，claude-3-KAIKU/OPUS/SONNET,GEMINI 1.5 FLASH/PRO ，都无法回答。说明其数据都是相对较老的。

No Comments Yet

时效性新闻测试