有时候,对于一些商用大模型的 API (默认不带搜索引擎 Assistant 能力); 如何检测其训练数据是否比较新; 如果直接问它:你训练数据是什么时候的, 往往会胡乱回答或者据答;
但是你可以问它一个时效性的新闻,可以判断其训练数据是否包含最新的信息;
比如问 俄罗斯什么时候入侵的乌克兰,可以筛选调很多 2022 年之前的模型,有些国产明星大模型就被发现了; 如果要看 2024 年的新数据;
可以问:2024 年几月几日, 以色列轰炸了伊朗驻哪国的大使馆? 因为新闻发生于 2024 年 4 月 1 日的叙利亚, 看看大模型是否幻觉输出乱答还是说没有最新信息无法回答;
目前通过上面这个时效性测试的新大模型,Zhipu 最新发布的 GLM-4-FLASH, GLM-4-AIR 通过了测试 较早前 baidu 免费的 qianfan-flash ,qianfan-lite ; deepseek v2 , (minimax)abab-6.5, ( kimi ) moonshot, 还有 gpt-4-o, gpt-4-turbo ,claude-3-KAIKU/OPUS/SONNET,GEMINI 1.5 FLASH/PRO ,都无法回答。 说明其数据都是相对较老的。