发现一个检测大模型 API 的训练数据时效性的好办法

有时候，对于一些商用大模型的 API （默认不带搜索引擎 Assistant 能力）；如何检测其训练数据是否比较新；如果直接问它：你训练数据是什么时候的，往往会胡乱回答或者据答；

但是你可以问它一个时效性的新闻，可以判断其训练数据是否包含最新的信息；

比如问俄罗斯什么时候入侵的乌克兰，可以筛选调很多 2022 年之前的模型，有些国产明星大模型就被发现了；如果要看 2024 年的新数据；

可以问：2024 年几月几日，以色列轰炸了伊朗驻哪国的大使馆？因为新闻发生于 2024 年 4 月 1 日的叙利亚，看看大模型是否幻觉输出乱答还是说没有最新信息无法回答；

目前通过上面这个时效性测试的新大模型，Zhipu 最新发布的 GLM-4-FLASH, GLM-4-AIR 通过了测试较早前 baidu 免费的 qianfan-flash ，qianfan-lite ； deepseek v2 ， (minimax)abab-6.5, （ kimi ） moonshot, 还有 gpt-4-o, gpt-4-turbo ，claude-3-KAIKU/OPUS/SONNET,GEMINI 1.5 FLASH/PRO ，都无法回答。说明其数据都是相对较老的。

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1047368

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.