V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
lchynn
V2EX  ›  OpenAI

发现一个检测大模型 API 的训练数据时效性的好办法

  •  
  •   lchynn · 173 天前 · 463 次点击
    这是一个创建于 173 天前的主题,其中的信息可能已经有所发展或是发生改变。

    有时候,对于一些商用大模型的 API (默认不带搜索引擎 Assistant 能力); 如何检测其训练数据是否比较新; 如果直接问它:你训练数据是什么时候的, 往往会胡乱回答或者据答;

    但是你可以问它一个时效性的新闻,可以判断其训练数据是否包含最新的信息;

    比如问 俄罗斯什么时候入侵的乌克兰,可以筛选调很多 2022 年之前的模型,有些国产明星大模型就被发现了; 如果要看 2024 年的新数据;

    可以问:2024 年几月几日, 以色列轰炸了伊朗驻哪国的大使馆? 因为新闻发生于 2024 年 4 月 1 日的叙利亚, 看看大模型是否幻觉输出乱答还是说没有最新信息无法回答;

    目前通过上面这个时效性测试的新大模型,Zhipu 最新发布的 GLM-4-FLASH, GLM-4-AIR 通过了测试 较早前 baidu 免费的 qianfan-flash ,qianfan-lite ; deepseek v2 , (minimax)abab-6.5, ( kimi ) moonshot, 还有 gpt-4-o, gpt-4-turbo ,claude-3-KAIKU/OPUS/SONNET,GEMINI 1.5 FLASH/PRO ,都无法回答。 说明其数据都是相对较老的。

    目前尚无回复
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   4111 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 22ms · UTC 05:17 · PVG 13:17 · LAX 21:17 · JFK 00:17
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.