V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
viking602
V2EX  ›  OpenAI

GPT 的中文语料库污染?

  •  
  •   viking602 · Feb 26 · 2092 views
    This topic created in 70 days ago, the information mentioned may be changed or developed.

    彩神来了 这 gpt 中文语料库都是啥呀 用的还是官方订阅的 plus

    4 replies    2026-02-26 14:37:01 +08:00
    idlerlestat
        1
    idlerlestat  
       Feb 26
    早就有人发现了,自动加字幕的那些,会在较长时间的无言语间隔加上“XX 字幕组”之类的,因为是用字幕组文件训练的,而在较长的间隔打字幕组广告是惯用操作
    viking602
        2
    viking602  
    OP
       Feb 26
    @idlerlestat 这两天异常频繁 之前 5.3codex 没出现过这种问题 很怪
    vonfry
        3
    vonfry  
       Feb 26
    这个很早就有了。[openai community: Chinese gambling characters in Codex CLI message and code output? ]( https://community.openai.com/t/chinese-gambling-characters-in-codex-cli-message-and-code-output/1372678)
    年前刚更新的时候就出现了。只要你上下文过长,或者是一些像 opencode 里这种比较公开的 prompt ,就很容易触发。
    viking602
        4
    viking602  
    OP
       Feb 26
    @vonfry 对 agent 影响太大了 出现这个 agent 就自动中断了
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   1106 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 62ms · UTC 18:03 · PVG 02:03 · LAX 11:03 · JFK 14:03
    ♥ Do have faith in what you're doing.