V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
viking602
V2EX  ›  OpenAI

GPT 的中文语料库污染?

  •  
  •   viking602 · 2 月 26 日 · 1366 次点击

    彩神来了 这 gpt 中文语料库都是啥呀 用的还是官方订阅的 plus

    4 条回复    2026-02-26 14:37:01 +08:00
    idlerlestat
        1
    idlerlestat  
       2 月 26 日
    早就有人发现了,自动加字幕的那些,会在较长时间的无言语间隔加上“XX 字幕组”之类的,因为是用字幕组文件训练的,而在较长的间隔打字幕组广告是惯用操作
    viking602
        2
    viking602  
    OP
       2 月 26 日
    @idlerlestat 这两天异常频繁 之前 5.3codex 没出现过这种问题 很怪
    vonfry
        3
    vonfry  
       2 月 26 日
    这个很早就有了。[openai community: Chinese gambling characters in Codex CLI message and code output? ]( https://community.openai.com/t/chinese-gambling-characters-in-codex-cli-message-and-code-output/1372678)
    年前刚更新的时候就出现了。只要你上下文过长,或者是一些像 opencode 里这种比较公开的 prompt ,就很容易触发。
    viking602
        4
    viking602  
    OP
       2 月 26 日
    @vonfry 对 agent 影响太大了 出现这个 agent 就自动中断了
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   1154 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 88ms · UTC 23:28 · PVG 07:28 · LAX 15:28 · JFK 18:28
    ♥ Do have faith in what you're doing.