V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
libinglong9
V2EX  ›  程序员

大模型下优质中文语料匮乏问题

  •  1
     
  •   libinglong9 · 2023-06-10 23:11:52 +08:00 · 5616 次点击
    这是一个创建于 533 天前的主题,其中的信息可能已经有所发展或是发生改变。

    随着 gpt 等 aigc 模型的兴起,语料质量也变得重要起来。国外有 Stack Overflow 等类似网站,对问答的要求很高,严谨,认真的回答更可能获得高分。再看国内,百度知道,知乎等网站,对提问与回答则要求较低。甚至知乎也有“知乎,分享你刚编的故事”这样的调侃,csdn 则 copy 盛行,近期不登录还不能查阅和复制。

    国内是否需要一个真正严肃认真的问答网站呢?我有的时候跟朋友谈这个事,甚至都想,哪怕只有一小部分人用,我自己每年掏钱维护服务器都行。别让一个网站为了盈利,最后像知乎一样,处处都是故事。

    59 条回复    2023-06-12 14:32:30 +08:00
    Track13
        1
    Track13  
       2023-06-10 23:23:23 +08:00 via Android   ❤️ 5
    这不是钱的问题。
    seres
        2
    seres  
       2023-06-10 23:23:56 +08:00
    UGC 网站面临最大的问题是合规审查
    一但有用户作妖碰到红线,网站就没了。。。
    libinglong9
        3
    libinglong9  
    OP
       2023-06-10 23:26:34 +08:00
    @seres 所以这个网站,从一开始我的想法就是架设在国外
    huijiewei
        4
    huijiewei  
       2023-06-10 23:26:34 +08:00   ❤️ 2
    问题是你敢弄就有人给你搞赵弹袭击。。
    huijiewei
        5
    huijiewei  
       2023-06-10 23:26:51 +08:00
    @libinglong9 然后被墙了,也没啥人气
    yyws2012
        6
    yyws2012  
       2023-06-10 23:30:43 +08:00 via Android
    如果真的不想盈利甚至回本、并且能持续用爱发电的话,可以不用国内服务器,把各种反 GFW 的思路换上,还是能做的。
    但是前面两个条件很难实现。
    libinglong9
        7
    libinglong9  
    OP
       2023-06-10 23:30:52 +08:00 via iPhone
    @huijiewei 其实这种网站,即使在国外,我也不希望他谈政治,谈政治对这种网站没什么意义
    malusama
        8
    malusama  
       2023-06-10 23:37:38 +08:00
    别的不过..现在国内的模型都还在对标 chatgpt.
    chatgpt 也是用 Common Crawl
    WebText2
    Books
    Wikipedia
    这些语料训练出来的啊, 这些也都是公开的. 有什么缺乏的问题.
    等到啥时候目标是赶超才需要提优质语料吧?
    libinglong9
        9
    libinglong9  
    OP
       2023-06-10 23:46:10 +08:00 via iPhone
    @malusama 优质语料是一个更需要日积月累的东西,硬件和软件差距肯定会越来越小,或者即使有很大差距,但是够用就好了
    wdlth
        10
    wdlth  
       2023-06-10 23:46:35 +08:00
    我觉得如果只有所谓的高质量语料可能效果更难以满足,本身每个人的表达方式就不一样,有的人可能会突出重点,有的人会发散一下思维,做个比喻什么的,如果只以所谓的高质量语料去训练,那又如何去满足质量低的输入呢?
    像 Common Crawl 数据集就是低质量,但可以从中提取到各种各样表达方式。
    Trello
        11
    Trello  
       2023-06-10 23:47:19 +08:00
    国内思否还行,就是没什么人气。
    haha512
        12
    haha512  
       2023-06-10 23:47:47 +08:00   ❤️ 14
    并非是谈不谈政治的问题,国内太多敏感点,挂满全身,还没有违规标准。
    比如那 8 个字不能随便说,一不小心就辱军了、某种炒饭在某些场合下也涉及侮辱烈士、提到 HK/TW 时,少说个中国可能就被指辱华、一不小心夸奖个美日就是崇洋媚外 50 万... 太多太多了。
    Ericcccccccc
        13
    Ericcccccccc  
       2023-06-10 23:50:19 +08:00
    样本投毒这种事最早百度给 google 做过了.
    libinglong9
        14
    libinglong9  
    OP
       2023-06-10 23:53:56 +08:00 via iPhone
    @wdlth 你说的有道理,只是低质量的语料太容易获取了。
    huijiewei
        15
    huijiewei  
       2023-06-11 00:05:29 +08:00
    @libinglong9 国外谈政治你可以删帖(反正慢慢删除就好了),国内你删慢点自己就没了
    JinBin
        16
    JinBin  
       2023-06-11 00:17:42 +08:00   ❤️ 16
    政治在现代文明国家就是吃饭呼吸一样寻常的事,不谈才奇怪。主动阉割是掩耳盗铃,治标不治本。只有简中言论自由,没有变态的 censorship 了,才有可能谈高质量的内容。
    greatbody
        17
    greatbody  
       2023-06-11 00:22:11 +08:00   ❤️ 4
    StackOverflow 上面大量的英文内容不是英文为母语的国家的人贡献的。例如我就贡献过很多的被采纳的优质回答。为什么用英语贡献?很简单,在编程的世界中,很多术语是英语的,而且使用英语能让更多的人看懂。

    语料匮乏中国人也不必纠结。大语言模型核心的是训练出来的网络权重,而我理解这个就类似人学习到的经验,是非语言的。当你使用中文提问的时候,英文的知识也会被用上,只不过在输出的时候多了一个翻译的步骤。

    最后,不论中文,英文都是人类的共同财富。不应该因为中文的语料少而自卑。
    ltltfuture
        18
    ltltfuture  
       2023-06-11 00:38:01 +08:00   ❤️ 1
    说实话,不如学好英语
    hsir
        19
    hsir  
       2023-06-11 00:46:24 +08:00   ❤️ 1
    其实不是语言语料的问题,因为大模型不是用语言思考的,翻译只是人类传递信息所需要的,就像 E=mc^2 这个公式一样,AI 理解的是公式本身,而和表达或者输入的语言无关。

    美国是互联网的发源地和创新地,拥有最大最全的互联网基础设施,所以 AI 自然是最发达的;国内的 AI 主要问题其实就类似一众手机国产厂商定制系统和 Android 系统的关系一样,美国人制定了标准,中国只能 follow ,吃别人的,用别人的,从别人那里来,有问题等别人先解决,别人解决了自己直接拿来用,至于自己的创新、甚至造轮子的想法,则是不会有,不敢有,不能有。
    libinglong9
        20
    libinglong9  
    OP
       2023-06-11 00:55:18 +08:00 via iPhone
    @JinBin 不谈政治的意思是,网站本身不是要做那种任意的问答,就如同 Stack Overflow 一样,只做 code 相关的问答
    realpg
        21
    realpg  
       2023-06-11 02:17:56 +08:00
    @libinglong9 #7
    大型中文社区,境外的,你没有 50%用户有管理权限可以 ban 人,基本就会变为政治和垃圾 spam 集中营
    Lightbright
        22
    Lightbright  
       2023-06-11 02:34:46 +08:00 via Android
    你是否在找:v2ex
    Sting1226
        23
    Sting1226  
       2023-06-11 02:52:25 +08:00
    知乎早期还是邀请注册的时候,回答的质量都很高,干货很多。
    后来开放注册以后,越来越的品牌也加入进来,软文越来越多。
    不谈 zz ,只单说回复的内容,感受就是这样的。
    之前看过一个调查报告,中国网民的学历及年龄,不成熟的人很多。
    这中间认知的偏差,就很容易各种撕 B 。
    haichaofine32
        24
    haichaofine32  
       2023-06-11 07:43:01 +08:00 via Android
    能访问境外网站的是极少数,如果只能谈技术无法谈论价值观,那和境内的删评论和关键字审查有何区别?没有独立思考的人哪来高质量的答复,不信对比一下百度百科和维基百科,前者据说重要关键字请特定人作答
    dji38838c
        25
    dji38838c  
       2023-06-11 09:39:44 +08:00   ❤️ 4
    你可能把语料理解狭隘了。
    ChatGPT 除了网上的内容外,还把海量的书籍,各类专业的书籍,都作为训练的内容
    而别的不说,就说专业书籍,比如中文的生物学科的教材,就完全没有和英文的相比
    这些教材和书籍的智力投入,都不是一代人了。
    这恐怕远远不是做一个“更好的知乎”能改变的。
    ttys001
        26
    ttys001  
       2023-06-11 09:46:36 +08:00
    @seres
    作妖碰到红线?
    是正常碰到作妖好嘛。
    hhylx1950
        27
    hhylx1950  
       2023-06-11 10:19:41 +08:00
    其实从 chatgpt 的中文质量来看,语料似乎不是什么大问题。
    acctv2
        28
    acctv2  
       2023-06-11 10:38:59 +08:00
    一个纯粹的图文 UGC 平台,其实成本还可以,不是那么高, 如果配合上使用 Google Ads 基本不用用爱发电太多。

    所以我觉得你的想法是可行的,但是难点在于:
    - 很难推广,墙外的中文用户毕竟是极少数
    - 你肉身在国内,一旦平台负面言论过多,仍然存在合规风险
    javlib
        29
    javlib  
       2023-06-11 10:54:51 +08:00
    其实 ai 底层不区分语言,用大量的英语数据+少量的中文数据,训练出来的 ai 一样能掌握中文。所以你只要找到优质数据即可,不需要特定语言。
    documentzhangx66
        30
    documentzhangx66  
       2023-06-11 11:17:16 +08:00   ❤️ 2
    这本质是一个经济问题。

    我国虽然是世界上第二大经济实体国家,但人均后,被第一名远超地不要不要的,仍然是一个发展中的穷国。

    那些发达国家,就算不上班,偶尔接点小活,也能舒舒服服过日子。只有在这种情况下,才有人愿意把时间与精力,花在所谓的文章审核、文档编辑上。比如 GPT 训练语料的来源之一:维基百科,上面很多词条都没有中文的,就算是有中文的,内容数量也远少于英文。

    穷,则需要疲于奔命。
    optional
        31
    optional  
       2023-06-11 11:21:59 +08:00
    你错了,语料数据这方面其实问题不大,硬件的落后才是大问题,现在国内大厂 A100 都不够训练的。
    learningman
        32
    learningman  
       2023-06-11 11:26:58 +08:00
    v2ex 往前五年还是个技术社区,现在是个键政垃圾集散地。
    中间发生了什么,各位有头绪吗?
    libinglong9
        33
    libinglong9  
    OP
       2023-06-11 11:31:58 +08:00 via iPhone
    @Lightbright V2EX 问答是比较轻松的。不像在 so 上会有压力。
    mazyi
        34
    mazyi  
       2023-06-11 11:33:37 +08:00   ❤️ 6
    有地方可以谈政治,才会有地方不谈政治,如果大部分人接触到的地方不能谈政治,那少部分人可以接触到的地方就一定会变成谈政治的。
    libinglong9
        35
    libinglong9  
    OP
       2023-06-11 11:35:11 +08:00 via iPhone
    @learningman 社区是要有严格的规范的,该封的封就是了。但问题在于,有的社区又需要一定的活跃用户,这存在一些矛盾,因此从一开始,我就希望哪怕只有 1000 人用,也不会为了社区的活跃而放弃原则
    aphorism
        36
    aphorism  
       2023-06-11 11:45:12 +08:00   ❤️ 1
    1. 你对中文的理解存在偏差。语料丰富度是一种语言的内在属性。语料匮乏是中文这种语言的最显著的特征。如果语料不匮乏了,那么这种语言就不能叫做中文了,叫做东文、西文、南文、北文,或者内文、外文、前文、后文都可以,就是不叫中文。

    2. 语料的丰富度其实反映的是思想的多样化程度。这两者是互相影响的。从东亚大陆的历史来看,中文及相关语言的使用者都具有非常强烈的“多样性厌恶"特征,这种思想偏好决定了东亚大陆语言的核心特征。

    3. 中文及其相关语言的表达能力是非常弱的,建议任何一个希望有所发现、有所创造的人尽可能地选择更强的语言来开展工作。
    cassyfar
        37
    cassyfar  
       2023-06-11 11:56:12 +08:00
    实名制,登录需要认证公司或者 org ,edu 邮箱。但这种网站太暴露隐私,一般人也不愿意用,毕竟你作为小网站没公信力。
    Al0rid4l
        38
    Al0rid4l  
       2023-06-11 11:58:28 +08:00   ❤️ 3
    语言是思维的工具, 思想被阉割, 却希望像别人一样诞生出高质量的思想产物(语料), 想的是挺美的
    Jirajine
        39
    Jirajine  
       2023-06-11 12:06:08 +08:00
    @realpg 据我见到的几个境外中文社区(非“大型”),非政治领域但不禁止政治的,政治内容占比重都不高。
    但因为众所周知的原因,中文使用群体在涉及政治的话题中会产生大量的 flamewar 。
    HN 之类的英文技术社区中的政治话题会好不少(当然吵架也不少)
    realpg
        40
    realpg  
       2023-06-11 12:15:30 +08:00
    @Jirajine #39
    非大型肯定啊 键盘侠都不知道怎么来
    而 OP 想做的东西,是要大型才有价值
    Torpedo
        41
    Torpedo  
       2023-06-11 12:26:32 +08:00
    先研究英文怎么翻译到中文,然后直接学习英文资料

    当然,本地化的,那只能想想能不能拿到内参啥的资料了
    THESDZ
        42
    THESDZ  
       2023-06-11 13:02:58 +08:00
    最简单地方式,就是做成点对点或者群组加密,只有网站和群组内成员才能阅读.
    Jirajine
        43
    Jirajine  
       2023-06-11 13:39:45 +08:00
    @realpg 什么样的能称为“大型”?如果限定简中的话,v2ex 应该已经算是最大的了吧,其他 reddit 之类的只有政治领域有用户规模。群组、Twitter 、youtube 这些本来就是吵架的地方没有计入的必要。
    主要原因还是 GFW 以外简体中文语言使用者之间立场分化极其严重、矛盾尖锐,HN 这些地方政治话题虽然也有吵架但不至于变成粪坑。
    vlgs
        44
    vlgs  
       2023-06-11 14:22:55 +08:00
    不如直接用英文的
    zhchyu999
        45
    zhchyu999  
       2023-06-11 15:39:33 +08:00
    所以 chatgpt 回答不了中文的问题和问题么
    kawaii303
        46
    kawaii303  
       2023-06-11 16:03:37 +08:00
    中文里面相对质量高的网站只有 V2EX 了,里面的“问与答”节点相当于问答网站。想自己建一个严肃认真的问答网站还是很难的,一是盈利,二是管理,自己没有闲钱闲工夫,网站很难做好。
    libinglong9
        47
    libinglong9  
    OP
       2023-06-11 16:22:29 +08:00 via iPhone
    @zhchyu999 能回答,就是国内不知道啥时候能用啊?处处被卡脖子哪里受得了
    calon
        48
    calon  
       2023-06-11 16:50:55 +08:00
    里屋论坛在做中文语料集的事情,现在需要技术人员和贡献语料,有兴趣的可以参与。
    链接:
    https://mnbvc.253874.net/
    https://github.com/esbatmop/MNBVC
    calon
        49
    calon  
       2023-06-11 16:54:55 +08:00
    目标是 40T 的数据量,目前的进度是 5T 多,12.6%
    yvescheung
        50
    yvescheung  
       2023-06-11 17:43:42 +08:00   ❤️ 1
    互联网上英文页面占 55%,中文仅占 1.4%,和波兰语一个水平,不如土耳其语,荷兰语,日语
    这种差距不是几个严肃问答网站就可以抹平的
    zisen
        51
    zisen  
       2023-06-11 18:09:39 +08:00 via iPhone
    之前参加过一个高校内部的类似 stackoverflow 的问答网站,老师和学生都在网站内实名提问和回答,然后被创业中心给否了,也没拿到经费
    fengjianxinghun
        52
    fengjianxinghun  
       2023-06-11 18:24:50 +08:00   ❤️ 1
    @yvescheung 有没有可能,这是 2012 年开始的大规模关停网站导致的。
    dyllen
        53
    dyllen  
       2023-06-11 18:56:06 +08:00
    审核都搞死你,不审核搞出来敏感的东西你人在国内小心被请去喝茶,人不在国内的直接墙了。
    yvescheung
        54
    yvescheung  
       2023-06-11 19:21:12 +08:00
    @fengjianxinghun 华生,你发现了盲点
    yankebupt
        55
    yankebupt  
       2023-06-11 19:41:56 +08:00
    @libinglong9 V2EX 也架设在国外,你猜站长为什么还是上关键字了?
    中国人的劣根性,有些人即使是来讨论热点事件的,也不真的是来认真讨论热点事件的,而是精心设计一个局,制造几个风口新闻,然后准备踩着你的网站上位。
    而这些,对于早就习惯了的国外浏览者而言,都只不过是不值得关注的杂谈而已。
    我觉得有些人累了,不再想帮你免费劳动
    IndexOutOfBounds
        56
    IndexOutOfBounds  
       2023-06-11 20:42:48 +08:00
    相同的一件事情,用中文还是英文语料训练区别大吗?只需要少量的中文语料让模型掌握中文本身不就好了
    w210934618
        57
    w210934618  
       2023-06-11 21:01:55 +08:00
    1
    frankies
        58
    frankies  
       2023-06-11 22:27:56 +08:00 via Android
    国内有专门雇人把英文语料翻译成中文进行训练的。
    domoco
        59
    domoco  
       2023-06-11 23:39:25 +08:00
    @JinBin 难道不是因为国外导向了所谓的言论自由,才造成这个原因?没那么狼口,谁管你言论自由呢
    Inevitable
        60
    Inevitable  
       2023-06-12 14:32:30 +08:00
    @frankies 改善翻译来提高素材质量了,不过这种类型其实也不需要担忧吧,毕竟高价值的很多都藏着的
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   4382 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 27ms · UTC 01:08 · PVG 09:08 · LAX 17:08 · JFK 20:08
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.