V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
cnbattle
V2EX  ›  问与答

各位大佬 文本和图像的审核有啥好的实现方式

  •  
  •   cnbattle · 2022-01-26 17:52:44 +08:00 · 1864 次点击
    这是一个创建于 1059 天前的主题,其中的信息可能已经有所发展或是发生改变。
    如果,公司让做一个文本和图像审计的系统,因为预期量较大,所有不能用第三方付费的实现,得自己做

    审计的方向是 色情,赌博,政治,(不含广告)

    找了库 https://github.com/PaddlePaddle/PaddleHub 上面的文本审核, 但效果一般

    请问各位大佬,有其他的相关开源的 AI 库吗 ,不限语言
    16 条回复    2022-01-28 14:30:34 +08:00
    xiaoz
        1
    xiaoz  
       2022-01-26 17:53:46 +08:00
    开源的效果都不太理想,自己开发成本也很高。还是上第三方收费的吧。百度、腾讯、阿里都有。
    cnbattle
        2
    cnbattle  
    OP
       2022-01-26 17:57:34 +08:00
    @xiaoz 道理是懂, 但量有点大,目前评估每天需要在千万次以上
    eason1874
        3
    eason1874  
       2022-01-26 18:34:28 +08:00   ❤️ 1
    据我所知,啥 AI 库都离不开人工打标
    bybyte
        4
    bybyte  
       2022-01-26 18:37:00 +08:00 via Android
    招个算法工程师写个 Ai ?
    zpfhbyx
        5
    zpfhbyx  
       2022-01-26 18:38:56 +08:00
    @eason1874 没毛病,据传字节的打标团队貌似好几万人..
    imn1
        6
    imn1  
       2022-01-26 20:13:58 +08:00
    让你自己做就辞职吧,自己能做出来赚 6 位数不是问题
    团队做的话……一个大项目……呃呃,贵司的投入预算?
    Jooooooooo
        7
    Jooooooooo  
       2022-01-26 20:27:53 +08:00
    这...可是需要专门搞个团队来做这件事的.
    Zy143L
        8
    Zy143L  
       2022-01-26 20:37:33 +08:00 via Android
    想摆烂的话
    就直接一刀切 正则过滤
    去 github 找词库 全部给 ban 了
    ecletics
        9
    ecletics  
       2022-01-26 23:57:43 +08:00 via iPhone
    这玩意儿如果有成熟的产品请推荐给我一下,我们现在每年花 100 多万人工审
    ClericPy
        10
    ClericPy  
       2022-01-27 00:02:57 +08:00
    直接说我这边的结论

    初衷: 好用又白瓢. 结果: 买的真香. 如果白瓢能满足, 商用产品卖给谁去...

    文本那边拉敏感词库 AC 自动机能提前过滤掉一大半, 剩下的给买的服务, 服务每执行一部分挑出新的敏感词记下来再过滤一次

    图片那边真没啥好办法, 一方面如果图床在自己这边, 做好哈希表把重复请求给省下来, 然后想点办法减少输入吧, 比如搞点 OCR 开源那几个提取文字丢上面文本的搞一波预处理
    levelworm
        11
    levelworm  
       2022-01-27 01:04:10 +08:00
    原来楼主是做这个方向的。贴里头的各位大佬,这可是你们平时不怎么喜欢的审查啊。。。
    cnbattle
        12
    cnbattle  
    OP
       2022-01-27 09:14:59 +08:00
    @ClericPy 老哥 说的是,可能我有点理想化了, 感觉建议, 目前敏感词库已经做了

    @levelworm 在的公司是一家本地的 idc ,只做自己机房的网址审核,防止被连带

    @Zy143L 目前敏感词库已经做了,想再多一些监测的方法

    @imn1 刚入职一月,真一人在做 233...
    psklf
        13
    psklf  
       2022-01-27 09:35:33 +08:00
    一个人肯定干不了,找外包 吧
    murmur
        14
    murmur  
       2022-01-27 09:50:15 +08:00
    @zpfhbyx 就抖音那个审核,把现在视频逼得字幕都不敢正常用,我怀疑抖音就是提取字幕直接匹配单字
    zpfhbyx
        15
    zpfhbyx  
       2022-01-27 11:26:13 +08:00
    @murmur 😂 字节不知道. 我们是的处理是有字库的..字库有命中..直接拒绝的..
    zxCoder
        16
    zxCoder  
       2022-01-28 14:30:34 +08:00
    这几天传的那个维尼熊 qq 头像不知道真的假的 哈哈哈
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1001 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 22:51 · PVG 06:51 · LAX 14:51 · JFK 17:51
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.