V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
dtgxx
V2EX  ›  问与答

有海量文本数据,如何提取敏感类的数据?

  •  
  •   dtgxx · 2021-11-24 14:58:14 +08:00 · 818 次点击
    这是一个创建于 1101 天前的主题,其中的信息可能已经有所发展或是发生改变。
    打算通过机器学习算法解决该问题,敏感的标准是,偏近个人隐私,算敏感类数据。
    这个通过什么算法实现比较好?
    5 条回复    2021-11-25 09:23:19 +08:00
    murmur
        1
    murmur  
       2021-11-24 15:06:55 +08:00
    这跟自动阉割算法有什么区别

    老实人工识别,除非是格式化数据

    否则就跟抖音字幕一样,(举例非骂人)整出我 c 你 m ,你 m 被我 s 了这种
    dtgxx
        2
    dtgxx  
    OP
       2021-11-24 15:16:11 +08:00
    @murmur #1 主要是数据太多了。。。人工做了很多规则,弄了三十多万的规则库,做不完了哈哈。未知的越来越多。
    kekxv
        3
    kekxv  
       2021-11-24 18:06:02 +08:00 via iPhone
    其实很简单啊,只要中文夹杂字母且不是单词,就可以定为 污言秽语
    同样的个人隐私简单点 1 开头的 11 位数字以及 18 位数字
    🐶
    Chad0000
        4
    Chad0000  
       2021-11-24 18:15:48 +08:00
    行外人,感觉这是不是要上 AI 啦,规则你有了,然后不断加入训练库中
    dtgxx
        5
    dtgxx  
    OP
       2021-11-25 09:23:19 +08:00
    @Chad0000 #4 我也是这么想的,先做做看了,不知道能不能成功,没啥 ai 基础
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3671 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 10:27 · PVG 18:27 · LAX 02:27 · JFK 05:27
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.