有海量文本数据，如何提取敏感类的数据？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

V2EX 提问指南

这是一个创建于 1101 天前的主题，其中的信息可能已经有所发展或是发生改变。

打算通过机器学习算法解决该问题，敏感的标准是，偏近个人隐私，算敏感类数据。
这个通过什么算法实现比较好？

5 条回复 • 2021-11-25 09:23:19 +08:00

murmur

2021-11-24 15:06:55 +08:00

这跟自动阉割算法有什么区别

老实人工识别，除非是格式化数据

否则就跟抖音字幕一样，（举例非骂人）整出我 c 你 m ，你 m 被我 s 了这种

dtgxx

2021-11-24 15:16:11 +08:00

@murmur #1 主要是数据太多了。。。人工做了很多规则，弄了三十多万的规则库，做不完了哈哈。未知的越来越多。

kekxv

2021-11-24 18:06:02 +08:00 via iPhone

其实很简单啊，只要中文夹杂字母且不是单词，就可以定为污言秽语
同样的个人隐私简单点 1 开头的 11 位数字以及 18 位数字
🐶

Chad0000

2021-11-24 18:15:48 +08:00

行外人，感觉这是不是要上 AI 啦，规则你有了，然后不断加入训练库中

dtgxx

2021-11-25 09:23:19 +08:00

@Chad0000 #4 我也是这么想的，先做做看了，不知道能不能成功，没啥 ai 基础