V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
xiaoks
V2EX  ›  程序员

电影网站:关于大量关键字屏蔽与替换的设计思路

  •  
  •   xiaoks · 2015-09-14 20:24:35 +08:00 · 4359 次点击
    这是一个创建于 3349 天前的主题,其中的信息可能已经有所发展或是发生改变。

    前几个月我做了一个电影分享网站,在运营的过程中发现:很多人分享 18 禁的内容,在评论里还有可能出现一些污秽语言。

    为了保证网站内部氛围的健康,之前采用在 code 写关键字的形式进行屏蔽。但是在运营的过程中还是会发现有不足,很多关键字依然没能屏蔽掉。关键字的维护工作也比较麻烦。不可能每次发现关键字都去调整代码。

    希望大家能分享一下简单有效设计思路,谢谢!

    ps :思路可行的前提下,尽量保证程序有效率。

    13 条回复    2015-10-22 16:16:30 +08:00
    kslr
        1
    kslr  
       2015-09-14 20:27:12 +08:00   ❤️ 1
    DFA 算法,关键字去青云的青云志我记得有个文章里面带了份北京公安局给的关键词名单。
    yinheli
        2
    yinheli  
       2015-09-14 21:00:03 +08:00
    https://log.qingcloud.com/?p=389
    检索到了. 或许我也需要.
    virusdefender
        3
    virusdefender  
       2015-09-14 21:04:22 +08:00
    @yinheli 这关键词也太粗了吧

    自制
    购买
    直销
    订购

    提供
    专卖
    热销
    批发
    供应
    专供
    买卖
    自制
    订购

    专卖
    热销
    供应
    买卖

    销售
    直销
    批发
    供应

    这都是关键词...
    imn1
        4
    imn1  
       2015-09-14 21:05:47 +08:00
    有这个关键词详单分享一下
    seiwev
        5
    seiwev  
       2015-09-14 21:11:52 +08:00
    都做电影分享网站了还怕 18 禁?电影分享一样被禁。
    9hills
        6
    9hills  
       2015-09-14 21:16:30 +08:00
    > 关键字的维护工作也比较麻烦。不可能每次发现关键字都去调整代码。

    如果只是解决这个问题,那你把关键词做成可动态加载的字典不就好了。存到数据库里也行啊

    当时高级点还有些别的方法
    mengzhuo
        7
    mengzhuo  
       2015-09-14 21:20:13 +08:00
    直接上 cuckoo filter 不就结了,关键是分词得做好
    2015813
        8
    2015813  
       2015-09-14 22:49:09 +08:00 via iPhone
    这个自己写的话很麻烦,建议用现场代码
    nowcoder
        9
    nowcoder  
       2015-09-15 09:51:33 +08:00
    自己写很容易。把关键词做成一个字典树。 对 ugc 进行查找,效率很高的。 去百度搜 DFA ,字典树,敏感词代码到处都是,根本没几行
    nowcoder
        10
    nowcoder  
       2015-09-15 10:08:30 +08:00
    @kslr 求名单地址
    jugelizi
        11
    jugelizi  
       2015-09-15 13:18:59 +08:00
    存到数据库发布后状态为 0 不立即显示呀,后台跑个任务过滤完成了再显示出来
    dingyaguang117
        12
    dingyaguang117  
       2015-09-17 19:28:52 +08:00
    请搜索 AC 自动机
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3638 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 00:10 · PVG 08:10 · LAX 16:10 · JFK 19:10
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.