V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
baskice
V2EX  ›  问与答

如何反制内容采集器?

  •  
  •   baskice · 2015-06-30 12:00:38 +08:00 · 2293 次点击
    这是一个创建于 3468 天前的主题,其中的信息可能已经有所发展或是发生改变。
    老被人爬,火大啊
    17 条回复    2015-06-30 19:54:29 +08:00
    em70
        1
    em70  
       2015-06-30 12:04:35 +08:00
    监控日志,单位时间内超过一定量自动封IP 24小时
    lk09364
        2
    lk09364  
       2015-06-30 12:05:27 +08:00
    Septembers
        3
    Septembers  
       2015-06-30 12:23:00 +08:00 via Android
    如果不是面向大众的话
    可以专有化(专有客户端 专有设备 专有网络 等等)
    (可控因素越多就越能达到你的目的
    dong3580
        4
    dong3580  
       2015-06-30 12:31:10 +08:00
    @em70
    你封了一堆长宽用户可以不用上来了,
    cst4you
        5
    cst4you  
       2015-06-30 12:38:02 +08:00
    关站
    neo2015
        6
    neo2015  
       2015-06-30 12:44:34 +08:00
    我有一招,迄今为止还没有人能采集到我的内容。哪怕是他去手动复制都不可以。。。



    此招就是:不建网站
    dangge
        7
    dangge  
       2015-06-30 12:46:09 +08:00
    DZ有个插件,在正文后面随机加随机字符,白色的,正常浏览看不到。
    sobigfish
        8
    sobigfish  
       2015-06-30 12:51:54 +08:00
    这样对搜索的bot也不友好了吧
    em70
        9
    em70  
       2015-06-30 12:58:34 +08:00 via Android
    你分析日志嘛,爬虫只抓页面,不抓CSS,JS吧,把这种IP可以分析出来封掉
    49
        10
    49  
       2015-06-30 13:46:14 +08:00 via Android
    @em70
    gamexg
        11
    gamexg  
       2015-06-30 13:48:59 +08:00
    发现后爬虫后别直接暴力封锁,而是对爬虫随机的提供错误的内容。
    qiuai
        12
    qiuai  
       2015-06-30 13:50:32 +08:00
    你可以解析一下规则,然后去搜一点H小说返回给采集器..
    反正采集的人基本上只看标题和前面一段,后面的东西都不看...你就给他塞一些H小说进去...
    你要是再狠就给他插上几张H图...
    lshero
        13
    lshero  
       2015-06-30 14:03:13 +08:00
    @qiuai 然后恰好遇到了警察蜀黍的爬虫自动截图并保存时间戳
    liujiantao
        14
    liujiantao  
       2015-06-30 14:55:49 +08:00
    百度知道防采集就是给短时间较大访问进行分析给出错误结果了,不过公用一个IP的用户(我不是黑长宽)有一个作死就23333了
    sumhat
        15
    sumhat  
       2015-06-30 15:01:27 +08:00
    制作过一个 WordPress 插件,本意是用于防止敏感词被墙的,也可用于反采集。当然对搜索引擎有一定的限制作用。

    介绍: https://leonax.net/p/1969/wp-plugin-enigma/
    guesskiss
        16
    guesskiss  
       2015-06-30 15:53:32 +08:00 via Android
    css和js用php输出,凡是这个php没获得客户端ip的全部ban掉,前提是伪静态要做好 要不别人一眼就分析出原因了
    qiuai
        17
    qiuai  
       2015-06-30 19:54:29 +08:00
    @lshero =.=都分析出来了,干嘛还在自己的网站显示...
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2739 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 21ms · UTC 11:39 · PVG 19:39 · LAX 03:39 · JFK 06:39
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.