V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
seerhut
V2EX  ›  问与答

谁知道类似"Mozilla/3 (X8 Windows) AppleWebKit.... " 这样的 user agent 是怎么回事?

  •  
  •   seerhut · 2016-06-03 10:12:04 +08:00 · 2165 次点击
    这是一个创建于 3077 天前的主题,其中的信息可能已经有所发展或是发生改变。
    今天发现访问日志中大量的此类 user agent , IP 还很分散,全国各地都有。这是什么新的浏览器么?还是分布式爬虫?

    "Mozilla/3 (X13 Windows) AppleWebKit/513.17 (KHTML, like Gecko) Chrome/ Safari/513.17"
    "Mozilla/3 (X8 Windows) AppleWebKit/551.44 (KHTML, like Gecko) Chrome/ Safari/551.44"
    "Mozilla/4 (X6 Windows) AppleWebKit/541.47 (KHTML, like Gecko) Chrome/ Safari/541.47"
    "Mozilla/5 (X13 Windows) AppleWebKit/520.66 (KHTML, like Gecko) Chrome/ Safari/520.66"
    4 条回复    2016-06-03 12:05:02 +08:00
    fcicq
        1
    fcicq  
       2016-06-03 10:31:08 +08:00   ❤️ 1
    这必然是坏爬虫无疑... 现代浏览器大多 Mozilla/5.0 开头. AppleWebKit 大多数后面跟的 537.36. Chrome/ 后面没版本号. 槽点也太多了.
    notgod
        2
    notgod  
       2016-06-03 10:51:19 +08:00
    自定义的 ua
    不过这个定义的有些傻
    seerhut
        3
    seerhut  
    OP
       2016-06-03 11:10:51 +08:00
    @fcicq
    @notgod
    关键是已经出现了数百个使用此 user agent 的 IP ,但访问的接口没有任何可爬取的内容,请求也没有恶意内容。。。。

    我开始怀疑是某些分布式监控系统出现了异常,把我们的地址加入监控了
    notgod
        4
    notgod  
       2016-06-03 12:05:02 +08:00
    @seerhut

    PS : 爬虫不会识别是不是有可爬取的内容

    爬虫只是归因所有的 URL 链接
    你应该检查下 这些接口的 url 是不是在哪里公开泄露了 在什么地方有公开贴出来
    被爬虫存档到链接库里 然后被爬虫识别到了 导致的这个问题

    另外注意下 查看下日志 这些 IP 最开始爬的时候 有无读取 robots.txt 文件
    如果有的话 加个 robots.txt 禁止所有爬虫爬取
    大部分爬虫还是会遵守规则的

    监控集群的话 是没这种规模的
    监控一般最大一个区域部署 /24 对外的公网 IP 用于请求
    你那动不动就几百个 IP 明显不是监控
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5280 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 09:22 · PVG 17:22 · LAX 01:22 · JFK 04:22
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.