V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
soratadori
V2EX  ›  程序员

这种反爬虫策略怎么破

  •  
  •   soratadori · 2017-05-13 08:39:32 +08:00 · 4335 次点击
    这是一个创建于 2778 天前的主题,其中的信息可能已经有所发展或是发生改变。
    1. 你无法顺着页面的其他链接爬完整个站点,大部分内容被隐藏的很好。

    2. 每个目标页面的 id(网址上的 number)为 5~6 位数字,但是似乎没什么规律,随便输入一个数字,有很大概率那个页面是空的。算上空白的页面总共有 40 万页不到。即便能爬完一次,更新的时候也很麻烦。因为新的页面很有可能是插入原来的空白页面中。我估计有效内容只有 1/5 不到。

    3. 想获取没有显示出来的信息,唯一的途径就是使用网站提供的搜索功能。正常人通过搜索框输入关键词获取他需要的信息,但机器很明显不可能那么做(我知道我要拿什么信息我还来抓啊?),我也试过一些范围关键词,并没有用。

    4. 这个网站提供了高级搜索,但是你一次输出的数量有限,有可能几十条,但最多不过 500 条,然而问题在于这个限度很莫名其妙,你完全不知道他为什么只显示那么多(明明还有很多没显示)。

    5. 通过高级搜索把范围设窄,一点一点组合起来是最有效的办法,然而这里有一个大坑。2 年前我来爬这个网站的时候,那时候的高级搜索是用 get 请求的,现在变成了 post 请求。然后 get 请求搜到的东西 post 请求搜不到,反之也是如此。这就很尴尬,你永远不可能知道你到底缺少了哪些东西没抓下来。

    6. 通过搜索引擎(google 等)只能显示 200+条

    7. 这个网站对于我来说并非不可替代,也就是一些商品信息之类的东西,该不该放弃?我觉得我是没办法了。另外我也不会去把全站给爬下来,感觉很浪费对方资源,如果是什么百度新浪腾讯这种大网站,那我肯定不会手软了。

    大概下午或者晚上回复

    第 1 条附言  ·  2017-05-14 03:39:12 +08:00
    算了
    10 条回复    2017-05-14 18:11:04 +08:00
    murmur
        1
    murmur  
       2017-05-13 08:43:38 +08:00
    说这么多废话为啥不直接贴个页面给我们看呢
    golmic
        2
    golmic  
       2017-05-13 09:04:09 +08:00
    赞同楼上,给个页面或许直接帮你解决了。太长了不想看了
    dcsite
        3
    dcsite  
       2017-05-13 09:08:59 +08:00   ❤️ 1
    人能正常访问,爬虫就可以~
    pubuntu
        4
    pubuntu  
       2017-05-13 09:41:39 +08:00 via iPhone
    我都不想看。 说了等于白说
    spice630
        5
    spice630  
       2017-05-13 13:05:06 +08:00
    说实话 看到文字我也不想看,就跟把代码用文字描述一遍一样。。
    karia
        6
    karia  
       2017-05-13 15:17:11 +08:00
    人能访问爬虫就可以+1
    当你把封 IP 封 UA 封 Cookie 和神兽验证码都骗过去之后会发现
    最恶心的还是页面本身就是结构混乱的#信息类网站尤其严重
    或者根本就是 JS 或者 AJAX 和服务器二次通信之后加载出来的
    dolaxi
        7
    dolaxi  
       2017-05-13 16:39:02 +08:00
    @pubuntu 就是
    jyf007
        8
    jyf007  
       2017-05-13 21:40:42 +08:00
    贴页面
    Pinwheel
        9
    Pinwheel  
       2017-05-14 13:44:14 +08:00
    看了半天我也没看懂你说的啥。。。
    raecoo
        10
    raecoo  
       2017-05-14 18:11:04 +08:00 via iPhone
    上 url
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1352 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 22ms · UTC 17:27 · PVG 01:27 · LAX 09:27 · JFK 12:27
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.