V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
yangva
V2EX  ›  问与答

大佬们,怎么提升爬虫和反爬技术啊

  •  
  •   yangva · 2020-07-16 11:51:58 +08:00 · 2736 次点击
    这是一个创建于 1588 天前的主题,其中的信息可能已经有所发展或是发生改变。

    鄙人是个不起眼的安全职员,最近研究爬虫和反爬比较多,国内的常用爬虫和反爬技术基本都有了解,比如 UA 、IP 、登录、token/sign 等加密参数、特殊的 headers 头验证、aes 和 des 加密某字段、会员权限等级限制、web 端的 js 混淆、移动端的反调试和混淆,ssl pinning 检测、安卓源码编译在 so 层里等等的,微信授权登录等等的,这些我都有些研究。

    我研究完以上举例的,最近每天都在搜索相关技术文章,发现基本都是那一套反爬策略,感觉到了一个瓶颈期,技术没法再提升了,相关的技术文章也基本都是那些套路,国外的反爬又是怎么做的啊,跟国内一样吗?

    有什么途径可以做到技术的持续进步,国内外有没有什么反爬联盟之类的网站或者渠道可以相互分享新技术的。

    抱歉问题有点多,就是感觉最近没有学到新技术,有点焦虑

    19 条回复    2020-07-16 22:22:10 +08:00
    heyhumor
        1
    heyhumor  
       2020-07-16 12:05:59 +08:00
    你是想喝茶吗
    sadfQED2
        2
    sadfQED2  
       2020-07-16 12:09:25 +08:00 via Android
    基本上就你这些,再往上参考 google 的鼠标轨迹,点击轨迹 ai 检查
    ym1ng
        3
    ym1ng  
       2020-07-16 13:28:10 +08:00   ❤️ 1
    同不起眼的安全职员,之前搞过一点反欺诈,献个丑
    爬虫与反爬其实主要是两个问题 人机识别的 challenge 和触发 challenge 的条件
    challenge 最常见的就是各种各样验证码,还有一些类似于字体混淆,关键路径节点校验之类的
    触发 challenge 主要是利用的各种画像技术,如 ip 画像,浏览器指纹,设备指纹等等,对画像使用的一些统计手段,如同比、环比、基于时间窗口的统计等等,更高端一点的把各种统计指标以及采集的指纹向量化丢到机器学习的模型里去训练,至于一些核心业务,则无论条件如何一律上 challenge

    个人觉得这个领域的东西还是更偏向于业务一些。基于自己的业务去进行反爬或者抓取数据。单纯的想学习国外的套路其实并不一定适用自己,毕竟 google 也干过自己的语言识别把自己的语言验证码破了这种自嗨行为(笑
    renmu123
        4
    renmu123  
       2020-07-16 14:18:50 +08:00 via Android
    你可能已经要到爬虫的天花板了
    wysnylc
        5
    wysnylc  
       2020-07-16 14:26:37 +08:00
    只搞爬虫天花板并不高
    yangva
        6
    yangva  
    OP
       2020-07-16 14:30:32 +08:00
    @heyhumor 你先查下什么是安全职员
    yangva
        7
    yangva  
    OP
       2020-07-16 14:31:42 +08:00
    @sadfQED2 好的,谢谢
    kernelpanic
        8
    kernelpanic  
       2020-07-16 14:33:08 +08:00
    少了一个最常见的自定义字体。。
    yangva
        9
    yangva  
    OP
       2020-07-16 14:34:16 +08:00
    @renmu123 好吧,谢谢
    yangva
        10
    yangva  
    OP
       2020-07-16 14:35:11 +08:00
    @wysnylc 好吧,谢谢老哥,就感觉没什么东西可以搞了,焦灼
    yangva
        11
    yangva  
    OP
       2020-07-16 14:35:52 +08:00
    @kernelpanic 嗯,字体反爬也研究过了
    murmur
        12
    murmur  
       2020-07-16 14:42:24 +08:00
    我看有那种 IDC 机房 IP,发现是机房的请求直接风控走起
    dryadent
        13
    dryadent  
       2020-07-16 16:56:48 +08:00
    其实设备指纹能玩的很多,在手机端是可以被 hook 的,在 pc 端是没法固定的,都是挑战
    yangva
        14
    yangva  
    OP
       2020-07-16 20:48:20 +08:00
    @murmur 听起来很 6 的样子,我研究下,感谢
    yangva
        15
    yangva  
    OP
       2020-07-16 20:49:01 +08:00
    @dryadent 是啊,搞来搞去感觉就那几样东西
    krapnik
        16
    krapnik  
       2020-07-16 21:00:16 +08:00   ❤️ 1
    locoz
        17
    locoz  
       2020-07-16 21:01:23 +08:00 via Android   ❤️ 1
    其实各种反爬,思路都是一样的…增加信息收集点、增大看代码的难度、加入一些不影响展示但能让原始数据变样的东西、加入一些恶心人的暗坑,无非就是这几种。实际上也没有什么更好的办法,因为这种东西极限就摆在那,PC 端的反逆向不也是搞了这么多年也没有明显变化嘛。

    现在主流的反爬我个人感觉更倾向于强化风控和反逆向这两方面,都是尽量结合业务,定制化地搞。像数美、快手、拼多多的风控就可以做到即使加密算法全给抠烂了、验证码全给爆破了,也还是能让红方恶心得不行,成本还是高。

    🤣不过其实再怎么搞都一样,无非就是成本问题。反爬做得再牛逼,也挡不住人家招一群实习生手动入库。
    yangva
        18
    yangva  
    OP
       2020-07-16 22:17:08 +08:00
    @krapnik 夜幕的崔大和韦世东是我微信好友,哈哈哈
    yangva
        19
    yangva  
    OP
       2020-07-16 22:22:10 +08:00
    @locoz 好的,感谢大佬,你这头像和名字太眼熟了,知乎有看过你的文章
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1888 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 16:21 · PVG 00:21 · LAX 08:21 · JFK 11:21
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.