V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
rocketman13
V2EX  ›  互联网

爬虫极大困难:今日头条

  •  
  •   rocketman13 · 2018-06-21 12:33:26 +08:00 · 9086 次点击
    这是一个创建于 2128 天前的主题,其中的信息可能已经有所发展或是发生改变。

    今日头条利用 js 加密 url 中的参数_signature=IOxKnAAAe85OfzsuWtv0ECDsSo 利用 js2py 或 pyV8 怎么解决 最新版的今日头条,反爬技巧升级了

    31 条回复    2018-09-21 11:09:18 +08:00
    cdwyd
        1
    cdwyd  
       2018-06-21 12:37:59 +08:00 via Android
    不知道现在还是不是,我之前爬的时候费了半天劲把 hs 加密用 python 重写一切都搞定以后又喵了一眼 js 加密部分,竟然明文写了一个万能的 key
    cdwyd
        2
    cdwyd  
       2018-06-21 12:38:18 +08:00 via Android
    hs>js
    ctsed
        3
    ctsed  
       2018-06-21 12:57:52 +08:00 via Android
    pptr
    ACool
        4
    ACool  
       2018-06-21 13:01:27 +08:00 via Android
    写爬虫的要小心罗,爬数据要被判刑滴
    https://www.v2ex.com/t/464477
    滑稽
    3dwelcome
        5
    3dwelcome  
       2018-06-21 13:05:02 +08:00 via Android
    没什么是 headless 解决不了的。
    willhunger
        6
    willhunger  
       2018-06-21 14:49:59 +08:00
    今日头条的垃圾内容也值得爬?
    miyuki
        7
    miyuki  
       2018-06-21 15:30:11 +08:00
    头条抓完你再抓
    hnbcinfo
        8
    hnbcinfo  
       2018-06-21 15:42:25 +08:00
    我就喜欢破解各种加密字符串,等我给你搞定它
    xbigfat
        9
    xbigfat  
       2018-06-21 15:52:04 +08:00
    @hnbcinfo 层主可以帮忙破解个字符串加密么。。完全没有头绪 doge
    hnbcinfo
        10
    hnbcinfo  
       2018-06-21 16:00:35 +08:00
    @xbigfat 声明,纯属娱乐,不建议用于非法用途。

    先看接口参数,目前可以断定,用于防爬策略的是 AS、CP 和_signature 字段,其他均为数据筛选参数。



    巧了,我今天没事,帮楼主玩玩。一个一个的来,走到哪一步算哪一步,楼主也别抱太大希望,毕竟人家头条技术人员也不是吃干饭的。
    hnbcinfo
        11
    hnbcinfo  
       2018-06-21 16:11:10 +08:00   ❤️ 3
    AS 已经破解,如图,CP 和它差不多,估计一会就能猜出来。高估了头条了,不过我估计最后的 signature 应该不容易

    hnbcinfo
        12
    hnbcinfo  
       2018-06-21 16:12:45 +08:00
    上面的第 5 步表达错了,更正下:16 位时间戳 T16 ---> 16 进制时间戳 T16
    hnbcinfo
        13
    hnbcinfo  
       2018-06-21 16:38:00 +08:00
    CP 类似,CP 字符串的前 4 位+第 6 位+第 8 位+第 10 位+第 12 位,组合起来的 8 位为时间戳 16 进制的表示。剩下的 6 位没怎么看出来,楼主可以自行研究下。

    signature 还没看,不过我估计是猜不出来的,抽空我再看看。现在下班了,明天有时间在弄吧

    P.S. 一旦加密串被猜出来,估计人家就要修改了。所以不保证能用多长时间
    hnbcinfo
        14
    hnbcinfo  
       2018-06-21 16:42:26 +08:00
    在纠正下,11 楼中,第 3 步,写的匆忙,应该是对 T 进行 MD5 加密,而不是 T16。抱歉
    hnbcinfo
        15
    hnbcinfo  
       2018-06-21 16:49:08 +08:00
    下班前算出 CP:
    CP=T16 前 4 位+M(27)+T(4)+M(28)+T(5)+M(29)+T(6)+M(30)+T(7)+M(31)+’ E1 ’
    ful1v1dcker
        16
    ful1v1dcker  
       2018-06-21 16:52:28 +08:00
    所以。。。楼主是捡垃圾的?[doge]
    LeungV2
        17
    LeungV2  
       2018-06-21 16:58:22 +08:00
    还以为赶上直播了 这就歇菜了?
    rocketman13
        18
    rocketman13  
    OP
       2018-06-26 21:00:21 +08:00
    @cdwyd 所以能告诉我解决方案吗?
    rocketman13
        19
    rocketman13  
    OP
       2018-06-26 21:00:32 +08:00
    @ctsed 什么意思???
    rocketman13
        20
    rocketman13  
    OP
       2018-06-26 21:01:00 +08:00
    @3dwelcome selenium 技术含量不高啊
    rocketman13
        21
    rocketman13  
    OP
       2018-06-26 21:01:25 +08:00
    @willhunger 主要想破它的 js 加密
    rocketman13
        22
    rocketman13  
    OP
       2018-06-26 21:02:40 +08:00
    我觉得和 AS、CP 没什么关系, 主要加密还是_signature 字段,兄弟你解决了吗??
    rocketman13
        23
    rocketman13  
    OP
       2018-06-26 21:03:06 +08:00
    @ful1v1dcker 什么意思?
    rocketman13
        24
    rocketman13  
    OP
       2018-06-26 21:03:25 +08:00
    @LeungV2 能帮忙解决吗?
    macwhirr
        25
    macwhirr  
       2018-06-27 16:58:22 +08:00
    5LiN6L+H6L+Y5piv5pyJ6aKR5qyh6ZmQ5Yi2
    rocketman13
        26
    rocketman13  
    OP
       2018-07-03 22:40:28 +08:00
    @macwhirr ???什么意思呢
    rocketman13
        27
    rocketman13  
    OP
       2018-07-04 09:05:09 +08:00
    @hnbcinfo 老哥,_signature 破解了吗??
    hnbcinfo
        28
    hnbcinfo  
       2018-07-04 10:41:55 +08:00
    @rocketman13 sorry,这个并没有搞出来,不过我猜测和时间有关系。
    rocketman13
        29
    rocketman13  
    OP
       2018-07-05 13:34:56 +08:00
    @hnbcinfo 那请问一下你公司爬数据时遇到这种加密情况怎么处理呢
    hnbcinfo
        30
    hnbcinfo  
       2018-07-05 15:03:10 +08:00
    @rocketman13 我公司非互联网公司,没有爬虫的需求。
    q3031031
        31
    q3031031  
       2018-09-21 11:09:18 +08:00
    请问各位大佬,今日头条 反爬虫策略是什么,我已经限制频率了,三四秒才一个请求,还是被封禁了
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   1443 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 28ms · UTC 17:19 · PVG 01:19 · LAX 10:19 · JFK 13:19
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.