V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
joetao123
V2EX  ›  问与答

像 36 氪网站这样的帖子,该如何采集?

  •  
  •   joetao123 · 2022-09-27 10:11:49 +08:00 · 1238 次点击
    这是一个创建于 548 天前的主题,其中的信息可能已经有所发展或是发生改变。

    比如 https://www.36kr.com/p/1932814869170564 ,通过访问获取的是 js 和一些编码信息,没法通过 jsoup 这样的工具去解析 html 内容。

    3 条回复    2022-09-27 11:28:59 +08:00
    xiao109
        1
    xiao109  
       2022-09-27 10:35:37 +08:00
    跟豆瓣一样执行他的解码 js 文件获取实际的编码信息,不然就用无头浏览器然浏览器去执行 js 渲染一次。
    raphaell2e
        2
    raphaell2e  
       2022-09-27 11:28:31 +08:00
    SleepyRaven
        3
    SleepyRaven  
       2022-09-27 11:28:59 +08:00
    研究了一下,Sources 面板打开 app.[hash].js 可以看到 window.initialState.state 的 AES.decrypt 信息
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   4352 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 01:04 · PVG 09:04 · LAX 18:04 · JFK 21:04
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.