V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
notot
V2EX  ›  分享创造

一个 twitter 帖子抓取工具,用来解决特殊的 kol 抓取需求

  •  1
     
  •   notot · 4 天前 · 843 次点击

    [需求背景] 领导给你一批 kol twitter 用户,需要定时抓取这些 kol 的 twitter 情况,你会怎么实现

    [实现方案] 用一个新的账号(注意,需要用新的,不能用自己经常使用的账号),用这个新的账号批量关注上面的 kol 信息。 关注了这些 kol 之后,每次就只需要请求当前账号关注列表的帖子就可以了,相比于如果需要去请求每个 kol 的最新信息,大大降低的封号风险

    [项目] https://github.com/xiaoxiunique/x-kit 地址

    我将核心逻辑提取了出来。

    如果你有更加高效的抓取方案,欢迎分享

    6 条回复    2024-12-20 10:22:37 +08:00
    lckof
        1
    lckof  
       4 天前
    优雅,高级。已 star 。

    PS:为什么要增加一个`GET_ID_X_TOKEN`呢?
    notot
        2
    notot  
    OP
       4 天前
    GET_ID_X_TOKEN

    这个是那种受限制的 twitter 账号的 token ,没办法关注,但是可以请求部分 twitter 的 api ,比如拿到 twitter 用户的 id ,分散一部分请求
    notot
        3
    notot  
    OP
       4 天前
    @lckof
    GET_ID_X_TOKEN

    这个是那种受限制的 twitter 账号的 token ,没办法关注,但是可以请求部分 twitter 的 api ,比如拿到 twitter 用户的 id ,分散一部分请求. 降低主要账号被封的频率,根据我现在目前的测试结果,现在线上跑的账号(新账号) 已经 10 多天正常抓取数据了,还不错
    notot
        4
    notot  
    OP
       3 天前
    顶一顶
    lizhenda
        5
    lizhenda  
       2 天前
    使用市面上现成的采集 API 不行么。x 很多产品都支持呀。
    notot
        6
    notot  
    OP
       1 天前
    @lizhenda 又好用的推荐吗
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2541 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 19ms · UTC 10:56 · PVG 18:56 · LAX 02:56 · JFK 05:56
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.