V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
azev
V2EX  ›  问与答

做爬虫 首先考虑用高并发?

  •  
  •   azev · 2022-09-21 12:29:28 +08:00 · 1127 次点击
    这是一个创建于 555 天前的主题,其中的信息可能已经有所发展或是发生改变。
    除非遇到限制才会搞延时仿真?
    高并发一般怎么个高法 同时发出去多少个请求呢?
    11 条回复    2022-09-22 09:17:37 +08:00
    superrichman
        1
    superrichman  
       2022-09-21 12:33:43 +08:00 via Android   ❤️ 2
    首先考虑刑法
    azev
        2
    azev  
    OP
       2022-09-21 12:40:54 +08:00
    @superrichman 给你一个赞
    kera0a
        3
    kera0a  
       2022-09-21 12:43:52 +08:00
    不是海量数据+海量代理 IP ,没必要考虑并发问题。
    我爬过的大站点都有频率限制,小站点扛不住并发,基本没条件去高并发爬。
    herozzm
        4
    herozzm  
       2022-09-21 12:56:31 +08:00
    首先考虑的是 ip 库,爬虫很容易被封 ip 的
    picone
        5
    picone  
       2022-09-21 13:05:26 +08:00
    看瓶颈在哪。如果爬取的数据没有时效性,慢慢爬就行了
    xiao109
        6
    xiao109  
       2022-09-21 13:26:11 +08:00
    首先考虑可以爬,像 mvnrepository.com 这种站点你连第一步都展开不了
    gumupaier
        7
    gumupaier  
       2022-09-21 17:28:09 +08:00
    首先考虑如何进去
    lyang
        8
    lyang  
       2022-09-21 17:30:08 +08:00
    我看刑
    gezimonkey
        9
    gezimonkey  
       2022-09-21 17:32:36 +08:00
    首先考虑不被抓
    IvanLi127
        10
    IvanLi127  
       2022-09-21 17:44:59 +08:00
    首先考虑如何不影响对方业务,避免变成攻击行为。。。。
    abc0123xyz
        11
    abc0123xyz  
       2022-09-22 09:17:37 +08:00
    考虑蹬缝纫机
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   5421 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 27ms · UTC 07:37 · PVG 15:37 · LAX 00:37 · JFK 03:37
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.