V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
YingJie
V2EX  ›  问与答

怎样提高这种爬虫的速度。

  •  
  •   YingJie · 2017-05-22 19:27:55 +08:00 · 1576 次点击
    这是一个创建于 2743 天前的主题,其中的信息可能已经有所发展或是发生改变。
    100+万 IP,内外网都有,想批量验证状态(80 端口),并写入文件(IP)。不用 nmap。Python 实现,能给个思路吗,如果是 Python 推荐哪些库(多进程+协程?requests?grequests?sock?Scapy?);如果用 Golang ……弱弱的问一句 Golang 有优势吗?
    这种需求是不是也属于爬虫范围?
    谢谢!
    9 条回复    2017-05-23 20:32:05 +08:00
    panyanyany
        1
    panyanyany  
       2017-05-22 19:45:09 +08:00
    弱弱地问一句这 100+万 IP 哪来的啊……可用率有多少?
    golmic
        2
    golmic  
       2017-05-22 19:48:15 +08:00
    scrapy
    popu111
        3
    popu111  
       2017-05-22 19:49:12 +08:00 via Android
    Golang 的话 Goroutine 的实现简易度确实高得多,写这种简单的并发应用用 golang 是个相当棒的选择
    dongxiaozhuo
        4
    dongxiaozhuo  
       2017-05-22 19:56:09 +08:00 via iPhone
    zmap ?
    YingJie
        5
    YingJie  
    OP
       2017-05-22 20:58:22 +08:00
    @panyanyany 初略估计 10%
    YingJie
        6
    YingJie  
    OP
       2017-05-22 20:59:04 +08:00
    @dongxiaozhuo 尝试了,用不起来……
    aip
        7
    aip  
       2017-05-22 21:00:44 +08:00
    这个。。。关键难道不是带宽么?带宽足够的话,并发一万个进程。。。。
    YingJie
        8
    YingJie  
    OP
       2017-05-22 21:03:32 +08:00
    @aip 嗯,在带宽一定的情况下,想怎样提高效率,所以问问……
    nicoljiang
        9
    nicoljiang  
       2017-05-23 20:32:05 +08:00
    1、你用的 ADSL VPS 的网络质量和机器稳定性,以及 VPS 的数量;
    2、反爬策略;
    3、爬虫后端的数据处理能力。

    以上是开玩笑的,真正的瓶颈就在能投入多少钱。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5667 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 06:44 · PVG 14:44 · LAX 22:44 · JFK 01:44
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.