V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
ppn029012
V2EX  ›  问与答

如何在分钟级别里处理 50G 数据?

  •  
  •   ppn029012 · 2017-05-14 17:26:16 +08:00 via iPhone · 3087 次点击
    这是一个创建于 2755 天前的主题,其中的信息可能已经有所发展或是发生改变。
    目前有一个需要处理 500 万条目大约 50GB 数据,数据目前放在 mongoDB 上,每次处理需要读出来,处理再写入,耗时在 5-6 个小时不等。请问目前市面上有什么样的云端数据处理框架可以帮助我能在分钟级或者秒级处理这些数据吗?
    12 条回复    2017-05-15 13:15:07 +08:00
    lynnworld
        1
    lynnworld  
       2017-05-14 17:28:08 +08:00
    为什么每个条目这么大?
    ppn029012
        2
    ppn029012  
    OP
       2017-05-14 17:31:28 +08:00 via iPhone
    @lynnworld 文本数据
    ETiV
        3
    ETiV  
       2017-05-14 17:45:30 +08:00
    这么大数据,还要这么短时间。。。
    要是硬盘给力的话,最快的处理方式恐怕就只有 rm -fr 了
    billion
        4
    billion  
       2017-05-14 17:50:51 +08:00
    如果你的 MongoDB 用的是阿里云,那么你可以试一试 MaxCompute
    dexterzzz
        5
    dexterzzz  
       2017-05-14 18:01:45 +08:00
    用内存,列存储数据库
    Kilerd
        6
    Kilerd  
       2017-05-14 18:25:07 +08:00
    50GB /60 s = 1G/s
    就算是连续读写这个速率都不低啊, 还要进行处理
    wanglaihuai
        7
    wanglaihuai  
       2017-05-14 18:31:40 +08:00 via Android
    @ETiV 哈哈哈哈,这个最快了。
    powergx
        8
    powergx  
       2017-05-14 18:31:51 +08:00
    ramdisk 可以, 延迟 /吞吐量能达标。 云端不可能有
    rrfeng
        9
    rrfeng  
       2017-05-14 18:34:10 +08:00
    如果还会增长的话趁早改 Hadoop 平台,各种选择
    如果永远这么点儿的话 MongoDB SSD 多加内存也是可以的,但是要注意主机网络带宽(云主机内网带宽),一定会成为第一个瓶颈。解决方案是分片
    kaneg
        10
    kaneg  
       2017-05-14 18:37:14 +08:00 via iPhone
    hanadb
    chocolatesir
        11
    chocolatesir  
       2017-05-14 18:56:04 +08:00 via Android
    或许 conoha 可以。。
    ihuotui
        12
    ihuotui  
       2017-05-15 13:15:07 +08:00 via iPhone
    业务是怎样?单数据量有什么好说
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1162 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 104ms · UTC 18:50 · PVG 02:50 · LAX 10:50 · JFK 13:50
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.