V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
HULKSUN
V2EX  ›  问与答

Spark SQL 如何进行优化?

  •  
  •   HULKSUN · 2018-12-26 11:11:01 +08:00 · 1507 次点击
    这是一个创建于 2194 天前的主题,其中的信息可能已经有所发展或是发生改变。

    背景:使用spark.sql("selelct * from * where *")从 hive 中读取数据,数据量在百 GB 左右,数据量太大导致处理时间不可接受,主要是数据量导致 persist 时耗时太多.
    问题:spark sql 执行 SQL 语句时是先把数据全部从 hive 中加载到内存 /磁盘中然后再执行 SQL 语句吗?因为 SQL 语句加不加 where 限制在 persist 时的数据量都是一样的.如何使 spark 在读 hive 时就只读取满足筛选条件的数据?

    1 条回复    2018-12-26 14:41:50 +08:00
    scalaer
        1
    scalaer  
       2018-12-26 14:41:50 +08:00
    无法实现你说的。

    不过你可以根据时间将数据分区, 减少查询的数据.
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1003 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 21ms · UTC 19:46 · PVG 03:46 · LAX 11:46 · JFK 14:46
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.