V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
dtgxx
V2EX  ›  程序员

斗胆问个问题,不要引战,在做技术选型 ClickHouse 和 StarRocks

  •  2
     
  •   dtgxx · 83 天前 · 2333 次点击
    这是一个创建于 83 天前的主题,其中的信息可能已经有所发展或是发生改变。
    网上看了好多文章,StarRocks 在各种维度 更新啊、扩容啊、不依赖大宽表啊。。。优势远远高于 clickhouse 。

    我的场景是海量数据聚合分析,明细数据根据索引查询。

    想问问用过的大佬,选哪个比较好。
    24 条回复    2022-04-14 00:42:11 +08:00
    jones2000
        1
    jones2000  
       83 天前
    不考虑 TiDB 吗?
    bootvue
        2
    bootvue  
       83 天前
    海量数据的话 感觉 flink spark 这些来干更好
    xinyewdz
        3
    xinyewdz  
       83 天前
    如果运维能力比较强,无脑选择 clickhouse 。starrocks ,性能不行。
    dtgxx
        4
    dtgxx  
    OP
       83 天前
    @jones2000 TiDB 之前了解了一下,了解不深,感觉性能是介于 MySQL 和 Clickhouse 之间,我大约有几百亿的数据,不知道性能是不是可以达到。

    @bootvue 嗯呢,数据处理在 spark ,最终需要聚合查询的数据比较大,想通过这种 MPP 库来实现。
    @xinyewdz 我之前做性能对比,当时是叫 doris ,也发现 doris 比 clickhouse 慢,但是我看网上的好多文章,都在说 StarRocks 快,所以我就蒙了,而且感觉各方面都比 clickhouse 好,实际上我感觉 clickhouse 比较好,但是有没证据- -
    zhenjiachen
        5
    zhenjiachen  
       83 天前 via iPhone   ❤️ 1
    我也想知道是 clickhouse 好还是 doris 好
    haah
        6
    haah  
       83 天前
    有钱就用商业 oracle ,其他的水分太大!
    jenlors
        7
    jenlors  
       83 天前
    看 StarRocks 和 ClickHouse 官方对比完虐 ClickHouse ,但我感觉还是得自己导一些数据进去测试一下
    zmal
        8
    zmal  
       83 天前 via iPhone
    选成熟的经过验证的方案
    ericls
        9
    ericls  
       83 天前 via iPhone
    Benchmark 一下吧
    littlewing
        10
    littlewing  
       83 天前   ❤️ 1
    @dtgxx

    "我之前做性能对比,当时是叫 doris ,也发现 doris 比 clickhouse 慢"

    纠正一下,Apache Doris 从未改名叫 StarRocks ,StarRocks 只是 fork 了 Apache Doris 代码的创业项目
    gtx990
        11
    gtx990  
       83 天前 via Android   ❤️ 1
    不要信官网的测试,都是 cherry picked
    我相信 clickhouse 应该更好一些
    如果不想运维的话,建议 snowflake ,redshift 或者 bigquery
    liprais
        12
    liprais  
       83 天前
    这俩功能都不一样
    怎么比
    noparking188
        13
    noparking188  
       83 天前   ❤️ 1
    回答可能不完全切题,看描述像是 HTAP 场景,TiDB 应该是比较合适的,Clickhouse 没了解过,不过 TiDB 的 AP 部分执行器用的是 Clickhouse 的
    TiDB 生态周边是比较全的,运维友好一些
    “明细数据根据索引查询” 走 TiKV (行存),“明细数据根据索引查询” 走 TiFlash (列存)
    TiDB 对机器配置要求比较高,因为尽可能地走下推计算
    可以尝试到 AWS 上用 TiDB Cloud 测一波性能
    noparking188
        14
    noparking188  
       83 天前
    @noparking188 #13 -> “海量数据聚合分析” 走 TiFlash (列存)
    dayeye2006199
        15
    dayeye2006199  
       83 天前 via Android   ❤️ 1
    性能是一方面。还要考虑生态成熟度和运维难度。

    性能再好一出问题两手一滩搞不定,温度有付费的支持服务,属于神仙难救
    xupefei
        16
    xupefei  
       82 天前 via iPad
    当然是上 databricks ,巨量数据 tpcds 性能世界第一😂
    haah
        17
    haah  
       82 天前
    你先把硬件考虑清楚,再选择软件工具!
    不然这问题的意义何在呢?
    mortalbibo
        18
    mortalbibo  
       82 天前   ❤️ 2
    看能否接受商业付费, 目前 Clickhouse 和 Doris 是纯开源,StarRocks 是基于 Doris 拉出来的一个分支,号称开源,但背后有商业运营公司, Clickhouse 运维成本更高一些,但目前对复杂结构和分析函数支持都优于 Doris(比如 Doris 还不支持 map),而对多表 Join 处于劣势, 看你数据的结构, 如果大部分都是基于单表查询或者单表 join 小维表,选 clickhouse. Doris 是百度开源的,百度系公司用的多, clickhouse 是 yandex 开源的,目前腾讯阿里都有在用,字节属于极其重度用户,节点超过一万五千个, StarRocks 去年刚宣布开源,具体用户不太清楚
    sss495088732
        19
    sss495088732  
       82 天前
    TIDB+ES...
    gotonull
        20
    gotonull  
       82 天前   ❤️ 1
    我们项目用的 starrocks 。当时也对比了 ck ,主要是看重了 starrocks 的 join 性能和运维简单选的。没选 doris 选 starrocks 是因为当时的 doris 还不支持向量化,性能和 starrocks 差距有点大。starrocks 用起来就感觉稳定性还是差点,偶尔会挂掉。
    fenglangjuxu
        21
    fenglangjuxu  
       82 天前 via iPhone   ❤️ 1
    Clickhouse 插入很牛逼 查询很慢 需要加时间限制 按时间分的表
    DeleteZN
        22
    DeleteZN  
       82 天前 via Android   ❤️ 1
    要不试一下 OceanBase 。性能还是不错的
    DeleteZN
        23
    DeleteZN  
       82 天前 via Android
    @DeleteZN 而且现在 OceanBase 也开源了,
    sampeng
        24
    sampeng  
       82 天前   ❤️ 1
    我就纳闷了。。怎么突然冒出来一个 starrocks 。。。仔细看了一下这些文章,不说 100%,80%是软文是没跑的。
    关于   ·   帮助文档   ·   API   ·   FAQ   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   1134 人在线   最高记录 5497   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 34ms · UTC 21:46 · PVG 05:46 · LAX 14:46 · JFK 17:46
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.