V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
9921
V2EX  ›  程序员

Apache Doris 现在使用的多吗 效果怎么样啊

  •  
  •   9921 · 209 天前 · 1968 次点击
    这是一个创建于 209 天前的主题,其中的信息可能已经有所发展或是发生改变。

    有没有项目用到 doris 的大佬,可以谈一下使用感受吗 以前做数仓的时候准备研究下 doris ,后来换工作,业务方向变了就遗忘了 现在公司已有的业务平台数据用的 hbase ,数据量一天 500 万,存储查询明细没有问题,主要是增加了一些聚合查询的场景,速度太慢了,二级索引啥的效果也不好,想看看 doris 效果行不行

    22 条回复    2023-11-16 11:12:38 +08:00
    ekkoli
        1
    ekkoli  
       209 天前
    对于聚合数据的话 doris 强烈推荐,效果很好,我们团队 100t 的数据 使用起来很好
    8355
        2
    8355  
       209 天前
    @ekkoli 我们现在用 clickhouse ,数据规模跟你们差不多,请问之前考虑过 clickhouse 不,有啥绝对优势嘛
    ekkoli
        3
    ekkoli  
       209 天前
    这个没有,一直用的 doris
    kanepan19
        4
    kanepan19  
       209 天前
    @8355 打吧的技术文章说,doris 比 clickhouse 查询的并发率高
    9921
        5
    9921  
    OP
       209 天前
    @8355 以前用 clickhouse 遇到很多问题,最主要的是它的更新操作是后台任务,sql 执行返回执行成功,但是后台任务并不一定执行完成了,对机器配置要求高
    9921
        6
    9921  
    OP
       209 天前
    @ekkoli 感谢~有个问题请教下,Unique 模型下现在依然不支持部分字段更新吗,大宽表有不同的实时任务写入不同字段
    COKETSANG
        7
    COKETSANG  
       209 天前
    我们是 php 技术栈,也上的 clickhouse ,属于一个游戏公司内部后台数据分析项目。
    每日写入超千万明细写入。聚合后查询响应都在秒级内。
    单天 500 万的数据量我推荐你用 clickhouse 。
    这个量级下 clickhouse join 慢的劣势不是特别明显,但是聚合的优势很舒服应该。
    doris 我觉得整个生态好奇怪,分了 selectdb 、starrocks 好几家。
    然后如果你是 java 技术栈好像 doris 跟原来 hadoop 那套会更实用,能搭配 spark 、flink 那些一起用。
    COKETSANG
        8
    COKETSANG  
       209 天前
    @9921 理论上 clickhouse 的机器配置不会比 habse 那些要求高啊,我们是用 clickhouse 两台 16 核 64G 的集群,平替了一个 40 台 1000 核 1TB 的集群。
    不过我们的数据量不大,5TB 左右。而且 clickhouse 的并发性能确实不行,我们 qps 是不过百的。update 也支持不太行。我们用户画像虽然是 clickhouse 做的,但是是 clickhouse 计算结果,同步到到一个 mysql 去支持业务并发查询的。
    9921
        9
    9921  
    OP
       209 天前
    @COKETSANG 我们以前用的单节点的,具体配置忘了,性能跟不上,更新一行数据后,任务一直在排队;还有一个功能好像是叫物化视图还是啥的,功能不错,但是机器性能不行就完全用不了
    9921
        10
    9921  
    OP
       209 天前
    @COKETSANG clickhouse 查询速度很快,以前是因为覆盖写入的数据和查询的数据长时间不一致,就弃用了
    COKETSANG
        11
    COKETSANG  
       209 天前
    @9921 ck 的话你就默认它没有 update 。需要 insert 代替 update ,搭配 replacing 引擎 final 来读数据就是,跟其他数据库有点点不同。
    物化视图也是类似,一般需要搭配 aggregating 引擎用。碰上需要去重的场景就不太适用了。
    那挺可惜的,目前我们有两套系统 ck 在用。有一套是单机 32 核 64G ,目前来看不过亿的数据都是随便查的,我安利你看看伴鱼和七猫的团队文档,我觉得学到挺多的。
    llzzll1234
        12
    llzzll1234  
       208 天前
    挺不错的,前司去年把报表从 clickhouse 转向了 doris ,很重要的一个原因是 ck 的迷之 sql 写法,对于数据的话目前只有几百 G 所以看不出多少区别
    9921
        13
    9921  
    OP
       208 天前
    @COKETSANG 当初也是听说 ck 厉害才换的,需要整个多项业务各种表到一个 100 多列大宽表,在测试去重的时候碰壁了很久,就没有再继续研究了
    COKETSANG
        14
    COKETSANG  
       208 天前
    @9921 看了下我们现在也有 135 列高频查询的宽表,ck 本身列存对列数不敏感,我们也有数据不多 2000 多列的表,查询单列不多的情况下确实也很快。
    ck 简单列聚合确实很牛逼,但是 join 确实不太行。当时选型也是考虑可以减少 join 进入数量解决。我们大概 21 年开始用了,早期版本不支持 2 个以上 join ,多表只能用嵌套 join 也确实恶心。不过我们是自己参考 mongodb 写的小型 orm 解决的也问题不大。
    目前整体看暂时没有性能瓶颈所以还是推荐你可以试试。
    COKETSANG
        15
    COKETSANG  
       208 天前
    @9921 而且 ck 压缩比挺高的,就是要管下类型不能像 hive 那样 string 一把梭。但毕竟我们是服务器费用敏感的小公司
    rockxsj
        16
    rockxsj  
       208 天前
    对比后用的 starrocks ,开源程度更高,而且社区配合度很高
    leonhao
        17
    leonhao  
       208 天前
    @llzzll1234 sql 语法这点不知道为啥没人提,相当丑陋,放着标准 sql 不用非要另辟蹊径,不知道设计的时候咋想的
    hangszhang
        18
    hangszhang  
       208 天前
    美团在大规模用这个
    ser3w
        19
    ser3w  
       207 天前
    现在在用 starrocks ,社区问题跟进非常积极
    ekkoli
        20
    ekkoli  
       206 天前
    @9921 据我所知是不支持的,这种情况下一般肯定是拆表
    9921
        21
    9921  
    OP
       196 天前
    @ekkoli 装了单机版测试了下,unique 模型不支持部分更新,聚合模型对 array/json 等类型有限制,感觉使用起来需要注意的点还是蛮多的
    sch1111878
        22
    sch1111878  
       159 天前
    @ser3w 真的吗
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   5426 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 27ms · UTC 08:10 · PVG 16:10 · LAX 01:10 · JFK 04:10
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.