首页   注册   登录
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
pibicha
V2EX  ›  程序员

被强拉来做 Olap 系统,求大佬指点怎么搞

  •  2
     
  •   pibicha · 69 天前 · 2599 次点击
    这是一个创建于 69 天前的主题,其中的信息可能已经有所发展或是发生改变。
    • 由于人手问题,被强拉到一个报表项目。架构师用的是 clickhouse,后端开发就我一个。 前端和大数据开发各有一个人

    项目主要是从一堆数据中,加工出一堆报表展示到前端页面(柱状图、饼状图、桑基图、等等)。

    我这完全不知道怎么开展啊... 有做过类似项目的大佬,能指点下么?


    PS 说得不是很清楚 请见谅啊,完全不熟这种类型的项目;本来这个项目是找 BI 做的,BI 不做,强拉我进来。。

    26 回复  |  直到 2019-11-27 05:12:34 +08:00
    ra1983
        1
    ra1983   69 天前 via Android
    Tableau
    刚从 Las Vegas 的 TC19 回来
    pibicha
        2
    pibicha   69 天前
    @ra1983 膜拜....
    fancy111
        3
    fancy111   69 天前
    你到底是负责后端还是前端呢?后端好说啊,直接 API 数据出来,让他们处理。
    前端的话,赶紧拿起文档读吧,没别的方法。
    min
        4
    min   69 天前
    你这个后端负责数据部分么?
    guxingke
        5
    guxingke   69 天前
    https://superset.incubator.apache.org/

    参考这个搞一搞了, 这个已经支持了 clickhouse 做数据源了
    pibicha
        6
    pibicha   69 天前
    @min 对。。我后端处理数据,现在不知道咋“处理”
    pibicha
        7
    pibicha   69 天前
    @guxingke 感谢~~ 我瞅瞅
    lidongdongnk
        8
    lidongdongnk   69 天前   ♥ 1
    推荐 metabase,一个开源的 bi 系统,支持 clickHouse 做数据源
    写好查询语句,直接界面配置可视化就行了
    pibicha
        9
    pibicha   69 天前
    @lidongdongnk 好的好的,我瞅瞅,感谢。我之前看的是 kylin,要先构建 cube ;我对比一下哪个更适合我
    lidongdongnk
        10
    lidongdongnk   69 天前
    @pibicha kylin 我也用过,如果是做 bi,还是 metabase 更好一些,metabase 同时支持定时任务,可以设置一些条件自动发邮件给指定的人,其它的网页要引用图表也比较方便。上面有人推荐 tableau,这个功能更强一些,但是得付费
    zefpe2
        11
    zefpe2   69 天前
    @lidongdongnk 看了一下 metabase,好像并不支持 clickhouse 哎
    lidongdongnk
        12
    lidongdongnk   69 天前
    @zefpe2 肯定支持,我现在就在用,metabase 版本是 v0.34.0
    srlp
        13
    srlp   69 天前 via iPhone
    本人这边的理解(不保证完全正确,仅供参考):

    这里涉及到几个层面的概念:

    clickhouse 是一个“大数据的数据库”。

    kylin 一般是数据处理流程的一部分,用于加快计算流程的,不知道能否或是否必要和 clickhouse 结合使用,其中“构建 cube”的部分就是用于加速统计的(本质其实是预计算)。

    superset 是“前端”,就是提供给用户在已有数据集的情况下进行画图和搭建报表的部分。

    就楼主的情况而言,应该 5 楼所说的那样,clickhouse + superset,就能搭起一个普通用户能用的系统了。
    microcn
        14
    microcn   69 天前
    有钱直接 Tableau,没钱就 Echatrs 画起来。
    pwrliang
        15
    pwrliang   69 天前
    我在某公司数据部门,以架构的角度描述下吧。
    1. 数据抽取业务数据( mysql、kafka、日志等)入数据仓库( Hive ):这一步平抽,不作处理
    2. 数仓建模:将上一步的 Hive 表做一些加工、清洗、关联也就是 ETL (具体参考数仓建模)
    3. 搭建 OLAP DB (如 Presto、Impala、Kylin 等),用来查询第二步加工过的数据
    4. BI 应用(报表、图表等)拼 SQL,扔给第 3 步 OLAP DB 查询,然后将查询到的结果显示在页面上(可以自己开发也可以用开源的)
    pibicha
        16
    pibicha   69 天前
    @pwrliang 对,我这流程应该也是这样。1、2 步有数据分析师来做, 第 3 步搭建 olap 引擎已经有人做好了, 第 4 部 BI 拼 SQL,目前是让我来;然后查完数据给前端, 第 5 步前端用 echart 展示。

    问题是第 4 步拼 SQL, 我觉得是数据分析师来搞.......... 这种系统不会拼 SQL 的后端,要我有何用..
    pibicha
        17
    pibicha   69 天前
    @srlp 是的, 我这应该不用 superset 了。前端展示的时候有专门的前端工程师来搞。 后端只用 clickhouse 就行了。
    pibicha
        18
    pibicha   69 天前
    @microcn 好像用的就是 echart
    fireapp
        19
    fireapp   69 天前 via iPhone
    bi 平台有很多功能的,需要 web 跟前端来做
    1. 你得接入用户系统吧,权限管理之类的
    2. 数据展示有各种提前跑好的各种报表数据,得有分门别类目录菜单吧,还有简单的时间或其他维度过滤
    3. 即时查询的,也要根据各种数据类型,提供各个维度查询,在页面上就是各种下拉列表,选择框,输入框之类的,逻辑上就是拼 sql,总不能让客服啊,领导啊,运营啊直接写 sql 吧
    4. 用户自定义脚步啊,各种定时配置啊,然后把结果发邮件之类的
    5. 各种数据的提前预热啊,之类的太多了,就是一个以数据为主的后台系统
    pibicha
        20
    pibicha   69 天前
    @fireapp 感觉要变成做 BI 的了 o(╥﹏╥)o 但是我们有专门的 BI 平台啊 ╮(╯▽╰)╭ 心酸
    levelworm
        21
    levelworm   67 天前
    这不就是 BI 么?首先分析需求,就是看有啥报告要出的,然后 ETL 进数据库做数据仓库,最后接 Tableau 或者 Power BI 出报告。Clickhouse 不熟,也许能够直接拿来用?我记得它本身适合做 OLAP。

    Tableau 的话可能需要 ODBC Driver,Power BI 查了下应该也是如此。

    这活可是我梦想的活,可惜没机会做。
    levelworm
        22
    levelworm   67 天前
    DWH 的话 PostgreSQL 怎么样?这也是免费的,不过不知道你们数据量,以及原先存储在哪里。
    levelworm
        23
    levelworm   67 天前
    @fireapp 同意,基本上这种系统都是两部分,一部分是 Monitoring 性质的,直接做成 Dashboard,如果效率不够高就要想办法预先 aggregate 等等。还有一部分是 Analysis 性质,其实不应该是楼主管,其他部门应该有 BA/DA,但是需要楼主做好数据仓库,否则查询起来要死了。
    pibicha
        24
    pibicha   67 天前
    @levelworm 我可能真不是这个领域的。。。 除了 BI 和 ETL 其他都没看懂(实际上我之前连 BI 和 ETL 是啥都不知道)
    levelworm
        25
    levelworm   67 天前
    @pibicha 我也不是 BI 的,是 BA。。。不过经常和他们接触就是了。你要出报表的话,肯定有需求对吧,有了需求就知道大体上目前的数据行不行了。因为很多时候原始数据查询起来特别麻烦,效率很低,所以这时候就要做成 OLAP,然后再写查询,最后进可视化软件。但是具体怎么做我也不懂,而且我印象中 Clickhouse 本身就是 column-based,适合做数据仓库,所以弄不好不怎么需要处理?
    levelworm
        26
    levelworm   62 天前
    关于   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   948 人在线   最高记录 5168   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.3 · 32ms · UTC 18:50 · PVG 02:50 · LAX 10:50 · JFK 13:50
    ♥ Do have faith in what you're doing.