V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
liushawn1999
V2EX  ›  程序员

大数据学习

  •  
  •   liushawn1999 · 2023-11-15 08:48:56 +08:00 · 3362 次点击
    这是一个创建于 371 天前的主题,其中的信息可能已经有所发展或是发生改变。
    有老哥从事大数据方面的工作吗?想了解一下这方面的就业情况,目前我刚学完 sql,目前在学习 pl/sql,感觉难度一步一步加大啊,后面还要学 python 这些,但是 python 不是我比较担心的东西,就是对前面学过的 sql 还不熟练,很多题还不会写,有老哥分享一下你的学习经验吗?
    31 条回复    2023-11-17 08:42:49 +08:00
    moyi97
        1
    moyi97  
       2023-11-15 08:56:59 +08:00
    大数据学习 pl/sql .... 这不是 Oracle 的工具吗, 目前来说,如果你要做平台开发,那就去看 java 和各个组件的调用吧.如果你要做数据开发,那就练 sql+学习各个组件(从存储到传输到计算到调度到 bi),然后就是模型设计方法论(其实就是建表) , 刚开始实习的时候是先学的 hadoop 一套, 然后学的模型方法论(比如阿里巴巴大数据之路,数据建模工具箱等) ,再之后就可能是各种其它组件的原理,使用等, 比如说 olap 数据库,多数据源传输工具,开源调度系统等等.
    以上仅代表个人观点,如有不妥请大佬指出
    qipan0321
        2
    qipan0321  
       2023-11-15 08:57:44 +08:00
    大数据已经凉了,市场上产品非常成熟。而且主要是 java(scala)生态,只有 flink 等少部分对 python 支持比较好。
    littleJohn
        3
    littleJohn  
       2023-11-15 09:39:02 +08:00
    数据开发 数据治理 数据分析 大数据平台开发 所需技术栈都不同
    quanqqqq
        4
    quanqqqq  
       2023-11-15 10:22:51 +08:00
    主要还是看你之后是算法方向还是数仓方向吧,数仓方向,就搞搞 hadoop 生态的那套东西,玩玩 hive 、spark 、hbase 啥的一些经典组件,有精力也可以玩玩一些比较新的类似于 Hudi 、Iceberg 啥的数据湖,当然一些数据治理、数据仓库的理论也是必须的,算法的话还是以 python 为主,pandas 、sckit-learn 、tensorflow 、pytorch 几个算法组件库得熟,也可以练练 spark ml 、flink ml
    Super8
        5
    Super8  
       2023-11-15 10:26:31 +08:00
    同上
    就个人感受来说,大数据行业近几年是非常沉寂不像 20 年左右那么火了,我所在城市是杭州,做大数据的公司有袋鼠云、奇点云、树澜科技等等算的是做大数据比较专业的企业,做的方向也是轻量 ETL 的业务系统研发,政府、企业项目偏多。做业务也是离线开发、在线开发、数据同步、数据安全开发、隐私计算等等。
    未来可能会有发展,毕竟 AIGC 目前正在快速发展,需要大量数据去训练模型。。。。。
    Super8
        6
    Super8  
       2023-11-15 10:28:36 +08:00
    当然使用技术也是 hadoop 全家桶那一套。。。hadoop ,hive ,spark ,pyspark ,hbase ,等等
    或者 flink 流式计算,其实都可以归结到在线离线的开发业务技术体系当中。
    HomeZane
        7
    HomeZane  
       2023-11-15 10:29:17 +08:00
    学 pl/sql 多多少少有点多余了

    Oracle 这个工具 除了 Sql 外,其他和大数据相关的一点关系没有呀
    purringpal
        8
    purringpal  
       2023-11-15 10:29:46 +08:00
    这方面你学个两三年应该还不如现在的 ChatGPT 水平,而且到时候它又上升都新的高度了。
    Xbluer
        9
    Xbluer  
       2023-11-15 10:33:19 +08:00
    liushawn1999
        10
    liushawn1999  
    OP
       2023-11-15 11:21:22 +08:00
    @littleJohn 是吗?这几个岗位薪资和工作内容有什么区别吗?另外,所需的技术栈是什么?新人小白入行适合其中哪个工作岗位?
    liushawn1999
        11
    liushawn1999  
    OP
       2023-11-15 11:22:13 +08:00
    @Super8 Hadoop 全家桶是吧,okok
    liushawn1999
        12
    liushawn1999  
    OP
       2023-11-15 11:22:54 +08:00
    @quanqqqq 算法方向可能不太适合我,这个有难度的,我就一普通二本,水平不太够
    liushawn1999
        13
    liushawn1999  
    OP
       2023-11-15 11:24:25 +08:00
    @Super8 没落的学科是吧,呜呜呜呜还能入行吗?^_^
    tensorzhang
        14
    tensorzhang  
       2023-11-15 11:32:15 +08:00
    现在入行大数据似乎已经晚了,工具很成熟了,而且大数据门槛没有很高,sql boy 和 sql girl 名不虚传。
    liushawn1999
        15
    liushawn1999  
    OP
       2023-11-15 11:42:01 +08:00
    @tensorzhang 那推荐入行哪个?Java 吗?
    kangkag0231
        16
    kangkag0231  
       2023-11-15 13:08:04 +08:00   ❤️ 1
    数据平台开发学学 Java ,算法 Python ,数仓基本就 SQL ,没必要 orcale 。
    kangkag0231
        17
    kangkag0231  
       2023-11-15 13:15:10 +08:00
    数仓理论国内就看那个大数据之路。计算框架基本就 flink 、spark 。成熟的公司基本都写 sql ,scala\python\java 不到 10%,平台开发另说。hadoop 全家桶实际会用就行,面试能过就没啥了
    abcfyk
        18
    abcfyk  
       2023-11-15 13:43:37 +08:00
    SQL 都觉得难的话,可能不适合干这行。

    可以看看 GitHub 上面这个 repo
    https://github.com/heibaiying/BigData-Notes
    gorillaL2sll
        19
    gorillaL2sll  
       2023-11-15 14:10:45 +08:00
    大数据已经凉了 现在 基本找不到工作 不是外包就是顶级的那种,中间级别已经没工作了
    fuckallmm
        20
    fuckallmm  
       2023-11-15 14:19:49 +08:00
    人家都跳出坑了,你还准备着往坑里跳。
    非要往这个行业里面挤么?
    妹子搞搞直播带货它不香么嘛?
    dif
        21
    dif  
       2023-11-15 14:31:03 +08:00   ❤️ 1
    大数据避免不了:Hadoop 生态( HDFS 、Hive 、Hbase 、Zookeeper...),Spark 全家桶,Flink ,消息队列(通常是 kafka )这些玩意面试必问,但实际工作中你可能一直在写 SQL ,建模型。 所以你可以把这些技术栈的视频先按着顺序看看。

    最后:建议,国内正儿八经的的大数据不是很多。很多公司都拿着几个 T 的数据当大数据玩,钱玩没了,故事讲不下去了就得裁撤,目前我身边很多搞大数据的失业以后再也找不到大数据相关的工作了(外包几百 G 大数据除外)。基本上是饱和状态。学习难度也挺大,涉猎也比较广(做大数据同时也要熟悉一点常用的算法、Java Web 开发、运维等等)。所以,建议谨慎选择。
    liushawn1999
        22
    liushawn1999  
    OP
       2023-11-15 19:15:11 +08:00
    @dif 好的了解了,感谢老哥
    liushawn1999
        23
    liushawn1999  
    OP
       2023-11-15 19:15:48 +08:00
    @fuckallmm 直播带货也没那么容易啊!^_^
    liushawn1999
        24
    liushawn1999  
    OP
       2023-11-15 19:20:42 +08:00
    @kangkag0231 大数据的学习路线大概是什么,技术栈主要是涉及哪些啊老哥?
    levelworm
        25
    levelworm  
       2023-11-15 19:29:27 +08:00 via Android
    @kangkag0231 求问一下数据平台开发具体指的是什么?如果学习 Java 的话,是直接学习那些库吗?还是算法?因为单纯学习基础语法的话感觉并不难,毕竟大学学过。
    sordidclown
        26
    sordidclown  
       2023-11-15 20:34:29 +08:00
    在小公司做类似的工作,实际上研究过后会发现这个东西很坑,除非专门做数据的公司,否则大公司内部这些都是分开,比如数据仓库是 DBA ,展示是前端,数据接收处理有后端,业务本身有项目经理。也就是上面老哥说的涉猎比较广,换句话说就是很难专精于一项,在小公司内部可能还有点用,到市面上又是另一回事了,当然能进专门做数据的公司可能会不一样。
    littleJohn
        27
    littleJohn  
       2023-11-16 10:51:09 +08:00
    能做业务吗?数据运营、数据分析 不要单纯技术
    liushawn1999
        28
    liushawn1999  
    OP
       2023-11-16 11:07:23 +08:00
    @littleJohn 好的好的,谢谢老哥
    liushawn1999
        29
    liushawn1999  
    OP
       2023-11-16 11:08:30 +08:00
    @sordidclown 那具体应该选择哪些岗位呢
    kangkag0231
        30
    kangkag0231  
       2023-11-16 21:12:33 +08:00
    @liushawn1999 @levelworm 我是做数仓的,对平台不了解不是特别深,结合自己工作经验说一下。
    比如有些公司会基于开源的计算引擎构建一个开发套件降低他人使用门槛,emmm 比如抄一个 dataworks 或者 TBDS ,这些就需要 web 方面的能力,熟悉组件 API ;
    有些公司对现有平台优化、集成的,比如 spark 集成 rss ,那就需要一些对源码改造能力;
    还有的就是组件调试、配置调优、监控、容灾。
    各个公司对平台开发定义不一样,主要还是看工作范围的。
    liushawn1999
        31
    liushawn1999  
    OP
       2023-11-17 08:42:49 +08:00
    @kangkag0231 哦哦,数仓感觉是大公司才会有的岗位吧,我感觉小公司只能做数据分析了
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3180 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 22ms · UTC 13:29 · PVG 21:29 · LAX 05:29 · JFK 08:29
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.