V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
comsweetcs
V2EX  ›  程序员

看到一大波 Java 在转大数据,唯有我倒着走?

  •  5
     
  •   comsweetcs · 2020-11-16 14:22:07 +08:00 · 11202 次点击
    这是一个创建于 1497 天前的主题,其中的信息可能已经有所发展或是发生改变。

    前言

    越来越多的 Java 后端转来搞大数据了,只有我倒着走,要回去搞后端嘛? 个人感觉大数据开发真的没啥意思,最有意思和有价值的工作在于机器学习,奈何能力有限。 说下对于大数据开发我的看法,首先说下这个类别岗位的主要意义,然后谈下工种分类。

    大数据开发的价值

    大数据开发的价值个人认为主要是为了给机器学习提供数据服务支撑,通俗点说就是让搞机器学习的同学 能更好的利用数据,保证数据的丰富性、准确性。

    大数据开发的工种

    大数据开发在我看来主要分为两个工种,一个是搞平台化开发、一个是面向业务的数据仓库开发。

    • 平台化开发岗 主要负责数据的采集、数据的治理、保证数据落到数仓过程中数据质量、保证数据的易用、易查。 主要工作内容就是运维、搭建 Hadoop 这些大数据程序、编写少量的代码。
    • 数仓开发岗位 主要负责数据仓库的构建,像运营、产品、机器学习人员提供数据。主要工作内容就是写 SQL 、写脚本跑 SQL 。

    我的一些感悟

    • 可能我做得不够深,感觉前者和业务没多少关系,很容易陷入尴尬的局面,像个运维小哥。后者整天在撤 SQL,真是心累。
    • 大数据类的大多数工作对编码要求比较低,而且真有些代码也特别少。
    • 现在觉得还是后端开发有意思,却有一大波人要转来搞大数据。
    75 条回复    2022-12-26 15:12:28 +08:00
    agriphar
        1
    agriphar  
       2020-11-16 14:30:25 +08:00
    说得好
    那就转去搞机器学习嘛
    comsweetcs
        2
    comsweetcs  
    OP
       2020-11-16 14:31:20 +08:00
    @agriphar 能力有限,还是回去搞后端吧。
    agriphar
        3
    agriphar  
       2020-11-16 14:35:52 +08:00
    @comsweetcs
    也不见得,各有各的难点
    一大堆搞所谓机器学习的,写代码水平其实很一般,主要强在数学基础好(考研的时候猛刷一波题),通过考研等把学历刷上去光鲜一点
    对着吴恩达的课一顿猛干,也就慢慢上手了
    comsweetcs
        4
    comsweetcs  
    OP
       2020-11-16 14:39:09 +08:00
    @agriphar 我司搞机器学习的,都是 985,211.好几个北大,清华。感觉我们大数据就是给他们擦屁股的。我个人比较喜欢写代码。整天运维,搞 SQL 真是心累。
    FireFoxAhri
        5
    FireFoxAhri  
       2020-11-16 14:40:12 +08:00 via Android
    后端其实大多数也是 crud 吧
    OysterQAQ
        6
    OysterQAQ  
       2020-11-16 14:40:40 +08:00
    大部分大数据开发=分布式计算引擎的搭建和使用+SQL
    但是实际上高大上的都在你说的数据处理侧那边,用数据来做机器学习之类的
    OysterQAQ
        7
    OysterQAQ  
       2020-11-16 14:41:57 +08:00
    后端无非是业务牵扯更多一些,也就是熟悉库 不过范围比 Hadoop 那些东西小一些
    liprais
        8
    liprais  
       2020-11-16 14:42:03 +08:00
    你猜猜算法工程师们用的数据从哪里来
    comsweetcs
        9
    comsweetcs  
    OP
       2020-11-16 14:42:28 +08:00
    @OysterQAQ 是啊
    comsweetcs
        10
    comsweetcs  
    OP
       2020-11-16 14:43:38 +08:00
    @liprais 我之前搞数仓的,就是我们给的。。。给他们提供一个脚本工具,抽过去就是了。。。
    silentt
        11
    silentt  
       2020-11-16 14:44:04 +08:00   ❤️ 5
    现在搞大数据得已经沦落为 SQL boy 了,只有做机器学习的还听着高大上点,不过也有向 API boy 发展的趋势
    agriphar
        12
    agriphar  
       2020-11-16 14:44:34 +08:00
    @comsweetcs
    嗯,算法这一块儿,公司都特别看重学历,一般人你想搞也不给机会
    V 站经常讨论为啥要考研,这就是为啥考研的原因之一
    你考上了可以去搞算法,其他人只能帮你 CRUD 擦屁股
    liprais
        13
    liprais  
       2020-11-16 14:44:55 +08:00
    @comsweetcs 那还是果断劝退吧,反正也做不出来啥东西
    comsweetcs
        14
    comsweetcs  
    OP
       2020-11-16 14:45:48 +08:00
    @liprais 哈哈哈哈,唉。
    leafre
        15
    leafre  
       2020-11-16 15:08:19 +08:00
    围城
    Jooooooooo
        16
    Jooooooooo  
       2020-11-16 16:23:43 +08:00   ❤️ 24
    机器学习 - 调参 boy

    大数据 - SQL boy

    后端 - crud boy

    前端 - 切图 boy

    你自己选吧
    MinQ
        17
    MinQ  
       2020-11-16 16:32:35 +08:00
    说实话哪有那么多项目需要机器学习和算法的,大部分项目不都是 CRUD,最多量上来了考虑一下数据库读写扛不扛得住,加上 Redis 啥的。现在算法内卷的比后端严重多了,不是名校研究生+顶会论文人家都不一定看你一眼。
    wysnylc
        18
    wysnylc  
       2020-11-16 16:46:45 +08:00
    @silentt #11 大数据一个给机器学习打杂的之前被捧太高了,之后可能会被归并到机器学习
    机器学习就是纯粹的 API Boy 了,真能做到核心开发的我们接触不到
    ren2881971
        19
    ren2881971  
       2020-11-16 17:27:53 +08:00
    当 SQL boy 真的很烦。。。
    yeqizhang
        20
    yeqizhang  
       2020-11-16 18:00:29 +08:00
    大数据如果是去做中台 数仓之类的,没有好的机会就是 sql boyer,让我去处理那些杂乱的数据的话,我觉得极其无趣
    comsweetcs
        21
    comsweetcs  
    OP
       2020-11-16 18:00:37 +08:00
    @ren2881971 平台搭建好后就是运维 boy 和 sql boy 两类人
    comsweetcs
        22
    comsweetcs  
    OP
       2020-11-16 18:02:26 +08:00
    @yeqizhang 数仓基本上就是 SQL BOY
    outoftimeerror
        23
    outoftimeerror  
       2020-11-16 18:05:17 +08:00
    其实大数据做数仓挺好的,技术迭代慢,和业务比较近,再加上行业知识,中年危机没有其他技术岗位那么严重。
    comsweetcs
        24
    comsweetcs  
    OP
       2020-11-16 18:06:53 +08:00
    @MinQ 是的,因为算法确实值钱,导致很多人想扎堆进去。而且这玩意,人家清北的人已经建立起门槛,并不叫内卷,而是为了防止内卷。清北现在几乎垄断了国内一线大厂算法岗的内推渠道咯。
    comsweetcs
        25
    comsweetcs  
    OP
       2020-11-16 18:11:24 +08:00
    @outoftimeerror 要说业务把,还没有对应的后端清楚。要说技术吧,还没啥技术。中年危机慢,感觉只是进来做这个的人没那么多,一多起来,还不是一样。
    MinQ
        26
    MinQ  
       2020-11-16 18:46:37 +08:00
    @comsweetcs 算法能落地了才有可能值钱,落不了地的一律不值钱。每年顶会论文多如牛毛,但大部分都是水 paper,工业界参考更多的还是 FAAG 家发的论文,因为都有场景落地了。
    newmlp
        27
    newmlp  
       2020-11-16 19:14:40 +08:00
    主要是钱多吧
    wangyzj
        28
    wangyzj  
       2020-11-16 19:31:46 +08:00
    面向工资编程
    最近这几年大数据啥的给的的确多,岗位多,而且啥职位都需要懂大数据
    不过现在转是不是晚了点
    感觉这个财富密码要过去了
    oluoluo
        29
    oluoluo  
       2020-11-16 19:41:07 +08:00
    搞 k8s docker 那一套的是不是也算是运维。。
    comsweetcs
        30
    comsweetcs  
    OP
       2020-11-16 19:43:40 +08:00
    @oluoluo 哈哈哈哈。感觉那是妥妥的运维
    la2la
        31
    la2la  
       2020-11-16 19:45:58 +08:00
    刚面试到大数据岗位,看着大家吐槽突然没了信心,不过我不是后端转的而是 爬虫 -> python 数据开发 -> 大数据开发的路线 0.0
    comsweetcs
        32
    comsweetcs  
    OP
       2020-11-16 19:48:21 +08:00
    @la2la 加油加油。每个人环境不一样,我只是个人见解,不一定对阿。
    stevenhawking
        33
    stevenhawking  
       2020-11-16 19:49:00 +08:00
    Tenet
    ob
        34
    ob  
       2020-11-16 19:53:27 +08:00 via Android
    大数据工资普遍去后端高点。
    comsweetcs
        35
    comsweetcs  
    OP
       2020-11-16 20:05:18 +08:00
    @ob 对于小厂是这样。对于大厂其实几乎一个价,有时候后端还更高。
    abcbuzhiming
        36
    abcbuzhiming  
       2020-11-16 20:26:22 +08:00
    @comsweetcs 算法也正在卷,没看现在形容算法用的是算法“岗”了吗?
    outoftimeerror
        37
    outoftimeerror  
       2020-11-16 20:43:30 +08:00   ❤️ 1
    @comsweetcs 不知道互联网是什么行情,但是外企的话肯定是数仓比后端好,以我了解的快消为例,依赖电商平台和线下门店渠道,前后端开发基本上不怎么招人,但是因为国家禁止消费者数据传输到国外,数据分析数仓国内岗位还是挺多的。
    comsweetcs
        38
    comsweetcs  
    OP
       2020-11-16 20:47:25 +08:00
    @abcbuzhiming 哈哈哈哈哈哈,好吧。
    comsweetcs
        39
    comsweetcs  
    OP
       2020-11-16 20:56:01 +08:00
    @outoftimeerror 哈哈哈,那要是不看行情,你觉得哪个工作比较有意思。
    impl
        40
    impl  
       2020-11-16 21:45:34 +08:00 via iPad
    后端不需要写 sql 吗
    V3EXhayongma
        41
    V3EXhayongma  
       2020-11-16 21:53:40 +08:00
    @la2la 兄弟,python 搞大数据的岗位多吗?薪水怎样啊?
    zzzhen
        42
    zzzhen  
       2020-11-16 22:13:48 +08:00
    啊这
    zzzhen
        43
    zzzhen  
       2020-11-16 22:14:31 +08:00
    在转大数据,看到这个心里一凉。。。
    DamonLin
        44
    DamonLin  
       2020-11-16 22:30:35 +08:00
    我的同事之前就是学大数据的,跟我说大数据确实是 sql boy,不过人家原生的 sql 是写得真的 6
    comsweetcs
        45
    comsweetcs  
    OP
       2020-11-16 22:32:02 +08:00 via iPhone
    @DamonLin 😀sql boy,sql 再不 6,还岬啥饭
    Dragonphy
        46
    Dragonphy  
       2020-11-16 22:33:31 +08:00
    有没有具体的大数据开发岗啊,不会真主要内容是运维吧,我还不如去做 devops 呢
    comsweetcs
        47
    comsweetcs  
    OP
       2020-11-16 22:38:26 +08:00 via iPhone
    @Dragonphy 也有专门搞具体框架研究得,比如 HBase,要研究得很深,基本上就是 DBA……。这种一般大厂才养得起……。大多数职位就是我上面说的两种。
    dswyzx
        48
    dswyzx  
       2020-11-16 23:37:54 +08:00 via iPhone
    面向工资编程,就一目了然心无旁骛努力搬砖建设四个现代化
    neetrorschach
        49
    neetrorschach  
       2020-11-16 23:37:58 +08:00
    正在某鞋厂用 talend 做数据质量分析,快疯了。他们的 HBase 还老报错。
    comsweetcs
        50
    comsweetcs  
    OP
       2020-11-16 23:42:17 +08:00 via iPhone
    @neetrorschach 哈哈哈哈😂,那是真苦。
    comsweetcs
        51
    comsweetcs  
    OP
       2020-11-16 23:42:51 +08:00 via iPhone
    @dswyzx 那工资要是降了,你是不是要换岗咯😂
    mohulai
        52
    mohulai  
       2020-11-17 00:52:25 +08:00
    工作需要看过一段时间机器学习,挫败感很强,工作能做,可一想到要出类拔萃就要很强的数学功底,对我来说遥不可及,就很失落,没有做后端的那种动力。
    Rexxar
        53
    Rexxar  
       2020-11-17 00:57:53 +08:00
    @mohulai 看到那么多人西瓜书之类的数学原理讨论起来头头是道,我就知道我不是这块料。
    WalkingEraser
        54
    WalkingEraser  
       2020-11-17 01:28:39 +08:00 via Android
    游戏 boy 还想出来当 Java crud boy,有点围城啊
    dayeye2006199
        55
    dayeye2006199  
       2020-11-17 06:52:00 +08:00
    第一个平台开发总结的有点片面,有很多数据平台开发工程师其实是 infrastructure 工程师,魔改和部署各种开源工具,或者搭建自己的数据平台解决方案。例如,拓展数据查询引擎的功能,spark, presto,拓展和运营工作流 scheduler,搭建数据发现平台啊什么的。都是比较硬核的工程师工作。

    第二种其实有点像数据工程师 data engineer,的确 SQL 是主要技能了,可能还包括写一些 pipeline
    whasyt
        56
    whasyt  
       2020-11-17 10:32:09 +08:00
    大数据开发 = sql boy 坐实了,搭好框架就是 sql 脚本一把梭
    comsweetcs
        57
    comsweetcs  
    OP
       2020-11-17 11:00:56 +08:00 via iPhone
    @dayeye2006199 稳定了后还不是运维。我们公司搭建 kafka 的天天背着电脑,聚会都背着。警报电话一来,就得处理,你觉得这是运维吗😅
    wudalang123
        58
    wudalang123  
       2020-11-17 11:13:03 +08:00
    大数据现在赚钱啊, 什么赚钱搞什么,java 就是个工具,早晚会过时
    NerverLibis
        59
    NerverLibis  
       2020-11-17 14:28:46 +08:00
    来一起转运维,背着小书包,睡在恒温恒湿的机房,美滋滋摸鱼。
    fewok
        60
    fewok  
       2020-11-17 14:41:14 +08:00
    还有一个方案,我就打算去搞 golang,云原生去
    comsweetcs
        61
    comsweetcs  
    OP
       2020-11-17 14:58:05 +08:00
    @wudalang123 java 是一个生态,ok ?
    shijia
        62
    shijia  
       2020-11-17 17:07:42 +08:00
    写 SQL 的在这里 你看我签名
    yanzixuan
        63
    yanzixuan  
       2020-11-17 17:14:41 +08:00
    @la2la 最后搞大数据开发,还是要学 java/scala 才行。我的路线跟你差不多。。
    现在一边搞大数据,一边搞 curd 。。。
    yanzixuan
        64
    yanzixuan  
       2020-11-17 17:16:05 +08:00
    @comsweetcs 你们的 kafka 集群这么容易出问题?
    comsweetcs
        65
    comsweetcs  
    OP
       2020-11-17 17:55:58 +08:00
    @yanzixuan 不是容易出问题,是要时刻带着,一出问题要立即修复。我们搞金融的,你说呢,数据就是金钱。
    young1lin
        66
    young1lin  
       2020-11-18 11:16:46 +08:00
    上上个月刚写了个 UDAF 给别人用,还可以做大数据可视化开发啊,比如 CDH 那种
    comsweetcs
        67
    comsweetcs  
    OP
       2020-11-18 16:56:26 +08:00 via iPhone
    @young1lin 我司 UDF 几百个,这玩意又不是一直要写……基本上一个月能有一个就不错了……我都半年没加东西了
    young1lin
        68
    young1lin  
       2020-11-20 14:25:28 +08:00
    UDAF 不是 UDF,难度根本不在一个量级的
    comsweetcs
        69
    comsweetcs  
    OP
       2020-11-20 14:28:28 +08:00
    @young1lin 。。。又不是没 UDAF,我们统称 UDF 。能有多难,我不觉得。。。
    young1lin
        70
    young1lin  
       2020-11-21 15:47:59 +08:00
    @comsweetcs 你自己写过么?根据给你的公式写出对应的 UDAF
    comsweetcs
        71
    comsweetcs  
    OP
       2020-11-21 22:38:39 +08:00 via iPhone
    @young1lin ....我们的 Udf 项目都我负责的,我会没写过?
    young1lin
        72
    young1lin  
       2020-11-22 23:46:08 +08:00
    @comsweetcs 哦?那你还说你是 SQL Boy,不是还有其他的吗,你们用的什么大数据平台? CDH ?可以扩展优化扩展 CDH 啊
    leven87
        73
    leven87  
       2021-06-11 17:51:22 +08:00
    这是在大公司吧,只用做一块。 技术的乐趣不就在于不断的探索吗,最后做个架构师也好
    lin0kin
        74
    lin0kin  
       2021-08-25 17:39:04 +08:00
    挖一下, 请问有什么可以入门大数据的好的资源推荐吗? 看了一些, 感觉一般啊
    littleJohn
        75
    littleJohn  
       2022-12-26 15:12:28 +08:00
    @lin0kin 挖一下。求推荐~最近在玩 Hadoop 年后准备找工作了
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   6025 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 47ms · UTC 02:06 · PVG 10:06 · LAX 18:06 · JFK 21:06
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.