V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Geekerstar
V2EX  ›  数据库

数据分析、挖掘、大数据的问题请求大佬解答

  •  
  •   Geekerstar · 2021-10-29 14:04:56 +08:00 · 1513 次点击
    这是一个创建于 1119 天前的主题,其中的信息可能已经有所发展或是发生改变。

    有一个商品订单记录宽表,是经过多表清洗后形成的,每条数据以一条订单为维度,里面有几个重要的字段(下单人的年龄、性别、喜好、本次订单的购物商品),其中,商品是以 JSON 数组存储在单个字段中的。

    需求:基于这些字段,通过一些数据分析、挖掘等操作后,可以离线计算,形成一个对外提供的服务,支持以下功能: 1 、根据喜好推荐商品,判定依据需要来源于上述的数据。 2 、根据上述字段,输出一些统计分析的结论出来

    我不太懂大数据、数据分析挖掘相关的东西,想请教一下各位大佬,处理这个需求有没有什么适用的中间件或数据库,百度了一圈也不太清晰,如 Flink 、ClickHouse 、Neo4j 、ES 、Pandas 等等

    PS:上述的商品订单场景,是为了方便理解,举个类似例子,实际的场景是垂直行业,不太好描述😆

    9 条回复    2021-10-29 20:51:37 +08:00
    murmur
        1
    murmur  
       2021-10-29 14:07:28 +08:00
    你是做研究还是做生产,生产是不用这个算法的,直接给每个商品打 tag ,比如用户购买了化妆品,那么疯狂推荐化妆品就对了

    这就是现在各大电商平台的算法
    liprais
        2
    liprais  
       2021-10-29 14:14:22 +08:00
    你首先要解决的是人的特征是什么,商品的特征是什么
    人的特征 vs 商品的特征 怎么计算距离
    然后一个人来了找出他的特征计算跟他最近的商品的距离,这就是推荐给他的商品
    人的特征一般就是他的购买历史还有浏览商品啥的,反正整出来一个向量
    商品的特征一般都是跟他一块下单的别的商品,还有品类啥的,反正也整出来一个向量
    然后你就做逻辑回归训练完事
    Geekerstar
        3
    Geekerstar  
    OP
       2021-10-29 14:15:28 +08:00
    @murmur 感谢回复,商品订单是为了方便理解举的例子,实际不是这个场景
    murmur
        4
    murmur  
       2021-10-29 14:23:48 +08:00   ❤️ 2
    @Geekerstar 场景和论文是有区别的

    你会发现落地算法都是 tag 直接关联推荐,打 tag 比规则算法更重要

    你以为的关联规则是:鸡蛋 西红柿 菜刀 砧板 葱
    实际上购物推荐是:化妆品 化妆品 化妆品 化妆品 化妆品

    女性的消费能力太强了,直接可以影响算法决策

    抖音头条不一样,因为他所有的东西都是没意义,都是打发时间部分优劣,所以可以随便推送

    你既然是做产品,看一下竞品的规则是什么样就知道了
    ihehe
        5
    ihehe  
       2021-10-29 14:25:08 +08:00 via iPhone
    推荐很简单啊,哪用得上什么高深技术,随便搞个把 demo 方便以后吹水就行了
    用户搜索过,查看过,收藏过,购买过啥,就疯狂推这个东西给他😎。
    目前 99.9999%的大厂都这么做的
    czfy
        6
    czfy  
       2021-10-29 14:26:20 +08:00
    喜好和商品在实际场景里,需要 NLP 吗?还是能直接用数值指代
    Cheons
        7
    Cheons  
       2021-10-29 14:26:56 +08:00 via Android
    网购更多的情况是不满意再买一个🌚
    235777178
        8
    235777178  
       2021-10-29 17:18:29 +08:00
    协同过滤

    https://zhuanlan.zhihu.com/p/80069337

    推荐你要看量级,量级不大就标签,省心省人。
    zxCoder
        9
    zxCoder  
       2021-10-29 20:51:37 +08:00
    @murmur 太真实了。。。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1028 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 19:45 · PVG 03:45 · LAX 11:45 · JFK 14:45
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.