V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
dapengzhao
V2EX  ›  问与答

一个统计学问题

  •  1
     
  •   dapengzhao · 2020-05-26 15:18:04 +08:00 · 1373 次点击
    这是一个创建于 1645 天前的主题,其中的信息可能已经有所发展或是发生改变。

    经过采样得到这样一组数据[1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,2,2,3,5,6,14,45,67,88,99,123,1111,2343]

    这些数表示某件事情发生的次数,实际上这个数组长度是百万级别的。由于像 1,2,3 这种出现次数少的没有意义。所以要删除。现在问题是应该怎么样去找临界值。比如是应该把 10 以下的数不要了,还是把 100 以下的数不要。

    第 1 条附言  ·  2020-05-26 15:51:21 +08:00
    业务场景:寻找 ddos 攻击源。
    那些数字可以看成某一个 ip 发送的 syn 包的数量。
    真实数组中最小的只有 1,最大的 2400000 。
    其中小于 10 的占比超过 2/3 。

    所以问题就是找一个临界值,把多少一下的可以忽略。
    9 条回复    2020-05-27 10:32:47 +08:00
    wysnylc
        1
    wysnylc  
       2020-05-26 15:33:20 +08:00
    你的业务我们怎么知道?
    dolphintwo
        2
    dolphintwo  
       2020-05-26 15:36:11 +08:00
    我帮你决定吧,把一万一下的不要了,比较清爽
    andy12530
        3
    andy12530  
       2020-05-26 15:36:33 +08:00
    25 分位数,75 分位
    across
        4
    across  
       2020-05-26 15:40:49 +08:00
    条件是不是少了···
    比如你数字都在 10000 以内,直接建个数组统计一遍就得了
    black11black
        5
    black11black  
       2020-05-26 19:04:47 +08:00
    百万级远没到计算机性能瓶颈,问了白问,我感觉你这个问题改成百亿级还有点讨论的价值。。
    JackieMe
        6
    JackieMe  
       2020-05-26 21:31:50 +08:00 via Android
    找个分布拟合一下,泊松分布二项分布什么的,然后切掉最小的 5%?
    dbw9580
        7
    dbw9580  
       2020-05-26 21:58:52 +08:00 via Android
    时间序列?和滑动平均数比较
    Jooooooooo
        8
    Jooooooooo  
       2020-05-26 22:01:54 +08:00
    其实是找异常点, 建议你用四分法和 LOF 一起搞一下, 基本上就差不多了
    CopenhagenCat
        9
    CopenhagenCat  
       2020-05-27 10:32:47 +08:00
    四分位距 IQR,可以尝试一下
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3474 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 31ms · UTC 10:58 · PVG 18:58 · LAX 02:58 · JFK 05:58
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.