V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
这是一个专门讨论 idea 的地方。

每个人的时间,资源是有限的,有的时候你或许能够想到很多 idea,但是由于现实的限制,却并不是所有的 idea 都能够成为现实。

那这个时候,不妨可以把那些 idea 分享出来,启发别人。
l890908
V2EX  ›  奇思妙想

有没有搜集过人们的聊天记录做数据分析??

  •  1
     
  •   l890908 · 2020-08-09 19:41:10 +08:00 via iPhone · 5542 次点击
    这是一个创建于 1594 天前的主题,其中的信息可能已经有所发展或是发生改变。
    比如搜集个几百万聊天记录,从而统计分析出网络聊天中人们最常用的词汇,表达方式书写习惯什么的?
    33 条回复    2020-08-18 11:02:15 +08:00
    kaiki
        1
    kaiki  
       2020-08-09 19:46:50 +08:00
    这种东西你做了会说出来吗?不会有人质疑你隐私安全问题?
    em70
        2
    em70  
       2020-08-09 19:55:56 +08:00
    啥都不用分析,能删掉敏感信息,把这么大量的聊天记录建库建索引,已经是个很有价值的语料库了,开放出去,会有五花八门的应用
    l890908
        3
    l890908  
    OP
       2020-08-09 20:08:22 +08:00 via iPhone
    @kaiki 没有什么问题啊,我现在去各种群搜集记录分析也可以的啊,提取说的话而已,不存在隐私安全问题
    l890908
        4
    l890908  
    OP
       2020-08-09 20:09:05 +08:00 via iPhone
    @em70 是,就是这个意思,市面上有没有相关的资源?
    wpblank
        5
    wpblank  
       2020-08-09 20:13:04 +08:00 via iPhone
    哈哈哈 我还真收集过,只是一直没来得及也不会分析。
    raaaaaar
        6
    raaaaaar  
       2020-08-09 20:58:56 +08:00 via Android   ❤️ 1
    你猜输入法的云补全,云推荐的那些词语频率是怎么来的。
    agagega
        7
    agagega  
       2020-08-09 21:36:24 +08:00 via iPhone
    往黑暗了想,可以收集各种论坛微博上的嘴臭数据,做出一个终极祖安对线机器人
    wxb2dyj
        8
    wxb2dyj  
       2020-08-09 21:36:42 +08:00 via iPhone   ❤️ 3
    @l890908 你怎么想的,怎么可能没问题?你把个人隐私当 shit 吗?
    Mogugugugu
        9
    Mogugugugu  
       2020-08-09 22:02:40 +08:00
    有、有个群的群主用小号机器人记录了所有的聊天记录,然后生成了词云。
    WebKit
        10
    WebKit  
       2020-08-09 22:15:30 +08:00 via Android
    有啊,之前群机器人就有记录功能
    yingqi7
        11
    yingqi7  
       2020-08-09 22:22:13 +08:00
    输入法不就干这个事,你要说他不分析过谁信
    l890908
        12
    l890908  
    OP
       2020-08-09 22:24:19 +08:00 via iPhone
    @wxb2dyj 我在 qq 群里把聊天记录复制下来做数据分析侵犯了什么隐私?愿闻其详
    lithiumii
        13
    lithiumii  
       2020-08-09 22:30:38 +08:00 via Android
    腾讯好像公布过微信聊天最常用的 emoji 之类的
    x86
        14
    x86  
       2020-08-09 22:55:00 +08:00 via iPhone
    @Mogugugugu 罗磊?我印象里他写过他的 tg 群做过这个操作
    em70
        15
    em70  
       2020-08-09 23:06:36 +08:00
    @l890908 这个数据只能在腾讯,搜狗手上,他们不会放出来的
    locoz
        16
    locoz  
       2020-08-09 23:41:28 +08:00 via Android
    以前干过这种事,结果分析完某群之后发现出现最多的词是:爸爸、管理员、牛逼…
    laminux29
        17
    laminux29  
       2020-08-09 23:41:43 +08:00   ❤️ 1
    1.国外的 IM 类 APP 会收集用户聊天记录,主要用于广告与商业活动。

    2.国外的 IM 类 APP,还会被国外的 FBI 以及国外的 zf 机构,要求收集用户聊天记录,用于备案与查询。

    3.国外的商业类 APP 会想方设法收集用户设备的剪切板与文件,主要也是用于广告与商业活动。

    4.国外很多商业场所、公司、zf 机构,会被要求安装监控与存储设备,来拦截用户的上网记录、聊天记录,并且保存 3 个月至半年。
    dioxide
        18
    dioxide  
       2020-08-10 00:01:23 +08:00
    @laminux29, 而且他们还对外声称: “我们十分注重用户隐私,绝不会.......”
    Perry
        19
    Perry  
       2020-08-10 00:12:13 +08:00 via iPhone   ❤️ 2
    散了散了,原来楼主只会收集群消息。黑产加群玩这个多少年了,楼主不知道?
    grazie
        20
    grazie  
       2020-08-10 05:37:54 +08:00 via Android
    @laminux29 选 signal 就完事了,让 fb 系滚蛋(
    jinliming2
        21
    jinliming2  
       2020-08-10 06:16:27 +08:00 via iPhone   ❤️ 1
    @laminux29 #17 自信点,把“国外的”三个字去掉,全世界的都是一样的。
    区别在于一个明目张胆,甚至写进管理条例。另一个总是私下干,很难拿出证据,要是被抓住了,也就罚上几个亿然后继续……
    XA
        22
    XA  
       2020-08-10 07:44:11 +08:00 via Android
    常用词汇汇总的确有,tg 上有些 bot 可以做到
    wanwaneryide
        23
    wanwaneryide  
       2020-08-10 08:53:36 +08:00
    搜狗的不全功能
    1rookie1
        24
    1rookie1  
       2020-08-10 10:08:16 +08:00
    建议你看一下新的民法典,你这样怕是要进去吃饭
    abc635073826
        25
    abc635073826  
       2020-08-10 10:50:02 +08:00
    哈?所有的聊天工具不都是么
    ShareManT
        26
    ShareManT  
       2020-08-10 21:36:51 +08:00
    大学的时候做了舆情分析系统,确实能够做到有效管控
    noobalex
        27
    noobalex  
       2020-08-11 15:38:23 +08:00
    楼主是百度的员工吧,得 Robin Li 亲传
    xiangbohua
        28
    xiangbohua  
       2020-08-12 16:52:23 +08:00
    你上哪搜集呢?聊天记录我理解的就是微信、QQ 、或者私信这种,这也能抓取?
    mikiDD
        29
    mikiDD  
       2020-08-13 09:12:11 +08:00
    我能定时自动获取 pc 登陆微信的所有聊天记录,不知道有啥用
    hsk9044
        30
    hsk9044  
       2020-08-13 09:57:34 +08:00
    我记得有一年 qq 不就出了一个年度表情统计, 后来因为涉及监控隐私的问题不就没下文了
    Sasasu
        31
    Sasasu  
       2020-08-14 20:11:58 +08:00
    我有 1.1G 我自己的纯文本聊天记录,可以不分词全文检索。

    运行正则的情况下需要 10 秒钟就可以检索一次,PMR 盘。

    曾经以为很有用,实际发现没啥软用
    pkoukk
        32
    pkoukk  
       2020-08-17 10:32:21 +08:00
    QQ 群?最近玩手游加了几个游戏群,从来没说过话,结果经常接到手游顾问电话,美女小妹加 QQ 。
    你的这种应用还是太简单幼稚了.....更何况其实群里活跃的一般就那几个水比,天天就是复读机和表情包,实在没有什么价值。
    要是能获得一对一的聊天数据,那还有点营养...
    touno
        33
    touno  
       2020-08-18 11:02:15 +08:00
    基本上做聊天软件的都在做这事。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2740 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 02:14 · PVG 10:14 · LAX 18:14 · JFK 21:14
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.