V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
equationl
V2EX  ›  Python

我爬取了我的 qq 空间 139 万说说数据做了一个年终盘点,但是总觉得分析的不知所云

  •  
  •   equationl · 2019-01-01 21:38:33 +08:00 · 5136 次点击
    这是一个创建于 2187 天前的主题,其中的信息可能已经有所发展或是发生改变。

    昨天花费了整整一天时间用前几天怕的空间说说数据做了这么一个盘点: 2018,年终,不过又是一个叉子

    这也不是我第一年尝试用这种方式做年终盘点了,前年我也写了这么一篇: 对 QQ 空间指定好友 2017 年说说数据的分析

    但是,总觉得自己分析完全不知所云,完全是在浪费数据,基本上就是在纯粹的罗列数据而已。

    我想问问各位 v2exer,我能否用这些数据分析出来一些有意思的东西呢?

    还有在分析类似数据时应该从哪一方面入手呢?

    第 1 条附言  ·  2019-01-01 22:56:31 +08:00
    我想补充一下抓取的数据内容,因为我发现似乎大佬们给的建议都是对说说内容进行分析。
    说说数据:

    说说所属 qq

    说说内容

    说说的回复数量

    说说的发表时间

    发表说说时的手机标志

    说说配图地址

    说说定位信息

    说说 id

    说说的点赞数

    说说的浏览量

    说说的转发量


    点赞数据:

    点赞者 qq

    点赞所属说说 id

    点赞者地址

    点赞者星座

    点赞者性别

    点赞者昵称



    回复数据

    回复者 qq 号

    回复所属说说

    回复内容

    回复时间

    回复者昵称

    二级回复的上级 id
    18 条回复    2019-01-02 18:39:37 +08:00
    VDimos
        1
    VDimos  
       2019-01-01 21:41:17 +08:00 via Android
    闷声发大财,你这是生怕腾讯不知道你爬了它数据吗
    jugelizi
        2
    jugelizi  
       2019-01-01 21:42:18 +08:00
    分词
    按时间维度 各个节日大家在说什么
    按性别 也可以分析热点什么的
    equationl
        3
    equationl  
    OP
       2019-01-01 21:49:06 +08:00
    @VDimos 嗯?怎么说?
    equationl
        4
    equationl  
    OP
       2019-01-01 21:51:34 +08:00
    @jugelizi 分词我使用 jieba 进行分词时发现高频词都是类似 一个、我们、自己 之类的“无意义”的词,是不是我使用方式不对?
    TimePPT
        5
    TimePPT  
       2019-01-01 21:56:33 +08:00 via iPhone
    @equationl 停用词,了解一下
    equationl
        6
    equationl  
    OP
       2019-01-01 22:03:56 +08:00 via Android
    @TimePPT 试过,效果不太理想
    TimePPT
        7
    TimePPT  
       2019-01-01 22:13:19 +08:00 via iPhone
    @equationl 停用词要自己按照需求做筛检的啊,「我们」这种一般都会在停用词表里被过滤的。
    equationl
        8
    equationl  
    OP
       2019-01-01 22:21:30 +08:00 via Android
    @TimePPT 嗯,其实我的做法是导出词频前 50 的词组,然后手动排除我认为没意义的词,然后我发现排除完后基本就不剩几个词了...
    我还是学习一下停用词的用法吧
    muhaocd
        9
    muhaocd  
       2019-01-01 22:29:02 +08:00
    只取形容词、动词、名词分别比较?算一下 tgi 指数?
    TimePPT
        10
    TimePPT  
       2019-01-01 22:42:25 +08:00 via Android
    equationl
        11
    equationl  
    OP
       2019-01-01 22:51:44 +08:00 via Android
    @TimePPT 好的,谢谢大佬~
    oyhw92
        12
    oyhw92  
       2019-01-01 23:47:40 +08:00 via iPhone
    分词可以筛选一下,分享的归一类消极的归一类,看看大家都是开心了发还是难过了发?
    envylee
        13
    envylee  
       2019-01-01 23:55:22 +08:00
    @VDimos 我也就好笑了,都是做发财梦做傻了吧,麻烦开口前分清楚什么叫「数据」什么叫「用户数据」好吧
    jookr
        14
    jookr  
       2019-01-02 01:11:17 +08:00
    以前我的 QQ 空间小偷程序因为很多关键词被机房掐了 N 次网线
    atonku
        15
    atonku  
       2019-01-02 09:02:45 +08:00
    你的空间里废话有点儿多哦
    equationl
        16
    equationl  
    OP
       2019-01-02 11:11:55 +08:00 via Android   ❤️ 1
    @atonku 怎么说? qq 空间不应该就是用来说废话的吗?
    atonku
        17
    atonku  
       2019-01-02 16:22:17 +08:00
    @equationl 我说错话了,QQ 空间确实是用来干这个的,我为我的措辞道歉
    equationl
        18
    equationl  
    OP
       2019-01-02 18:39:37 +08:00 via Android
    @atonku 额...没这么严重吧
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2615 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 05:17 · PVG 13:17 · LAX 21:17 · JFK 00:17
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.