V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
awolfly9
V2EX  ›  Python

[开源] 分布式抓取京东商城商品评价信息然后进行数据分析,附 iphone7 36 万条评价信息分析结果展示

  •  5
     
  •   awolfly9 · 2017-05-10 14:12:07 +08:00 · 6321 次点击
    这是一个创建于 2746 天前的主题,其中的信息可能已经有所发展或是发生改变。

    附上使用地址:
    体验地址:http://awolfly9.com/jd/
    体验示例地址:http://awolfly9.com/article/jd_comment_analysis

    github:https://github.com/awolfly9/jd_analysis

    快速、全面、高提炼度和高对比度的京东商城评价信息数据分析

    • 生成好评的词云,并且获取关键字
    • 生成中评的词云,并且获取关键字
    • 生成差评的词云,并且获取关键字
    • 分析购买该商品不同颜色的比例,生成柱状图
    • 分析购买该商品不同配置的比例,生成柱状图
    • 评论购买该商品的 24 小时占比
    • 分析该商品的销售数量和评论数量和时间的关系,生成时间则线图
    • 分析该商品不同省份购买的的比例,生成柱状图
    • 分析该商品不同渠道的销售比例,生成柱状图
    • 分析该商品 PC/移动购买比例
    • 分析京东购买该商品的用户等级分布
    • 分析购买商品后写下评论的时间

    京东 iPhone7 36 万条评价信息分析结果展示

    http://awolfly9.com/jd/full_result/3995645

    附上几张 iphone7 36 万条评价信息分析后的效果图

    43 条回复    2017-05-18 11:43:40 +08:00
    jobtesting
        1
    jobtesting  
       2017-05-10 14:30:49 +08:00
    可以啊。大数据收集起来可以做电商热度智能推荐呢,类似 SMZDM
    awolfly9
        2
    awolfly9  
    OP
       2017-05-10 14:35:30 +08:00
    @jobtesting 目前项目已经开源,欢迎尝试使用
    moishalo
        3
    moishalo  
       2017-05-10 14:46:21 +08:00
    顶起. 可以针对商品, 客户群, 销售等多种角度分析. 很不错啊.
    awolfly9
        4
    awolfly9  
    OP
       2017-05-10 14:48:06 +08:00
    @moishalo 谢谢。欢迎使用,也欢迎加入微信群一起聊一聊
    hemoely
        5
    hemoely  
       2017-05-10 16:29:09 +08:00
    牛逼的不行,我曾经有过这个想法但是实践能力比楼主差太多了
    cxyfreedom
        6
    cxyfreedom  
       2017-05-10 16:33:46 +08:00
    感觉不错,可以参照这个去其他网站试试,有点点瑕疵可能就是柱状图数据多的话太密集了,基本看不清数值了
    lawyi
        7
    lawyi  
       2017-05-10 17:10:39 +08:00
    666,感谢分享
    awolfly9
        8
    awolfly9  
    OP
       2017-05-10 17:20:22 +08:00
    @hemoely 可以阅读我的代码


    @cxyfreedom 能否说说你测试的是那个商品。我优化一下。

    @lawyi 谢谢。
    cxyfreedom
        9
    cxyfreedom  
       2017-05-10 17:26:52 +08:00
    @awolfly9 因为是随机选的一个,也是我的失误,没留下链接。图表的话就是那张不同配置购买数量关系图
    undeflife
        10
    undeflife  
       2017-05-10 17:40:02 +08:00
    前三位回复的是不是楼主的朋友? 口气实在很想常见的托....

    没有恶意哈 只是你给的链接等了半天出来的是 Server Error (500)
    awolfly9
        11
    awolfly9  
    OP
       2017-05-10 17:51:21 +08:00
    @undeflife 我这里能访问的。我也想找拖,可是有必要?
    sunwei0325
        12
    sunwei0325  
       2017-05-10 18:35:58 +08:00
    感谢楼主, 请问是否兼容 Python3? 还是因为某个组件强制要求 Python2 呢?
    fuxkcsdn
        13
    fuxkcsdn  
       2017-05-10 19:07:37 +08:00 via iPhone
    支持代理池吗?
    awolfly9
        14
    awolfly9  
    OP
       2017-05-10 19:22:22 +08:00
    @fuxkcsdn 支持的。代码里面可以设置是否使用代理。具体代理池可以参考我之前的开源项目: https://github.com/awolfly9/IPProxyTool
    awolfly9
        15
    awolfly9  
    OP
       2017-05-10 19:23:05 +08:00
    @sunwei0325 目前只支持 python2。因为我的所有开发都是在 python2 上。以后会迁移到 python3.
    zzcchh
        16
    zzcchh  
       2017-05-10 19:28:13 +08:00
    wordcloud 的输出实在太丑, 我用这个 https://www.jasondavies.com/wordcloud/看起来能清爽一些
    awolfly9
        17
    awolfly9  
    OP
       2017-05-10 19:54:14 +08:00
    @zzcchh 谢谢推荐,我试试你说的这个
    banks0913
        18
    banks0913  
       2017-05-10 20:10:00 +08:00
    楼主厉害了!争取今年之内我也能像楼主一样自己能捣鼓出类似的东西
    ixinshang
        19
    ixinshang  
       2017-05-10 20:19:38 +08:00 via Android
    牛逼
    moose123
        20
    moose123  
       2017-05-10 21:08:00 +08:00
    这些评价信息能做啥呢?
    nyanyh
        21
    nyanyh  
       2017-05-10 21:10:35 +08:00
    之前在站里看过一个抓了 100W 内衣数据进行分析的帖子
    awolfly9
        22
    awolfly9  
    OP
       2017-05-10 21:27:28 +08:00
    @nyanyh 我也看到过

    @moose123 可以对数据进行可视化分析
    awolfly9
        23
    awolfly9  
    OP
       2017-05-10 21:51:42 +08:00
    @undeflife 忘记了问最重要的问题。 你访问是那个链接?用的是是浏览器打开,出现的错误是什么?
    s609926202
        24
    s609926202  
       2017-05-10 21:53:36 +08:00
    @undeflife 首先你得翻墙。。
    vjnjc
        25
    vjnjc  
       2017-05-10 22:08:31 +08:00
    好评!!!真好在买东西就试了一下,因为是三方卖家不是很放心,现在感觉至少没有刷评价的。给这个作者💯!!!
    billie
        26
    billie  
       2017-05-10 22:16:16 +08:00 via Android
    牛逼,已收藏
    fisher335
        27
    fisher335  
       2017-05-11 08:33:38 +08:00 via iPhone
    想办法和你的微信机器人结合一下
    ,可能效果更好
    likeshu
        28
    likeshu  
       2017-05-11 09:40:39 +08:00
    感谢,已收藏。
    bozong
        29
    bozong  
       2017-05-11 10:13:34 +08:00
    NB
    q397064399
        30
    q397064399  
       2017-05-11 11:29:53 +08:00
    💯
    oop99
        31
    oop99  
       2017-05-11 12:19:04 +08:00
    666, NB, mark
    show8salary
        32
    show8salary  
       2017-05-11 13:05:12 +08:00
    碉堡了§
    undeflife
        33
    undeflife  
       2017-05-11 13:25:48 +08:00   ❤️ 1
    @awolfly9 chrome 呀 大概过了一会儿之后再开 就可以开了 当时不管翻墙不翻墙都出不来 黑体的几个大字 Server Error (500)
    awolfly9
        34
    awolfly9  
    OP
       2017-05-11 16:35:12 +08:00
    @fisher335 好想法。如果你又可行的想法请告诉我。
    awolfly9
        35
    awolfly9  
    OP
       2017-05-11 16:35:47 +08:00
    @undeflife 好的。谢谢你。我再测试测试。
    lawyi
        36
    lawyi  
       2017-05-11 16:37:42 +08:00
    报错 表不存在 是创建表失败了嘛。。。
    awolfly9
        37
    awolfly9  
    OP
       2017-05-11 16:43:26 +08:00
    @lawyi 可能是数据库版本问题,昨天一个哥们说过。你关注下日志。日志在 log/id.log。
    lawyi
        38
    lawyi  
       2017-05-11 16:58:06 +08:00
    @awolfly9 感谢,看日志 找到原因了,是我的数据库版本太低了
    awolfly9
        39
    awolfly9  
    OP
       2017-05-11 18:02:57 +08:00
    @lawyi 好的。运行愉快
    awolfly9
        40
    awolfly9  
    OP
       2017-05-12 09:58:58 +08:00
    @lawyi 你在生成图表的时候没有遇到字体问题吗?
    lawyi
        41
    lawyi  
       2017-05-12 12:35:41 +08:00
    @awolfly9 有遇到
    awolfly9
        42
    awolfly9  
    OP
       2017-05-12 14:24:08 +08:00
    @lawyi 能不能接个图,或者说一下你怎么解决的。我忘记写在 README 中了。
    Jessss
        43
    Jessss  
       2017-05-18 11:43:40 +08:00
    好厉害,先收藏了,回头好好学习
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1038 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 19:44 · PVG 03:44 · LAX 11:44 · JFK 14:44
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.