V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
twc731
V2EX  ›  问与答

关于爬虫建站的问题求各位大师解答下

  •  
  •   twc731 · 2015-12-05 12:38:05 +08:00 · 2171 次点击
    这是一个创建于 3275 天前的主题,其中的信息可能已经有所发展或是发生改变。

    python 爬虫爬到的数据存入 mysql 或者 mongodb ,然后用网页展示出来,那日积月累数据会不会存的太多。还有如果想爬直播的类的网站,然后做个直播聚合网站,那数据该怎么存储?因为正在直播播客每小时都不一样的,如何做到实时跟新?

    5 条回复    2015-12-07 16:49:54 +08:00
    LINAICAI
        1
    LINAICAI  
       2015-12-05 12:53:21 +08:00
    数据多,不是可以分页?
    数据怎么存储,要看你怎么组织网站内容。
    newghost
        2
    newghost  
       2015-12-05 16:30:59 +08:00
    股市牛博汇

    http://anynb.com/

    使用 redis 的自动聚合网站,就是要看看跑个一两年后整个网站的性能如何。
    Pepsigold
        3
    Pepsigold  
       2015-12-06 23:48:38 +08:00 via iPhone
    @newghost 不错,做研究?
    twc731
        4
    twc731  
    OP
       2015-12-07 08:48:15 +08:00
    @newghost 请问你怎么存储数据的?
    newghost
        5
    newghost  
       2015-12-07 16:49:54 +08:00
    @twc731
    @Pepsigold

    纯研究,用 redis 基本的数据结构,使用 redblade 自动创建索引

    https://github.com/newghost/redblade
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   931 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 21ms · UTC 20:37 · PVG 04:37 · LAX 12:37 · JFK 15:37
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.