V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
gladuo
V2EX  ›  Python

关于下载豆瓣书籍数据的问题

  •  
  •   gladuo · 2016-03-29 22:24:11 +08:00 · 2219 次点击
    这是一个创建于 3180 天前的主题,其中的信息可能已经有所发展或是发生改变。

    大约已经有很多人做过这个事情了,然而这是我们的课程设计。

    1. 我们只需要爬 metadata 就是 作者,简介,目录 blabla 豆瓣确实有这个 api ,然而当然也有限制,约 1.5k 次后就会 403 一段时间(还没尝试是多久)。
    2. 我们的要求是(似乎是?)建立一个小型图书索引系统的感觉(没错,老师的意思是要先把书籍信息 down 下来方便再做事情,不能实时调 api ),目前大概思路是按 isbn 来调 api , isbn 13 位,中文前 4 位是 9787 ,最后一位校验码,所以应该还有 10^9 的空间要调用,感觉要是不限制还没有很恐怖,但是现在感觉有点麻烦,(唔,学校在一个地方上网老是给你同一个 ip ,似乎是和 mac 绑了,所以不能像家里一样断开重连获取 ip )。

    现在的问题是:

    1. 有没有人做过类似的事情求经验或者数据啊啊啊~
    2. 枚举的姿势不大对?应该遵循 80-20 先去 down 畅销书?爬下来?
    3. 用 do 或者 vultr 的 api 建好多 instance 来换 ip ?

    求经验啦!蟹蟹!

    6 条回复    2016-04-01 17:48:48 +08:00
    zhy0216
        1
    zhy0216  
       2016-03-29 22:49:24 +08:00 via iPhone
    我看到有地方有卖这个数据

    自己做可能要挂代理
    找分享代理的网站 然后每隔一段时间换?
    undeflife
        2
    undeflife  
       2016-03-29 22:52:46 +08:00
    觉得这课程设计有问题,连目的就没有就先爬人家的数据?
    maooyer
        3
    maooyer  
       2016-03-29 23:00:37 +08:00
    1. 一月份的抓过一次电影,通过遍历热门标签下的电影就抓了 15w
    2. 没有必要枚举吧,可以从图书的标签,相关图书,相关豆列着手。应该能覆盖大部分图书。
    3. 控制频率,添加代理,慢慢抓就好了
    UnisandK
        4
    UnisandK  
       2016-03-29 23:08:01 +08:00
    cai72738
        5
    cai72738  
       2016-03-30 21:02:27 +08:00
    我大三,最近也在想课程设计的事,也打算爬豆瓣。突然觉得豆瓣好可怜。
    gladuo
        6
    gladuo  
    OP
       2016-04-01 17:48:48 +08:00
    回复一句,我没仔细测,只是大概试了个数,但是豆瓣 api ,每工作一段时间随机休息 10-40s ,我这是不再被限制的,但是休息 5-10s ,还是会被限制,提供大家参考。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   870 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 21:42 · PVG 05:42 · LAX 13:42 · JFK 16:42
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.