V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
gogobody
V2EX  ›  Python

请问做这样一个爬虫需要哪些知识?

  •  
  •   gogobody · 2017-09-18 20:30:44 +08:00 via Android · 4305 次点击
    这是一个创建于 2408 天前的主题,其中的信息可能已经有所发展或是发生改变。

    事情是这样的,最近学校里有很多知识竞赛,在网络上答题,想想是很简单麻( ̄∀ ̄) 大家可能都发现了,搜出来的问题有很多一模一样的原题。。。但是排在百度头条的基本都是什么资料网,上学吧这样的需要付费才能看答案的网站Ծ‸Ծ(知识不是共享的麻)其余什么文库里找到的好多都没有答案。。。于是萌生了这样的想法,买个一个月的会员,把这样网站上的题和答案爬下来。

    目前会的东西: python requests,xpath

    就是说我希望能够提高爬虫的性能,各位 v 友能不能知道一下进阶方法,推荐一些合适额爬虫 demo 或者推荐框架。 还有就是关于数据储存,有没有第三方网站适合来存储这样的数据呢?感谢各位(>ω<)

    17 条回复    2017-09-20 07:54:21 +08:00
    zgbgx1
        1
    zgbgx1  
       2017-09-18 21:58:46 +08:00
    你要速度和高性能 可以用 nosql 和 mq。
    但是 爬虫最重要的你要面对反爬虫,单个账号对于大多数网站来说,就算你使用代理,也会被封掉。
    a87150
        2
    a87150  
       2017-09-18 22:10:05 +08:00
    性能简单,multithreading 就行了,难的是反反爬虫。
    gogobody
        3
    gogobody  
    OP
       2017-09-18 23:35:16 +08:00 via Android
    @zgbgx1 斯国一,那假如先抛开这个问题。请问有没有能免费存取这样的键值对的数据的地方啊。感觉如果爬的话,我的阿里云学生机撑不住
    gogobody
        4
    gogobody  
    OP
       2017-09-18 23:36:14 +08:00 via Android
    @a87150 反爬虫有好的 ip 代理推荐吗😊
    ys0290
        5
    ys0290  
       2017-09-18 23:41:16 +08:00 via iPhone
    最近在爬美亚的数据,时间间隔都快接近人工访问了,结果爬了 2000 多页被亚马逊反机器人了
    gogobody
        6
    gogobody  
    OP
       2017-09-19 00:32:44 +08:00 via Android
    @ys0290 老哥稳啊,给点经验麻或者好的项目 demo 或者文章推荐
    changwei
        7
    changwei  
       2017-09-19 01:18:36 +08:00 via Android
    @gogobody 不至于空间不足的,现在哪个云主机会没有 20g 的数据盘。云硬盘其实挺便宜的(ー_ー)!!还有增加性能你就去学一学 queue 和 threading 库,把爬虫写成多线程的。
    xiaozizayang
        8
    xiaozizayang  
       2017-09-19 07:45:35 +08:00 via Android
    以写代码来看 这几个库足够了 github 爬虫框架一大把 分布式的 异步的 各种方便 但这并不代表你可以完成了这个项目 你需要了解目标网站的模拟登录以及爬虫限制
    zgbgx1
        9
    zgbgx1  
       2017-09-19 08:32:14 +08:00   ❤️ 1
    @gogobody https://github.com/luyishisi/Anti-Anti-Spider 这个项目里有专门的免费代理
    zjlin1984
        10
    zjlin1984  
       2017-09-19 08:53:04 +08:00
    有意思,支持。
    qq270755744
        11
    qq270755744  
       2017-09-19 08:53:59 +08:00 via Android
    百度文库怎么免费下载付费资源
    yuluofanchen
        12
    yuluofanchen  
       2017-09-19 09:50:59 +08:00
    @qq270755744 有个百度文库远程代下系统!
    gogobody
        13
    gogobody  
    OP
       2017-09-19 14:29:08 +08:00 via Android
    @changwei 好的,我来尝试一哈
    gogobody
        14
    gogobody  
    OP
       2017-09-19 14:29:38 +08:00 via Android
    @xiaozizayang 好的,感谢。我先尝试下。遇到问题再来
    qq270755744
        15
    qq270755744  
       2017-09-19 17:03:36 +08:00 via Android
    @yuluofanchen 没授权码 T_T
    Soar360
        16
    Soar360  
       2017-09-20 02:01:25 +08:00 via iPhone
    搭车时间又到了 代理 IP 站 https://proxy.coderbusy.com
    gogobody
        17
    gogobody  
    OP
       2017-09-20 07:54:21 +08:00 via Android
    @Soar360 蟹蟹!
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   3395 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 27ms · UTC 12:09 · PVG 20:09 · LAX 05:09 · JFK 08:09
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.