V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
miaoxu9999
V2EX  ›  Python

想要自学爬虫

  •  
  •   miaoxu9999 · 2016-09-17 10:25:21 +08:00 · 6176 次点击
    这是一个创建于 2981 天前的主题,其中的信息可能已经有所发展或是发生改变。

    最近开始看 python ,看到论坛里的大神们爬知乎等各种网站,求教程,

    21 条回复    2016-09-20 19:56:22 +08:00
    AozakiT
        1
    AozakiT  
       2016-09-17 10:30:32 +08:00
    google
    uyhyygyug1234
        2
    uyhyygyug1234  
       2016-09-17 10:31:06 +08:00
    不是有个手把手系列。。。
    TimePPT
        3
    TimePPT  
       2016-09-17 10:37:28 +08:00 via iPhone   ❤️ 12
    不建议一开始就学爬虫,如果仅仅是照猫画虎,会不求甚解,换个场景你就懵逼了。因为爬虫用到的不仅仅是 Python 的相关知识,还有包括 HTTP 请求,前端网页相关的知识。

    建议先学会了 Python 本身的语法,然后从简单的 request 开始,理解 Get Post 请求, HTTP 的请求 head body ,知道 UA 的原理,知道什么是 session cookies ,然后试着解析静态 HTML 结构,理解什么是父级子级,最后试着解析 JS 生成内容,理解怎么处理 AJax 请求。 response 中返回的 XML 和 JSON 格式数据的解析。最后再去看怎么挂代理,怎么分布式爬虫,规模爬取内容的数据清洗与入库。

    里面还涉及到七七八八,慢慢看吧……
    frankmdong
        4
    frankmdong  
       2016-09-17 10:40:32 +08:00
    GreatMartial
        5
    GreatMartial  
       2016-09-17 11:48:17 +08:00
    @TimePPT 正解,+1
    kingcos
        6
    kingcos  
       2016-09-17 12:44:52 +08:00 via iPhone
    看慕课网的视频?

    最近也在看,想爬点同学的证件照……(只是练练手。。)
    loading
        7
    loading  
       2016-09-17 12:48:23 +08:00 via Android
    至少要先看懂 html 和知道 cookie 和 session 再学
    wizardforcel
        8
    wizardforcel  
       2016-09-17 13:48:34 +08:00 via Android
    《图解 http 》+ requests 、 bs4 等库的文档。
    sola97
        9
    sola97  
       2016-09-17 16:23:18 +08:00   ❤️ 1
    我是从教务系统入手的..
    上乌云->找现成漏洞->得到管理员帐号->学 python->学 HTTP 协议->写自动登录->抓取学生信息->正则或 Xpath 解析->存数据库->抓证件照->部署服务器->写 php->做在线查询
    fahai
        10
    fahai  
       2016-09-17 16:24:07 +08:00   ❤️ 1
    @sola97 第一步就挂掉了,然后就没有然后了
    sola97
        11
    sola97  
       2016-09-17 16:29:13 +08:00
    @fahai 从整站镜像里找
    ila
        12
    ila  
       2016-09-17 17:38:52 +08:00 via Android
    找个简单的代码慢慢改,重要的是用 python3
    billion
        13
    billion  
       2016-09-17 20:55:18 +08:00   ❤️ 3
    我在极客学院讲《定向爬虫入门》系列课程,以下是课程链接:

    基本的正则表达式: http://www.jikexueyuan.com/course/777.html
    Python 单线程爬虫: http://www.jikexueyuan.com/course/821.html
    XPath 与多线程爬虫: http://www.jikexueyuan.com/course/902.html
    简单的模拟登录: http://www.jikexueyuan.com/course/995.html
    Scrapy 初探: http://www.jikexueyuan.com/course/1287.html
    MongoDB 与 Scrapy : http://www.jikexueyuan.com/course/1439.html
    Scrapy 与 Redis 入门: http://www.jikexueyuan.com/course/1556.html
    动态加载网页的爬取: http://www.jikexueyuan.com/course/1713.html

    以上课程基于 Python2 制作,以下课程基于 Python3 制作:

    验证码识别, Selenium ,各种反爬虫机制突破: http://www.jikexueyuan.com/zhiye/course/28.html?type=4

    目前正在做分布式爬虫的课程,很快就可以发布。
    slysly759
        14
    slysly759  
       2016-09-17 21:07:49 +08:00 via Android
    @billion 看到老师啦
    smilekung
        15
    smilekung  
       2016-09-17 21:29:11 +08:00
    python 搞爬虫是不是有传统啊,感觉新入门用 js 写爬虫超级方便啊
    greatghoul
        16
    greatghoul  
       2016-09-17 21:36:55 +08:00 via iPhone
    我就是一边学写爬虫,一边学习 py 的语法,相比干学知识点和语法,在用中学才是最棒的。
    binux
        17
    binux  
       2016-09-17 21:51:22 +08:00
    学会写网站,你就会爬了。
    peneazy
        18
    peneazy  
       2016-09-18 07:01:42 +08:00 via Android
    mark 一下
    brucedone
        19
    brucedone  
       2016-09-18 10:36:49 +08:00   ❤️ 1
    如果你想用 scrapy 呢,我写了很多教程:
    (1)分布式下的爬虫 Scrapy 应该如何做-安装
    (2)分布式下的爬虫 Scrapy 应该如何做-关于对 Scrapy 的反思和核心对象的介绍
    (3)分布式下的爬虫 Scrapy 应该如何做-递归爬取方式,数据输出方式以及数据库链接
    (4)分布式下的爬虫 Scrapy 应该如何做-规则自动爬取及命令行下传参
    (5)分布式下的爬虫 Scrapy 应该如何做-关于爬虫的调度机制与调度架构的构想
    (5.1)分布式下的爬虫 Scrapy 应该如何做-windows 下的 redis 的安装与配置
    (6)分布式下的爬虫 Scrapy 应该如何做-关于实时 Debug 的那些事儿
    (7)分布式下的爬虫 Scrapy 应该如何做-关于伪装和防 Ban 的那点事儿
    (8)分布式下的爬虫 Scrapy 应该如何做-图片下载(源码放送)
    (9)分布式下的爬虫 Scrapy 应该如何做-关于 ajax 抓取的处理(一)
    (10)分布式下的爬虫 Scrapy 应该如何做-关于动态内容 js 或者 ajax 处理(2)
    (11)分布式下的爬虫 Scrapy 应该如何做-关于 js 渲染环境 splash 的一些使用技巧总结
    (12)分布式下的爬虫 Scrapy 应该如何做-分布式的浅析
    (13)分布式下的爬虫 Scrapy 应该如何做-另一种分布式架构

    http://brucedone.com/archives/771

    我不建议新人一上手就学框架,你至少要弄懂基本的 html ,css,javascript, http 请求,正则或者 xpath,数据存储,语言基础。
    thisisx7
        20
    thisisx7  
       2016-09-18 11:38:27 +08:00
    首先是这是是你要的爬虫教程,比较系统,可以跟着一点一点学习。
    Python 网络爬虫系列教程, Python 中文社区出品 
    https://zhuanlan.zhihu.com/p/22476800

    顺带说下  Python 入门不一定从爬虫开始。
    http://www.liaoxuefeng.com/wiki/0014316089557264a6b348958f449949df42a6d3a2e542c000
    来自廖雪峰,很好的 Python 入门教程
    echonoff
        21
    echonoff  
       2016-09-20 19:56:22 +08:00
    完全可以依靠 google 。我就是把忘的差不多的 py 教程从头翻了一遍+自学爬虫+实现一个扒动漫图片的脚本,总共十天。还顺便学了 bs , re …… 从此对 python 路转粉=。= 记得多翻官方的文档
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1108 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 23:30 · PVG 07:30 · LAX 15:30 · JFK 18:30
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.