V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
xiaozaiziwyt
V2EX  ›  Python

有什么关于爬虫比较好的入门教程吗?

  •  
  •   xiaozaiziwyt · 2019-02-27 17:04:45 +08:00 · 4780 次点击
    这是一个创建于 2129 天前的主题,其中的信息可能已经有所发展或是发生改变。
    某东上看了一些比较火的爬虫实战的书,发现不是一堆安装就是教程过时……
    看得我是各种头疼,浪费生命。
    有没有新一些的,可操作性强的呀。
    新手入门求推荐。。。
    39 条回复    2020-10-06 08:01:11 +08:00
    huruwo
        1
    huruwo  
       2019-02-27 17:20:11 +08:00
    开发环境的安装过程是必须的,你要是已经安装了就跳过前几章不就行了吗。
    xiaozaiziwyt
        2
    xiaozaiziwyt  
    OP
       2019-02-27 17:26:48 +08:00
    @huruwo 其实环境已经安装好了,我的意思是资料有些过时了,好多代码跑不起来……
    redglede
        3
    redglede  
       2019-02-27 17:28:54 +08:00 via Android
    视频网课不好吗
    BlackPineappo
        4
    BlackPineappo  
       2019-02-27 17:31:18 +08:00
    掘金和简书上有很多
    dongya
        5
    dongya  
       2019-02-27 17:32:57 +08:00
    直接写, 不用看教程,
    dongya
        6
    dongya  
       2019-02-27 17:33:13 +08:00
    @dongya 不用看教材
    Cooky
        7
    Cooky  
       2019-02-27 17:43:18 +08:00 via Android
    request + beautifulsoup 不用学直接裸写
    xkeyideal
        8
    xkeyideal  
       2019-02-27 17:54:27 +08:00   ❤️ 1
    楼主是不是认为爬虫就是将别人的接口数据或网页获取后进行解析?

    如果是,那么按照 @dongya 说的,不需要看教程,直接写,用到什么包就去找,或者自己撸即可,没有多少技术含量可言

    真正的爬虫,应该是如何破解别人的防爬程序,图片验证码破解,js、浏览器,代理等

    各类爬虫实战的书籍都是教你,怎么分布式,如何高性能,哪哪个库解析会比较不错,连个怎么挂代理都不教你,别人服务从源头上把你访问量掐死,这些有啥用? 还不如去 github 上找些相关的开源项目源码看看呢

    一流爬虫是从防爬根源解决问题
    二流爬虫是用某些 js 和无头浏览器解决问题
    不入流爬虫是写个代码强搞,并发不控制,代理也不挂,拿别人当傻子
    aaa5838769
        9
    aaa5838769  
       2019-02-27 17:57:26 +08:00
    request + beautifulsoup
    xiaozaiziwyt
        10
    xiaozaiziwyt  
    OP
       2019-02-27 17:59:27 +08:00
    @redglede 例如哪些呢?没了解过网课这些……
    xiaozaiziwyt
        11
    xiaozaiziwyt  
    OP
       2019-02-27 18:01:11 +08:00
    @BlackPineappo 感觉有些零散,有没有相对系统一些的
    xiaozaiziwyt
        12
    xiaozaiziwyt  
    OP
       2019-02-27 18:02:28 +08:00
    @xkeyideal 刚开始接触,基本没有什么技术可言,想一点一点来……
    Outliver0
        13
    Outliver0  
       2019-02-27 18:08:00 +08:00
    github 上找代码看,然后自己写
    CFO
        14
    CFO  
       2019-02-27 20:15:58 +08:00 via Android
    拿起 scrapy 的文档就是一把梭
    redglede
        15
    redglede  
       2019-02-27 20:44:30 +08:00 via Android
    @xiaozaiziwyt MOOC 上有个北京理工大学的爬虫课程,你去搜
    Ehco1996
        16
    Ehco1996  
       2019-02-27 21:50:43 +08:00 via iPhone
    BlackPineappo
        17
    BlackPineappo  
       2019-02-28 08:46:19 +08:00
    @xiaozaiziwyt 《 Python 爬虫开发与项目实战》
    kblacksheep
        18
    kblacksheep  
       2019-02-28 09:35:48 +08:00
    崔庆才那本爬虫教程还不错的
    a226679594
        19
    a226679594  
       2019-02-28 10:08:38 +08:00
    github
    xpresslink
        20
    xpresslink  
       2019-02-28 10:13:34 +08:00   ❤️ 1
    基本上不用看书,主要依赖于你的综合性基础。

    先学一下 Python 语言基础,达到中级水平,正则表达式,常用标准库掌握了,特别是多线程,协程等还有相关的标准库要撸过练习代码。

    数据库 Mysql,mongoDB,redis 基础操作都要会。

    建设楼主先学一下 web 开发,你先要会 web 服务器是怎么工作的原理。推荐 flask 或 Django,建议 flask 吧,因为那个 sqlalchemy 是个通用 ORM,后面爬虫也常用到。
    HTML,JS+Ajax,CSS 很熟悉。
    HTTP 协议,Session,cookie,header 明白怎么回事。
    前后端是如何交互的,用户登录安全验证等都要明白。

    有了上面的基础,然后再学爬虫,都不用看书,随便网上参考一下教程,差不多半天时间就可以写了。
    不过 scrapy 这个框架还是要大体学习一下的。
    xiaozaiziwyt
        21
    xiaozaiziwyt  
    OP
       2019-02-28 11:10:33 +08:00 via Android
    @xpresslink 好的,了解了,不过我是看别人说要先学爬虫在学 Web,因为爬虫是基础🤣
    xiaozaiziwyt
        22
    xiaozaiziwyt  
    OP
       2019-02-28 11:13:51 +08:00 via Android
    @BlackPineappo 这本书好像有些旧,是 17 年的。。。
    dswill
        23
    dswill  
       2019-02-28 11:28:09 +08:00
    我也是初学者,我看了 2.x 版本的基础,又看了 3.x 版本的。 我电脑上安装的是 3.7 版本的 python, 发现有很多旧版本的代码运行不了,不过这些运行不了的代码查下资料,就可以发现问题所在,所以就算是旧书籍,也可以学习,只是问题会多一些,但找问题解决也是一个学习过程。
    dswill
        24
    dswill  
       2019-02-28 11:28:55 +08:00
    书籍的话,我都是找社区或者学习群找前辈要的。
    dongya
        25
    dongya  
       2019-02-28 11:29:43 +08:00
    @xkeyideal 我真是人在家中坐, 锅从天上来,
    jianzhao123
        26
    jianzhao123  
       2019-02-28 14:38:20 +08:00
    @dswill 老哥能分享下不能:)
    locoz
        27
    locoz  
       2019-02-28 15:40:08 +08:00
    8 楼说的很对, 现在很多的教程 /书籍都是讲的那些基本操作,而真正碰到问题时用来解决问题的干货却很少,如果你想要入门的话还是实际爬点东西比较好。
    打个小广告,可以关注一下我的知乎专栏《手把手教你写爬虫》 https://zhuanlan.zhihu.com/webspider,会发一些你平常看不到的干货,虽然没啥空闲时间码字,更新会比较慢
    locoz
        28
    locoz  
       2019-02-28 15:40:43 +08:00
    @locoz #27 后面那部分也给识别成链接的一部分了,重发一下。https://zhuanlan.zhihu.com/webspider
    BlackPineappo
        29
    BlackPineappo  
       2019-02-28 15:49:35 +08:00
    @xiaozaiziwyt 17 年还算旧?爬虫入门都是那些,代码能运行,原理都一样。
    jalena
        30
    jalena  
       2019-02-28 15:53:38 +08:00
    xiaozaiziwyt
        31
    xiaozaiziwyt  
    OP
       2019-02-28 20:38:17 +08:00
    @dswill 知道了,那你主要学习的那些有名称吗? 我去看看
    dswill
        32
    dswill  
       2019-03-01 16:05:26 +08:00   ❤️ 1
    @jianzhao123
    @xiaozaiziwyt
    链接: https://pan.baidu.com/s/1bg0lKloSzqrldkPnX4FfuA 提取码: 4h23
    这是我有的一些书籍,也比较杂,不过好像没有爬虫的。
    xiaozaiziwyt
        33
    xiaozaiziwyt  
    OP
       2019-03-01 16:19:30 +08:00
    @dswill 谢谢,请问你现在 py 学到哪个地步了?
    dswill
        34
    dswill  
       2019-03-01 16:34:40 +08:00
    @xiaozaiziwyt 我还没工作上实践过,都自己拿书敲一敲代码。 算个菜鸟级,具体什么地步,我也不清楚,起码你让我完成工作上的任务,还得有人带带才行,我想爬虫我是不是也可以学一学。 我还找朋友一起学,倒是有个伙伴,这点挺好,你如果有朋友也可以一起共勉。
    Pzqqt
        35
    Pzqqt  
       2019-03-01 21:06:37 +08:00
    建议阅读《 Python 网络数据采集》
    从 HTML 解析到 API 调用 从存取数据到 JavaScript 简介 从读取文档到 OCR 循序渐进 非常适合零基础接触爬虫的群众
    看过其他那些些市面上已有的 Python 爬虫教程书籍 但这些书籍设计的起点都比较高 并不适合想学习爬虫的群众去看
    PS:只是写一些简单的爬虫的话 用好 requests 库和 BeautifulSoup4 库就可以了 不要盲目跟风上来就接触 Scrapy 这种比较高级的库
    xiaozaiziwyt
        36
    xiaozaiziwyt  
    OP
       2019-03-01 23:26:32 +08:00 via Android
    @Pzqqt 这本书是只看原理就好了吗?因为书的内容有些旧
    Pzqqt
        37
    Pzqqt  
       2019-03-02 19:14:04 +08:00
    @xiaozaiziwyt 哪里旧了。。。我是在阅读完《 Python 入门到实践》学习了 Python 基础之后再阅读这本书的 阅读起来没有什么障碍 也没有发现内容有什么过时的地方 如果你的起点比较高对入门类书籍不屑一顾的话那当我没说
    darknoll
        38
    darknoll  
       2019-03-04 09:54:42 +08:00
    @jalena 胆真肥,不怕抓起来坐牢啊
    273579540
        39
    273579540  
       2020-10-06 08:01:11 +08:00
    www.learnfk.com/course-php7 PHP7 教程地址
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5664 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 01:42 · PVG 09:42 · LAX 17:42 · JFK 20:42
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.