V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
zror
V2EX  ›  Python

想系统的学一下爬虫,各位大佬有没有比较好的,比较系统的教程,最好是从零开始。

  •  
  •   zror · 2021-05-27 10:26:44 +08:00 · 6105 次点击
    这是一个创建于 1307 天前的主题,其中的信息可能已经有所发展或是发生改变。
    开始用 selenium 感觉还挺好用的,我说那就爬爬淘宝,然后刷一会就被淘宝限制了。网上反爬的教程一大堆,也不知道哪些是可行的。
    后来又发现有 Puppeteer 个东西,v 友有爬虫大神能分享点教程么 谢谢了
    第 1 条附言  ·  2021-05-27 14:43:47 +08:00
    看了大家的回复,我准备从入门到放弃了
    33 条回复    2021-05-29 09:47:57 +08:00
    SlipStupig
        1
    SlipStupig  
       2021-05-27 10:30:34 +08:00
    先从学习《网络安全法》学起,这不是开玩笑,我是认真的
    murmur
        2
    murmur  
       2021-05-27 10:32:04 +08:00
    爬虫简单,反爬攻破难,需要经验,那都是别人吃饭的东西怎么可能随便分享给你,你上来就想挑战淘宝
    zror
        3
    zror  
    OP
       2021-05-27 10:37:27 +08:00
    @murmur 我不是想爬淘宝的数据,就是想秒杀个玩具
    no1xsyzy
        4
    no1xsyzy  
       2021-05-27 10:51:16 +08:00
    @zror 那不还是淘宝吗?能爬淘宝大概能算爬虫学硕士毕业。
    所有网站你只能一个个去试,指不定昨天刚封堵一个反爬方式。
    herozzm
        5
    herozzm  
       2021-05-27 10:55:12 +08:00 via Android
    一来就调整高难题目,先爬爬小网站吧,无非就是验证码破解,ip 限制,前端加密等等
    chennuo
        6
    chennuo  
       2021-05-27 11:09:22 +08:00
    真的!从 《网络安全法》学起!真的认真的 ~ 不要问我为什么?我是一个有故事的人!
    Lemeng
        7
    Lemeng  
       2021-05-27 11:12:00 +08:00
    淘宝是非常钢的。建议参考上面大神的建议
    mschultz
        8
    mschultz  
       2021-05-27 11:14:14 +08:00 via iPhone
    阿里系的很多网页(淘宝、高德地图)正常人类正常浏览都有困难吧(休息会儿呗,坐下来喝口水,我们马上回来)
    palexu
        9
    palexu  
       2021-05-27 11:22:43 +08:00
    一上来就挑战电商网站。。。 这种大电商都养着一整个专业反爬虫团队呢
    Jwyt
        10
    Jwyt  
       2021-05-27 11:26:34 +08:00
    哪有一上来就用自动化测试的东西弄爬虫的?
    建议先去看看 http 协议,python 的话先多用 urllib 和 requests
    获取数据之后是清洗数据,看看 html 解析、xml 、正则
    上面的用的差不多了,学习下爬虫框架,scrapy 、pyspider
    再深入的话就是反反爬和大规模爬虫性能这块了,包括 js 反解、app 抓包、逆向。。
    tuoov
        11
    tuoov  
       2021-05-27 11:39:16 +08:00
    《 Python 网络爬虫权威指南》算是比较系统的基础爬虫教程,不过现在高级点的爬虫基本上都靠逆向和抓包,更多是偏实践的东西
    Numbcoder
        12
    Numbcoder  
       2021-05-27 11:42:48 +08:00   ❤️ 1
    爬虫写的好,牢饭吃到老
    byte10
        13
    byte10  
       2021-05-27 11:49:37 +08:00
    爬虫其实很简单的啦,如果高频的去爬就很难。你要先搞定账号,IP,这些搞定之后,去重写一个 开源的浏览器,然后把 GUI 那层 css 渲染去掉,基本就完美的爬了。
    shuxhan
        14
    shuxhan  
       2021-05-27 11:49:40 +08:00
    从入门到入牢
    ysmood
        15
    ysmood  
       2021-05-27 12:44:51 +08:00 via Android
    只是个人使用的话看看我写的这个教程 https://go-rod.github.io/i18n/zh-CN/#/
    imn1
        16
    imn1  
       2021-05-27 13:10:15 +08:00
    没事,就三个步骤:抓页面,分析代码,保存(或下载文件)
    只是 2 用 python 比较省心,多年以前用 php 就一个编码都弄得头疼
    1/3 其实跟 python 没啥关系(哪个顺手都可以),我更多用 wget/aria2

    以前爬过几千万张图片(累计),可能上亿,现在没啥动力爬了,另一方面是封闭了,有帐号都不给看,更别说没帐号了

    最后,一开始就刷大厂,你真以为所见即所得啊,爬虫练手最好先找外面的,例如岛国(顺便学一下编码问题)
    buffzty
        17
    buffzty  
       2021-05-27 13:49:53 +08:00
    @imn1 哪个语言写爬虫没有编码语言? 函数都不会用还写 php 吗? html 适合你
    imn1
        18
    imn1  
       2021-05-27 14:21:37 +08:00
    @buffzty #17
    我不知道你这么激动是为什么
    我说的编码指的是,gbk/big5/shift-jis/enc-k/utf8 这些,不是写代码
    php5.3 前在 windows 处理 unicode 是痛点,特别是非 ASCII 路径,5.3 后就没写过了,“多年前”指的是这个

    我以前就是用 php4 写的爬虫扒了 mm.taoba_.com 几百万张图片和模特资料,不过没空整理,都送人了
    我没任何歧视 php 的意思,我是因为发现 python 处理韩文 windows 路径很方便,才转过去的
    zhengfan2016
        19
    zhengfan2016  
       2021-05-27 14:28:13 +08:00
    上来就是搞淘宝,你当淘宝那些 985,211,硕士都是纸糊的吗。你觉得你一人能搞得过人家几万人的团队?
    x86
        20
    x86  
       2021-05-27 14:48:15 +08:00
    这是一上来就挑战最高难度的...
    tsuih
        21
    tsuih  
       2021-05-27 15:01:49 +08:00 via Android
    秒杀建议写浏览器插件跑
    0044200420
        22
    0044200420  
       2021-05-27 15:46:15 +08:00
    爬虫写得好 牢饭吃得早
    Yeen
        23
    Yeen  
       2021-05-27 15:54:02 +08:00
    爬虫主要就是在反抓取和反反抓取的轮回里醉生梦死
    zjsxwc
        24
    zjsxwc  
       2021-05-27 15:55:26 +08:00
    爬大众点评试试
    7075
        25
    7075  
       2021-05-27 15:59:38 +08:00
    爬虫这东西,如果做好了,来钱很快。但是做好很不容易。上帝是公平的。
    lopetver
        26
    lopetver  
       2021-05-27 16:01:29 +08:00
    崔庆才的博客是个好地方
    cdlnls
        27
    cdlnls  
       2021-05-27 21:15:01 +08:00
    爬虫说简单也简单,说难也难。简单的模拟接口请求数据就行了,难的就有一堆东西,JS 要熟悉、人机验证、代理调度、数据清洗储存、逆向,还有性能,这里哪一块都能深入。
    godblessumilk
        28
    godblessumilk  
       2021-05-28 02:06:06 +08:00 via Android
    秒杀可以写浏览器油猴插件脚本啊,爬虫正面刚,估计不可
    zror
        29
    zror  
    OP
       2021-05-28 13:40:13 +08:00
    @godblessumilk 油猴我写了,但那个店铺的商品是不定时上架的,不是正常套路的秒杀。用油猴刷不出来商品上架了
    zone10
        30
    zone10  
       2021-05-28 14:24:45 +08:00
    爬虫学点简单的确实有意思, 爬爬盗版小说, 小电影之类的. 如果是全职的话我是来劝退的, 一来容易入狱不说, 二来和反爬的不断内卷死磕, 相互加大对方的工作难度, 想想何必呢, 程序员何苦为难程序员
    ritaswc
        31
    ritaswc  
       2021-05-28 17:36:35 +08:00
    真的!从 《网络安全法》学起!真的认真的 ~ 不要问我为什么?我是一个有故事的人!
    DeWjjj
        32
    DeWjjj  
       2021-05-28 22:27:01 +08:00
    反扒其实是个体力活,每次要解决不同程度的数据欺骗和数据混淆。
    ch2
        33
    ch2  
       2021-05-29 09:47:57 +08:00
    爬虫最难的就是反制,反制没有系统的学习方法,你必须至少达到跟对面同等的技术水平才能有效解决对方的反制,但是你那么牛逼的话干啥都比干爬虫强
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5645 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 03:13 · PVG 11:13 · LAX 19:13 · JFK 22:13
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.