V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
CriseLYJ
V2EX  ›  Python

人生的第一个 5k-star 项目诞生,感谢 V2EX 上所有的人,为此我要贡献一篇爬虫从入门到熟练的教程

  •  
  •   CriseLYJ · 2019-03-30 08:50:13 +08:00 · 12072 次点击
    这是一个创建于 2069 天前的主题,其中的信息可能已经有所发展或是发生改变。

    人生的第一个 5k-star 项目诞生,感谢 V2EX 上所有的人,为此我要贡献一篇爬虫从入门到熟练的教程

    [5kstar 项目地址]https://github.com/CriseLYJ/awesome-python-login-model()

    真心感谢 V2EX 上的所有的人,但是就想总结一下发几个小脚本,然后突然有很多人支持我,真的很感谢,如果没你们的支持,可能这个项目就不会一直走下来。所以我还是感谢!谢谢谢
    • 为了不辜负你们的支持,前段时间决定了写一套系统的爬虫教程,用来感谢这里的所有人,当然也有其他支持我的人!

    • 教程包括:js 逆向,xpath,bs4,正则,selenium, tesseract OCR 识别,mongodb 的使用,以及 scrapy 框架

    • 囊括搜有知识:如果你能吸收完,那么你可以爬取市面上 90%的网站,绝对没吹牛!

    • 在学习之前请务必掌握一些蟒蛇基础知识,之后我们就可以开始了!

    • 项目预估时间 20 天左右,平均两天更新一章内容,敬请期待........

    • 项目是免费的,所以你们要是喜欢可以给个 star,或者在 ISSUES 中留言都可以

    最后放项目地址点击此处跳转至 github

    100 条回复    2019-05-01 14:07:37 +08:00
    CriseLYJ
        1
    CriseLYJ  
    OP
       2019-03-30 08:51:33 +08:00
    第一个链接多了个括号,访问的时候记得删除掉。。。。失误各位
    Bigglesworth
        2
    Bigglesworth  
       2019-03-30 08:52:18 +08:00 via Android
    支持一下。
    CriseLYJ
        3
    CriseLYJ  
    OP
       2019-03-30 08:54:31 +08:00
    @Bigglesworth 多谢了,内容很丰富!
    Willjim
        4
    Willjim  
       2019-03-30 08:55:19 +08:00 via Android
    @CriseLYJ MD 语法用错,几分钟内还可以改。教程收下了慢慢看,赞一下先!
    CriseLYJ
        5
    CriseLYJ  
    OP
       2019-03-30 08:57:20 +08:00
    @Willjim 怎么改求教求教
    Willjim
        6
    Willjim  
       2019-03-30 08:59:24 +08:00 via Android
    @CriseLYJ 文章下面有个 edit 呀😂
    guog
        7
    guog  
       2019-03-30 08:59:39 +08:00 via Android
    [地址别名](链接)
    Foreverdxa
        8
    Foreverdxa  
       2019-03-30 08:59:45 +08:00
    这些网站真是太棒了,新手来学习很舒服
    barrelsoil
        9
    barrelsoil  
       2019-03-30 09:01:14 +08:00
    看了下第一篇,很详细~
    CriseLYJ
        10
    CriseLYJ  
    OP
       2019-03-30 09:04:45 +08:00
    @Willjim 没找到 可能我之前放链接的时候没有放到括号里面
    teslayun
        11
    teslayun  
       2019-03-30 09:05:03 +08:00
    luboyan
        12
    luboyan  
       2019-03-30 09:05:17 +08:00 via Android
    支持下大佬
    CriseLYJ
        13
    CriseLYJ  
    OP
       2019-03-30 09:05:35 +08:00
    @Foreverdxa 感谢
    CriseLYJ
        14
    CriseLYJ  
    OP
       2019-03-30 09:05:48 +08:00
    @barrelsoil 嘿嘿
    CriseLYJ
        15
    CriseLYJ  
    OP
       2019-03-30 09:06:02 +08:00
    @teslayun 感谢
    sinver
        16
    sinver  
       2019-03-30 09:07:22 +08:00
    @CriseLYJ 如果可以,教程建议变更为视频版放到 B 站 [单个文件 2G 内保持原画不压缩] 。文字版读起来有些枯燥且内容多了之后会变更成手册,视频版可提高转播属性,给你带来更多 Star :D
    CriseLYJ
        17
    CriseLYJ  
    OP
       2019-03-30 09:07:22 +08:00
    @luboyan 不是啥大佬啦
    CriseLYJ
        18
    CriseLYJ  
    OP
       2019-03-30 09:09:14 +08:00
    @sinver 现在时间不是很多啊!我尽可能写详细点,不过还是多谢你的建议,等我有时间我可以尝试尝试
    tumbzzc
        19
    tumbzzc  
       2019-03-30 09:18:01 +08:00 via Android   ❤️ 1
    果然都喜欢聚合型的东西,即使都是一开始楼主拿来都是网上收集来的旧老代码
    CriseLYJ
        20
    CriseLYJ  
    OP
       2019-03-30 09:18:26 +08:00
    强烈建议,http 一定要好好看!因为很有用!
    HuasLeung
        21
    HuasLeung  
       2019-03-30 09:23:13 +08:00   ❤️ 1
    支持 虽然我不写 python ……
    CriseLYJ
        22
    CriseLYJ  
    OP
       2019-03-30 09:23:29 +08:00
    @HuasLeung 哈哈 感谢
    capre
        23
    capre  
       2019-03-30 09:32:07 +08:00
    加油楼主,以前用过一次 selenium 不太深入,期待楼主写的这个
    CriseLYJ
        24
    CriseLYJ  
    OP
       2019-03-30 09:34:31 +08:00
    @capre selenium 不太好用的其实,一般都是 js 逆向
    miv
        25
    miv  
       2019-03-30 09:34:38 +08:00
    像这种开源无私的我强烈支持,自己也虽然不是专业搞爬虫的,不过这东西很有价值。另外,也想学习 selenium,所以就期待楼主的教程了!已经 start !!支持!!
    xiongxiaoyang
        26
    xiongxiaoyang  
       2019-03-30 09:37:36 +08:00
    感谢
    694169224
        27
    694169224  
       2019-03-30 09:42:06 +08:00
    加油楼主
    Ehco1996
        28
    Ehco1996  
       2019-03-30 09:42:08 +08:00
    我前几年写爬虫也搞了一个类似的 repo https://github.com/Ehco1996/Python-crawler
    zhuzhibin
        29
    zhuzhibin  
       2019-03-30 09:43:56 +08:00 via iPhone
    404 page
    CriseLYJ
        30
    CriseLYJ  
    OP
       2019-03-30 09:44:22 +08:00
    @miv 好的
    CriseLYJ
        31
    CriseLYJ  
    OP
       2019-03-30 09:44:49 +08:00
    @zhuzhibin 删掉后面的括号
    CriseLYJ
        32
    CriseLYJ  
    OP
       2019-03-30 09:45:07 +08:00
    @Ehco1996 很棒,哈哈
    anyuhanfei
        33
    anyuhanfei  
       2019-03-30 09:45:24 +08:00
    支持支持
    adrianyoung
        34
    adrianyoung  
       2019-03-30 09:45:34 +08:00
    支持一下,自己也写爬虫,借楼主宝地打个广告 [爬虫监控 demo]( https://github.com/adrianyoung/CrawlerMonitor)
    zhuzhibin
        35
    zhuzhibin  
       2019-03-30 09:46:36 +08:00 via iPhone
    @CriseLYJ 哦没仔细看 直接点的
    wangchonglie
        36
    wangchonglie  
       2019-03-30 09:51:30 +08:00
    已 star
    VictorFrank1
        37
    VictorFrank1  
       2019-03-30 10:24:23 +08:00
    火钳
    spidermansam
        38
    spidermansam  
       2019-03-30 10:43:48 +08:00
    已 star,加油
    yasumoto
        39
    yasumoto  
       2019-03-30 10:46:52 +08:00
    支持一下 已 star
    CriseLYJ
        40
    CriseLYJ  
    OP
       2019-03-30 11:01:06 +08:00
    谢谢各位的支持
    madtwilight
        41
    madtwilight  
       2019-03-30 11:02:46 +08:00 via Android
    支持
    lpdy4
        42
    lpdy4  
       2019-03-30 11:10:26 +08:00 via iPhone
    感谢。已收藏
    CriseLYJ
        43
    CriseLYJ  
    OP
       2019-03-30 11:20:30 +08:00
    @lpdy4 谢谢
    CriseLYJ
        44
    CriseLYJ  
    OP
       2019-03-30 11:41:11 +08:00
    @madtwilight 谢谢
    XiaolinLeo
        45
    XiaolinLeo  
       2019-03-30 11:50:52 +08:00 via iPhone
    支持支持
    CriseLYJ
        46
    CriseLYJ  
    OP
       2019-03-30 11:51:20 +08:00
    @XiaolinLeo 感谢感谢
    zz25
        47
    zz25  
       2019-03-30 12:23:42 +08:00
    萌新感觉不错,先 Star,说不准以后会学到
    aoe2ex
        48
    aoe2ex  
       2019-03-30 12:33:24 +08:00
    star 为敬
    godgc
        49
    godgc  
       2019-03-30 12:43:56 +08:00
    学习学习~~
    luckyswag
        50
    luckyswag  
       2019-03-30 12:50:03 +08:00
    学习
    CriseLYJ
        51
    CriseLYJ  
    OP
       2019-03-30 13:10:09 +08:00 via iPhone
    多谢支持🙏
    Sivan2017
        52
    Sivan2017  
       2019-03-30 13:38:34 +08:00
    支持
    kuyuzhiqi
        53
    kuyuzhiqi  
       2019-03-30 13:48:55 +08:00
    404 代表 5k star 的项目不存在
    nznd
        54
    nznd  
       2019-03-30 14:07:16 +08:00
    哇 老哥要是有投稿 b 站的计划的话 我可以帮忙做一些吗 录制 后期 剪辑 字幕 啥的 都会一点
    supersadmin
        55
    supersadmin  
       2019-03-30 14:16:59 +08:00 via iPhone
    已用
    way2create
        56
    way2create  
       2019-03-30 14:22:32 +08:00
    支持 虽然不是搞这个的
    CriseLYJ
        57
    CriseLYJ  
    OP
       2019-03-30 14:24:51 +08:00
    @nznd 如果搞得话,我联系你性阿布
    CriseLYJ
        58
    CriseLYJ  
    OP
       2019-03-30 14:25:34 +08:00
    @kuyuzhiqi 去掉链接后面的括号,我写的时候写错了
    nznd
        59
    nznd  
       2019-03-30 14:28:04 +08:00
    @CriseLYJ #57 好的哦 ;)
    kodSen
        60
    kodSen  
       2019-03-30 14:39:19 +08:00 via iPhone
    开源很棒,多谢,学习一下
    CriseLYJ
        61
    CriseLYJ  
    OP
       2019-03-30 14:51:29 +08:00
    @kodSen 谢谢
    Majeriot
        62
    Majeriot  
       2019-03-30 14:56:23 +08:00
    支持支持
    CriseLYJ
        63
    CriseLYJ  
    OP
       2019-03-30 15:05:09 +08:00
    @Majeriot 谢谢
    baicai0817
        64
    baicai0817  
       2019-03-30 15:20:15 +08:00 via iPhone
    支持
    rosu
        65
    rosu  
       2019-03-30 15:26:23 +08:00 via Android
    先 watch,等楼主更新了再 star (滑稽
    hfutzj
        66
    hfutzj  
       2019-03-30 15:29:20 +08:00 via Android
    支持一下
    chungzhao
        67
    chungzhao  
       2019-03-30 16:03:01 +08:00
    支持!
    CriseLYJ
        68
    CriseLYJ  
    OP
       2019-03-30 16:18:07 +08:00
    谢了各位,希望对你们有帮助
    meteor957
        69
    meteor957  
       2019-03-30 16:25:01 +08:00
    已 start
    JeongReich
        70
    JeongReich  
       2019-03-30 16:45:35 +08:00 via Android
    已收藏 最近在学。
    CriseLYJ
        71
    CriseLYJ  
    OP
       2019-03-30 17:11:26 +08:00
    今天应该可以更新
    mythace
        72
    mythace  
       2019-03-30 17:22:54 +08:00
    请问下你的项目都是 python 3 写的吗?怎么 instal 老是失败
    CriseLYJ
        73
    CriseLYJ  
    OP
       2019-03-30 17:23:28 +08:00
    @mythace 对啊 python3
    Exia
        74
    Exia  
       2019-03-30 17:52:04 +08:00
    不错,帖主试试花瓣
    ronman
        75
    ronman  
       2019-03-30 17:54:09 +08:00 via Android
    很好,两个项目都 star 了,平时虽然也在用爬虫,但是都是小打小闹,正需要一个系统的知识,辛苦楼主了。
    Exia
        76
    Exia  
       2019-03-30 17:55:16 +08:00
    教程很赞,果断 star
    ronman
        77
    ronman  
       2019-03-30 18:00:00 +08:00 via Android
    对了多问一句,完成更新后会考虑以 git book 的形式整合吗?这样更加方便查阅
    CriseLYJ
        78
    CriseLYJ  
    OP
       2019-03-30 18:38:13 +08:00
    @ronman 可以尝试
    CriseLYJ
        79
    CriseLYJ  
    OP
       2019-03-30 19:22:25 +08:00
    @Exia 谢谢
    0x000007
        80
    0x000007  
       2019-03-30 20:15:25 +08:00
    /t/541855 砸场子的来了
    0x000007
        81
    0x000007  
       2019-03-30 20:15:57 +08:00
    @0x000007 贴错了 /t/550323
    CriseLYJ
        82
    CriseLYJ  
    OP
       2019-03-30 20:18:29 +08:00
    @0x000007 不喜欢我也没办法,毕竟我不能满足所有人,这里我想请问一下,你能帮我定义一下爬虫吗??能帮我定义一下 http 吗??钢精。。。。。
    Meli55a
        83
    Meli55a  
       2019-03-30 20:20:14 +08:00
    淘宝的不知道失效没,先 star + 1 再说
    CriseLYJ
        84
    CriseLYJ  
    OP
       2019-03-30 20:20:20 +08:00
    我就不过多解释了行吧,你们开心就好
    xyb12138
        85
    xyb12138  
       2019-03-30 20:35:00 +08:00
    支持,想系统的学习一下爬虫知识,已 star~
    0x000007
        86
    0x000007  
       2019-03-30 21:03:25 +08:00
    @CriseLYJ 我杠你啥了?我只是贴个链接告诉你有人砸你场子,我这就杠了?
    CriseLYJ
        87
    CriseLYJ  
    OP
       2019-03-30 21:05:25 +08:00
    @0x000007 那不好意思,兄弟,行吧!我误解你了,等我写完所有东西,我新开一个帖子,你们再来发表观点好不好?现在就只是个预备知识!
    chen11
        88
    chen11  
       2019-03-30 21:21:52 +08:00
    支持一波,感谢
    jarry118
        89
    jarry118  
       2019-03-30 21:26:24 +08:00
    感谢大佬
    xxx78797084
        90
    xxx78797084  
       2019-03-30 22:06:38 +08:00
    支持大佬
    EyreFree
        91
    EyreFree  
       2019-03-30 22:10:34 +08:00
    cnzzz
        92
    cnzzz  
       2019-03-30 22:50:06 +08:00
    多谢教程,很详细很多干货,支持大佬
    shuangyeying
        93
    shuangyeying  
       2019-03-30 23:40:58 +08:00
    用 Java 写过 selenium,确实非常方便。
    persimmon
        94
    persimmon  
       2019-03-31 00:08:03 +08:00   ❤️ 1
    That's why we cannot have nice things in China now.
    belin520
        95
    belin520  
       2019-03-31 14:53:33 +08:00 via iPhone   ❤️ 1
    不是说 5k 吗?怎么才 660 个 star
    chpiter
        96
    chpiter  
       2019-04-01 17:10:20 +08:00
    加油
    asus10tu
        97
    asus10tu  
       2019-04-02 17:12:45 +08:00
    非常感谢大佬!
    wdcrgb
        98
    wdcrgb  
       2019-04-03 18:50:44 +08:00
    学习了
    iorilu
        99
    iorilu  
       2019-04-13 23:12:02 +08:00
    厉害了, 爬虫高手啊, 收藏学习了
    liwenbest
        100
    liwenbest  
       2019-05-01 14:07:37 +08:00
    期待更快地更新哈 谢谢分享
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5403 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 31ms · UTC 08:19 · PVG 16:19 · LAX 00:19 · JFK 03:19
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.