V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
samding123
V2EX  ›  Python

Scrapy 爬虫简单工程设计

  •  
  •   samding123 · 2017-07-21 19:31:27 +08:00 · 3920 次点击
    这是一个创建于 2671 天前的主题,其中的信息可能已经有所发展或是发生改变。

    在 V2EX 读了几篇前辈的文章,受益匪浅,最近在工作中做了一些爬虫的工作,总结了一下使用新的,供参考:Scrapy 爬虫工程设计

    image.png

    13 条回复    2017-07-24 10:57:56 +08:00
    gulangyu
        1
    gulangyu  
       2017-07-21 19:38:52 +08:00 via Android
    前排支持!
    misaka19000
        2
    misaka19000  
       2017-07-21 19:47:33 +08:00 via Android
    后排支持!
    zenxds
        3
    zenxds  
       2017-07-21 19:50:29 +08:00
    中排支持!
    aaronzjw
        4
    aaronzjw  
       2017-07-21 19:50:59 +08:00
    三排 支持
    tE1lmEY
        5
    tE1lmEY  
       2017-07-21 21:20:32 +08:00
    最近有需求做这个,想爬 discuz !监控评论!
    CryMeatel
        6
    CryMeatel  
       2017-07-22 14:48:37 +08:00 via Android
    scrpay 限制太多。。。一个 twisted 陈旧的 API 有的时候要改下麻烦死了
    xarrow
        7
    xarrow  
       2017-07-22 23:54:05 +08:00
    用来爬代理 ip 再保存数据库太鸡肋了,因为代理 ip 生命周期都很短,等你保存到数据库再拿来用估计都死的差不多了
    samding123
        8
    samding123  
    OP
       2017-07-23 12:18:01 +08:00
    @xarrow 你可以做一个代理池,每天有任务去爬取和校验有效性。只不过我这个工程是每天 7 点开始,提前两小时开始爬有效 ip,7 点到了就开始用只是今天爬到的。今天以前的就不再用了,省去了维护代理池的步骤
    RangerWolf
        9
    RangerWolf  
       2017-07-23 17:51:26 +08:00
    图画的不错, 请问是用什么画出来的?
    lzjun
        10
    lzjun  
       2017-07-23 19:05:41 +08:00   ❤️ 1
    图画的不错, 请问是用什么画出来的?
    mxi1
        11
    mxi1  
       2017-07-23 22:52:30 +08:00
    看着像 visio
    sunwei0325
        12
    sunwei0325  
       2017-07-24 00:21:37 +08:00
    感谢楼主分享!
    samding123
        13
    samding123  
    OP
       2017-07-24 10:57:56 +08:00
    @RangerWolf Balsamiq Mockups
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5770 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 06:35 · PVG 14:35 · LAX 22:35 · JFK 01:35
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.