V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
julyclyde
V2EX  ›  Python

你们一般都爬些什么?

  •  
  •   julyclyde ·
    julyclyde · 2017-07-17 22:53:39 +08:00 · 9735 次点击
    这是一个创建于 2445 天前的主题,其中的信息可能已经有所发展或是发生改变。
    我看很多人都从爬虫入手学习 python 啊,可是在我的认识里,基本上是个网站都有各种防爬措施了吧,那你们到底在爬什么呢?如何区分是自己的程序有问题还是被对方给防御了?
    第 1 条附言  ·  2017-07-18 07:43:16 +08:00
    如何区分是自己的程序有问题还是被对方给防御了?
    60 条回复    2017-07-25 22:34:54 +08:00
    duan602728596
        1
    duan602728596  
       2017-07-17 23:02:14 +08:00 via iPhone
    爬手机某些 app 的数据,爬某些网站的数据并实时发送到群里,脚本节省人工的时间
    tgxh
        2
    tgxh  
       2017-07-18 00:04:36 +08:00 via Android
    爬某番号站的磁力链接
    cnbeining
        3
    cnbeining  
       2017-07-18 00:06:57 +08:00
    爬 Chegg 的答案 HTML 解析成 Markdown 渲染成 PDF 就可以丢 iPad 上随时看了(暴露年龄)
    0xvincebye
        4
    0xvincebye  
       2017-07-18 00:12:29 +08:00 via iPad
    爬美女图片呀
    am241
        5
    am241  
       2017-07-18 00:14:02 +08:00
    合法福利图片
    历史价格记录
    公开的非直接提供的数据
    Tunar
        6
    Tunar  
       2017-07-18 07:20:06 +08:00 via Android
    。宅男福利图片
    Mutoo
        7
    Mutoo  
       2017-07-18 07:36:40 +08:00
    例如在墨尔本,政府有开放数据平台,可以获得各种有意思的社会化数据。有提供相应的 API 接口读取,可以用爬虫自己采集整合到自己的网站。
    https://data.melbourne.vic.gov.au/
    hotsymbol
        8
    hotsymbol  
       2017-07-18 08:14:27 +08:00
    爬知乎的各种照片
    laoyuan
        9
    laoyuan  
       2017-07-18 08:18:57 +08:00
    害羞组?
    xoxo419
        10
    xoxo419  
       2017-07-18 08:26:37 +08:00
    @am241 #5 都是实用数据.
    xspoco
        11
    xspoco  
       2017-07-18 08:29:43 +08:00   ❤️ 3
    请问有没有爬汤不热的啊 https://carry9109.tumblr.com/archive [NSFW]
    xiayibu
        12
    xiayibu  
       2017-07-18 08:31:29 +08:00
    中纪委数据
    janxin
        13
    janxin  
       2017-07-18 08:31:51 +08:00
    爱情动作片? XX 照?
    如果实在没什么要爬的,你也没必要非爬不可
    lxml
        14
    lxml  
       2017-07-18 08:32:33 +08:00
    Javbus, 一个 Java 学习网站
    AEANWspPmj3FUhDc
        15
    AEANWspPmj3FUhDc  
       2017-07-18 08:34:42 +08:00 via Android
    1024
    janxin
        16
    janxin  
       2017-07-18 08:38:50 +08:00
    jeffersonpig
        17
    jeffersonpig  
       2017-07-18 08:52:27 +08:00
    爬写真集的下载链接然后自动下载解压
    est
        18
    est  
       2017-07-18 09:30:28 +08:00
    @xspoco 开车了。。
    gauzeehom
        19
    gauzeehom  
       2017-07-18 09:50:26 +08:00
    爬山爬树
    annielong
        20
    annielong  
       2017-07-18 09:58:06 +08:00
    爬汤的太多了,但都没有管理功能,爬一次以后,不能检测更新文件
    jiangzhuo
        21
    jiangzhuo  
       2017-07-18 10:52:36 +08:00
    看最近有谁出什么问题八卦了,爬他相关的社交账号内容,顺手 archive。等他删除后把黑料卖给利益相关的。
    am241
        22
    am241  
       2017-07-18 11:07:10 +08:00 via Android
    @xoxo419 对啊实用数据才有动力爬,尤其是妹子图片
    zwik
        23
    zwik  
       2017-07-18 11:13:16 +08:00
    爬花瓣和 p 站的图到本地 做个本地备份
    ARhen
        24
    ARhen  
       2017-07-18 11:24:06 +08:00
    @lxml 我凑 我还真天真的百度了下,,,,想着又多了个 Java 网站....结果真是个 JAVa 网站....
    timwei
        25
    timwei  
       2017-07-18 12:15:14 +08:00
    页游的推广码
    Rice
        26
    Rice  
       2017-07-18 12:27:24 +08:00 via iPhone
    @lxml
    这网站学习 JAVA 会导致学得营养跟不上。
    myself659410
        27
    myself659410  
       2017-07-18 12:43:20 +08:00
    爬数据: 房价, 股票
    aaronzjw
        28
    aaronzjw  
       2017-07-18 12:44:35 +08:00 via Android
    煎蛋妹子图,知乎,豆瓣不要害羞小组,国外高清大图,汤不热,p**nhub 等
    downsky
        29
    downsky  
       2017-07-18 12:52:50 +08:00
    @am241 历史价格,淘宝里面有吗?同步一下,也让偶学习学习!
    syncher
        30
    syncher  
       2017-07-18 13:07:37 +08:00 via Android
    爬楼梯
    ikeeper
        31
    ikeeper  
       2017-07-18 13:23:39 +08:00
    mark 了,回头把你们说的都爬一下
    jaky666
        32
    jaky666  
       2017-07-18 14:25:20 +08:00
    mark
    hayao650
        33
    hayao650  
       2017-07-18 14:46:12 +08:00
    @lxml 谢谢推荐,我一定要好好学习 Java
    caniuse
        34
    caniuse  
       2017-07-18 14:48:57 +08:00
    人体艺术图片
    showgood163
        35
    showgood163  
       2017-07-18 14:50:16 +08:00
    看来 PYTHON 还是得学
    binjoo
        36
    binjoo  
       2017-07-18 14:52:25 +08:00
    @lxml 我信了你的邪。
    BadMan
        37
    BadMan  
       2017-07-18 15:35:55 +08:00
    我是从写脚本入门 Python 的,够小清新吧
    2929899530pgy
        38
    2929899530pgy  
       2017-07-18 15:52:31 +08:00
    一般晚上爬
    wolffn
        39
    wolffn  
       2017-07-18 15:58:23 +08:00
    我一般都爬山。
    ss0xt
        40
    ss0xt  
       2017-07-18 16:47:54 +08:00
    第一印象 想说爬山的。。。
    kangu
        41
    kangu  
       2017-07-18 17:10:13 +08:00
    @ikeeper 哈哈哈哈,好主意,同 mark !!
    af463419014
        42
    af463419014  
       2017-07-18 18:30:17 +08:00
    爬 V2EX 的文章,看这些文章哪些被删了,哪些被移动了,什么时间操作的
    然后可以给 livid 统计一下他的工时
    mnhkahn
        43
    mnhkahn  
       2017-07-18 18:32:42 +08:00
    豆瓣害羞组
    sxm
        44
    sxm  
       2017-07-18 18:42:20 +08:00   ❤️ 1
    @lxml 前不久用 PHP 爬过,3 大类的车牌差不多 34 万+,磁力 85 万+,各类图片 1 千万+(下载下来 4 百多 G,开了 30 个 PHP 进程来抓,花了 1 天多)
    wlbcs
        45
    wlbcs  
       2017-07-18 18:52:55 +08:00
    @myself659410 用的哪的接口啊?
    Kalv8n
        46
    Kalv8n  
       2017-07-18 19:04:17 +08:00 via Android
    hentai 网站,不过看腻了又不想玩了
    yu099
        47
    yu099  
       2017-07-18 20:29:44 +08:00 via Android
    @sxm 数据还是很容易拿的,就是难以筛,好坏要是能用机器学习筛出来的话。
    OpenJerry
        48
    OpenJerry  
       2017-07-18 21:34:57 +08:00
    mark
    gulangyu
        49
    gulangyu  
       2017-07-18 21:52:45 +08:00
    豆瓣害羞组爬虫已写好,高速运行中... 多谢科普!
    stzz
        50
    stzz  
       2017-07-18 23:08:36 +08:00
    靠,本来自制力就弱,结果不小心点开这个帖子
    今天鸡儿又没得放假了😢
    mingyun
        51
    mingyun  
       2017-07-18 23:32:10 +08:00
    @janxin mark 了
    ddjian
        52
    ddjian  
       2017-07-19 08:41:06 +08:00
    mark 了 谢谢各位!
    wqqdhero
        53
    wqqdhero  
       2017-07-19 09:54:00 +08:00
    mark 感谢各位司机
    myself659410
        54
    myself659410  
       2017-07-19 10:00:47 +08:00
    @wlbcs 强行爬取
    linus3389
        55
    linus3389  
       2017-07-19 10:22:35 +08:00
    pixiv
    icerwinter
        56
    icerwinter  
       2017-07-19 12:09:33 +08:00 via iPhone
    A 级通缉令的数据
    niuoh
        57
    niuoh  
       2017-07-19 15:48:47 +08:00
    推荐一个 http 代理网站 http://www.ip-chi.net
    tumbzzc
        58
    tumbzzc  
       2017-07-19 17:26:16 +08:00
    tumblr、1024、各种视频网站,应有尽有
    sunwei0325
        59
    sunwei0325  
       2017-07-19 22:01:53 +08:00
    给老司机们跪了
    Mavious
        60
    Mavious  
       2017-07-25 22:34:54 +08:00 via iPhone
    在线学习,20 分钟要确认一次在线。机器代挂机。
    对搜罗各种数据没有兴趣。只是拿来辅助人工而已。偷偷懒。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   3000 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 33ms · UTC 14:43 · PVG 22:43 · LAX 07:43 · JFK 10:43
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.