V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
cnmllll
V2EX  ›  Python

各位爬虫大神怎么过验证码这一关的?

  •  
  •   cnmllll · 2018-07-18 18:42:42 +08:00 · 5081 次点击
    这是一个创建于 1486 天前的主题,其中的信息可能已经有所发展或是发生改变。

    1.自己 tessorflow 深度学习? 2.第三方验证码接口接入?

    12 条回复    2018-07-21 10:28:24 +08:00
    suley
        1
    suley  
       2018-07-18 18:46:26 +08:00
    验证码难不难?简单的数字和字母可以到 github 上找找看看那些识别验证码的开源代码;
    比较复杂的验证码的一般是接入第三方打码平台。
    luosuosile
        2
    luosuosile  
       2018-07-18 18:49:50 +08:00
    cookid 行不行?爬虫方面不怎么会
    ml1344677
        3
    ml1344677  
       2018-07-18 19:01:08 +08:00
    1.爬虫应该尽可能的避免或减少触发验证码,找其他的接口或者换 ip 地址,需要登录的另说。
    2.如真的触发,图片验证码应该比较容易解决的,不需要 tessorflow 深度学习什么的,有开源的库,滑块和各种奇葩还是接打码平台吧
    Nick2VIPUser
        4
    Nick2VIPUser  
       2018-07-18 20:15:40 +08:00 via iPhone
    同问...量级比较大的话买验证码接口成本略高
    supervipcard
        5
    supervipcard  
       2018-07-18 20:46:21 +08:00
    简单的字母验证码跟复杂的点选啥的都可以自己训练模型来识别,不过一般得标注训练集,自己标注费时费力,可以花钱找人标注,想省事就直接接入第三方。
    karot
        6
    karot  
       2018-07-19 08:00:44 +08:00
    我想做成滑两个或三个块的验证码,哈哈
    Leigg
        7
    Leigg  
       2018-07-19 08:53:25 +08:00 via iPhone
    建议别想着自己搞,会花很多精力还不一定有结果,你若能用 tf 搞定各种验证码的话,就不用干爬虫了。
    RicardoScofileld
        8
    RicardoScofileld  
       2018-07-19 09:47:55 +08:00
    容易识别的可以用 tesseract,复杂的就大码平台 吧
    GoPHP
        9
    GoPHP  
       2018-07-19 10:57:17 +08:00
    先想办法研究如何不触发验证码验证吧? ip,ua... 还是根据账号?

    话说都上了验证码肯定不是根据账号来,想封你账号太简单了,那估计就是 ip 了,ip 可以找代理,这比你破验证码简单多了!
    crawl3r
        10
    crawl3r  
       2018-07-19 12:24:18 +08:00
    1. 先尝试能否绕过,比如某些网站的验证码明文写在 cookie 里并在本地校验
    2. 不能绕过如果是简单验证码,比如没有变形的,只要进行简单的处理(二值化,反相等)后扔给 tesseract 就行了
    3. 有轻微变形或干扰的,去躁->svm
    4. 干扰严重或变形严重的,keras 搭个 cnn+mlp
    cnmllll
        11
    cnmllll  
    OP
       2018-07-21 10:27:32 +08:00
    @ml1344677
    @supervipcard
    @Leigg
    @RicardoScofileld
    有没有打码比较快的平台推荐,之前用的若快,感觉速度不太行啊
    Leigg
        12
    Leigg  
       2018-07-21 10:28:24 +08:00 via iPhone
    云打码,还行
    关于   ·   帮助文档   ·   API   ·   FAQ   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   2449 人在线   最高记录 5497   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 48ms · UTC 03:35 · PVG 11:35 · LAX 20:35 · JFK 23:35
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.