V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
shanyang88
V2EX  ›  程序员

关于用验证码反爬虫

  •  
  •   shanyang88 · 100 天前 · 2271 次点击
    这是一个创建于 100 天前的主题,其中的信息可能已经有所发展或是发生改变。

    用验证码反爬虫可靠吗?我有点想试试。 我希望可以较长时间内只需用户手动输入一次验证码,就可以让爬虫完全无法爬到网站的内容。 有可靠的开源解决方案吗?后端为 laravel 框架。

    18 条回复    2024-08-17 02:31:18 +08:00
    gzlock
        1
    gzlock  
       100 天前
    cloudflare 有对应保护 api 的方案
    https://blog.cloudflare.com/zh-cn/integrating-turnstile-with-the-cloudflare-waf-to-challenge-fetch-requests-zh-cn/
    工作原理省流:
    在网页上放一个 cf 的 js ,确保后续访问 api 的人是访问过网页的,才允许调用 api ,整个流程对正常用户很丝滑

    有个疑问:
    app 怎么使用这个方法呢
    shanyang88
        2
    shanyang88  
    OP
       100 天前
    @gzlock 两个疑问:1.该方法收费吗?我知道 cf 有个其它方案是收费的; 2.这个方法下在国内访问仍然丝滑吗?
    chaoschick
        3
    chaoschick  
       100 天前
    影响用户体验
    wnpllrzodiac
        4
    wnpllrzodiac  
       100 天前 via Android
    安全和便捷就是矛盾的
    chi1st
        5
    chi1st  
       100 天前
    让爬虫完全无法爬到网站的内容这个不可能的,只能找到一个平衡点来限制爬虫
    qq78660651
        6
    qq78660651  
       100 天前 via Android
    只是提高爬取门槛而已,还是看你网站内容的吸引力,有价值,别人花些还是能爬,但是能隔绝小白。
    macaodoll
        7
    macaodoll  
       100 天前 via iPhone
    你上完了我可以帮你测试,我是做爬虫的
    iyiluo
        8
    iyiluo  
       100 天前
    开源的不太行,还是商业的靠谱一些。验证码防不了,还有人肉打码这种灰产,防不住
    zeusho871
        9
    zeusho871  
       100 天前
    瑞数都能破。。。
    yb2313
        10
    yb2313  
       100 天前
    @zeusho871 我也喜欢看瑞树
    zcybupt2016
        11
    zcybupt2016  
       100 天前
    完全无法爬是不可能的,除非让用户也完全无法用
    hubaq
        12
    hubaq  
       100 天前
    简单粗暴的方案,上来直接极验消消乐验证,可以挡住绝大部分低端爬虫
    Masterlxj
        13
    Masterlxj  
       100 天前
    不现实,除非你想让正常用户也这样,不然没法阻止爬虫。反爬虫并不是单一的让爬虫访问不了,而是提升爬虫的成本(时间,经济)
    forty
        14
    forty  
       100 天前
    非公开访问,付费浏览,99%就没有爬虫花钱玩了
    namejaho0
        15
    namejaho0  
       100 天前
    微信登录 限制每个帐号 访问频次
    sead
        16
    sead  
       100 天前
    一些无关带标识的爬虫禁了就可以了,对于有心人这种爬虫你是没有办法的,矛于盾谁最厉害本来就是博弈
    jimrok
        17
    jimrok  
       99 天前
    ddddocr 可以识别验证码,所以先测试一下你的验证码好不好使。另外大语言模型可以在直接从浏览器结构中提取信息,一些提示词就可以将获得抓取的信息和干扰信息分开。
    gzlock
        18
    gzlock  
       99 天前
    @shanyang88 我回复里说到的方案是免费的
    然后我理解错了楼主的需求
    我回复的方案是前后端分离的,用于保护后端 api 的
    cloudflare 也有免费用于保护网站的著名 5 秒盾
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2820 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 09:28 · PVG 17:28 · LAX 01:28 · JFK 04:28
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.