V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
Richard14
V2EX  ›  问与答

开源爬虫代码有法律风险吗?有无懂哥解惑?

  •  
  •   Richard14 · 2021-07-20 11:03:03 +08:00 · 2083 次点击
    这是一个创建于 1008 天前的主题,其中的信息可能已经有所发展或是发生改变。

    个人想制作一个简单的爬虫项目(在未登录的情况下,以低频率爬取微博),是一个非常简单的代码,是教学向的,为了方便传播,为了方便传播,想要开源在 github 上,并且制作一期代码流程说明发布到 B 站。

    请问这种情况会被微博告吗?如果犯法的话会判多长时间?还是想要谨慎一点,请问有无懂哥介绍一下国内法律爬虫抓人的规矩,谢谢

    11 条回复    2021-07-21 16:22:28 +08:00
    mekingname
        1
    mekingname  
       2021-07-20 11:23:19 +08:00
    我自己做了一个新闻通用网站提取的开源项目,就把主动请求网页的功能取消了,只保留正文提取的功能,用户要用必须自行请求网页再把源代码传进来。这样就没有风险了。
    AoEiuV020
        2
    AoEiuV020  
       2021-07-20 11:26:42 +08:00
    有听说是,爬虫不能针对具体某个目标,
    不过具体还是应该律师才清楚了,
    InDom
        3
    InDom  
       2021-07-20 11:34:48 +08:00
    把被爬取网站的地址搞成配置文件,代码里如果没有被爬的网站地址,还有问题没?
    suotm
        4
    suotm  
       2021-07-20 11:55:50 +08:00
    你做一个 demo 网页就可以了嘛,
    或者用通用的框架搭一个,比如 wordpress 。
    mmdsun
        5
    mmdsun  
       2021-07-20 12:32:47 +08:00 via Android
    不会的。不放心可以放免责声明。

    我爬虫代码都会先搜索,要是 github 有现成就拿下来用了。那么多人上传。。法不责众
    westoy
        6
    westoy  
       2021-07-20 12:51:45 +08:00
    定向爬虫当然有问题了, 而且属于你发布出来危险更大

    免责声明就是骗骗自己的, 你只能赌自己不是被抽中儆猴的那只鸡

    大公司有的是办法, 非商用可以核损啊, 你玩得过对方法务团队么

    现在活着的像火车头那种做了十五六年的都是通用的, 出问题你去告卖用户规则的
    01802
        7
    01802  
       2021-07-20 14:12:28 +08:00 via Android
    腾讯告红包那个,不是有一条,增加了服务器非正常操作频率,也算侵权
    iyaozhen
        8
    iyaozhen  
       2021-07-20 14:25:57 +08:00
    应该是会 因为你太特定了,风险是肯定的
    HankLu
        9
    HankLu  
       2021-07-20 14:53:59 +08:00
    没有任何风险,放一百个心
    zhuxiaoxi
        10
    zhuxiaoxi  
       2021-07-20 21:48:43 +08:00
    https://weibo.com/robots.txt 按 robot.txt 协议爬,不会出问题
    galenzhao
        11
    galenzhao  
       2021-07-21 16:22:28 +08:00
    可以照着 pgp 来啊,
    代码出书, 属于言论自由
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   5859 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 46ms · UTC 06:21 · PVG 14:21 · LAX 23:21 · JFK 02:21
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.