V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
Endocryne
V2EX  ›  Python

请教一下,想找人爬金融管理总局 2020 起所有的处罚公开表,收费几何

  •  
  •   Endocryne · 2023-10-25 17:29:52 +08:00 · 3888 次点击
    这是一个创建于 379 天前的主题,其中的信息可能已经有所发展或是发生改变。

    https://www.cbirc.gov.cn/cn/view/pages/ItemList.html?itemPId=923&itemId=931&itemUrl=zhengwuxinxi/xingzhengchufa.html&itemName=%E8%A1%8C%E6%94%BF%E5%A4%84%E7%BD%9A

    • 需求:想要获取 2020 年-2023 年金融监管总局(含地方分局)所有处罚公开表
    • 问题 1:看了下格式好像不完全统一,大部分是表格,也有全文本,保存为什么格式比较好,会不会比较难搞?
    • 问题 2: 合理收费大概是多少
    48 条回复    2023-11-09 11:08:21 +08:00
    linvaux
        1
    linvaux  
       2023-10-25 17:41:12 +08:00
    敢爬 gov ,纯属作死
    WeiPong
        2
    WeiPong  
       2023-10-25 17:42:19 +08:00   ❤️ 1
    按年收费
    Granado
        3
    Granado  
       2023-10-25 17:43:29 +08:00
    建议不收费
    lisxour
        4
    lisxour  
       2023-10-25 17:44:20 +08:00   ❤️ 1
    @linvaux 有啥问题吗
    1. 公开信息
    2. 没违反网站数据使用说明
    3. 没侵权行为
    wanmyj
        5
    wanmyj  
       2023-10-25 17:47:09 +08:00
    弱弱问下,这种 gov.cn 的公开数据真的不能被爬嘛?
    老美的*.gov 应该随便爬吧
    Endocryne
        6
    Endocryne  
    OP
       2023-10-25 17:49:21 +08:00
    有机构专门做过监管处罚分析的,所以肯定都有人爬过的

    https://www.pwccn.com/zh/insurance/publications/analysis-regulatory-penalties-insurance-dec2021.pdf
    lisxour
        7
    lisxour  
       2023-10-25 17:51:57 +08:00
    粗略看了一下,有 JSON 数据,有附件文件,没验证码,代码没啥加密,不包含后期统一格式数据提取的话,150-300 可接受,超 500 就纯大冤种了,按我自己的时间性价比的话 200-250 (我不接单!!!我不接单!!!我不接单!!!我只是有爬虫经验)

    Endocryne
        8
    Endocryne  
    OP
       2023-10-25 17:58:04 +08:00
    @lisxour 好的,谢啦,如果有大佬能接单也欢迎联系哈
    wpyfawkes
        9
    wpyfawkes  
       2023-10-25 18:03:09 +08:00   ❤️ 3
    我知道的风险有两个:
    1. 如果没控制好请求频率,导致网站无法访问.那就是严重破坏计算机系统罪.
    2. 如果网站有漏洞,能爬到一些不能公开发布的文件.那就是非法取得国家秘密罪.
    建议找个境外的老哥接单.🤣
    bkmi
        10
    bkmi  
       2023-10-25 18:08:09 +08:00 via Android
    @lisxour 做爬虫被判刑的又不在少数,建议去了解下
    scorpion91
        11
    scorpion91  
       2023-10-25 18:08:10 +08:00   ❤️ 1
    @lisxour 中国讲这些是没用的,说你犯法就犯法
    dufldylan1
        12
    dufldylan1  
       2023-10-25 18:11:29 +08:00
    @wpyfawkes 然后被承德的老哥们接单
    evan9527
        13
    evan9527  
       2023-10-25 18:11:34 +08:00
    风险太高。
    刑不可知,威不可测
    lun9
        14
    lun9  
       2023-10-25 18:14:27 +08:00 via iPhone
    那么大风险才几百块,懒得接,哈哈哈
    tom8
        15
    tom8  
       2023-10-25 18:15:39 +08:00   ❤️ 3
    爬着爬着 处罚名单里面应该就有自己的信息了
    tool2d
        16
    tool2d  
       2023-10-25 18:25:16 +08:00
    码农先做爬虫最好就是免费,一收费风险会直线上升。

    一个没任何加密的爬虫项目顶天收 1~2k ,你也发不了财,直接变成一个潜在的背锅侠。
    5dang
        17
    5dang  
       2023-10-25 18:50:08 +08:00 via iPhone
    主要是含表格,而且各地分局不一样,这个比较扯。
    TB 和 XY 都有商务接单,去询个价格呗。
    MajestySolor
        18
    MajestySolor  
       2023-10-25 18:52:48 +08:00
    兄弟胆子有点大啊👍
    lrabbit
        19
    lrabbit  
       2023-10-25 18:56:29 +08:00
    别在网上乱说,用个代理爬,谁知道你爬的,没啥风险,而且这种数据公开的
    netnr
        20
    netnr  
       2023-10-25 19:04:20 +08:00 via Android
    爬取数据须遵规
    https://www.spp.gov.cn/llyj/202202/t20220210_543998.shtml

    从三个方面划定数据爬虫技术合法使用的边界:
    一是合法的网络数据爬取应限于对开放数据的获取。如果网络爬虫获取非开放的数据,便涉嫌违法甚至犯罪;
    二是合法使用的数据爬虫技术不应具有侵入性,可以说,爬虫的侵入性是其违法性的主要体现;
    三是数据爬取应当基于正当目的,对开放数据的获取可能因不符合正当目的而具有违法性。对开放的非商业性数据的爬取应当要求符合公共利益之根本目的。对开放的商业性数据的爬取则可借鉴版权法上的合理使用原则,要求基于合理利用目的。
    tool2d
        21
    tool2d  
       2023-10-25 19:05:34 +08:00 via Android
    @lrabbit 不收费没风险,收了钱如果 OP 因为某些原因被抓,会顺着银行卡找过来。
    bluetree
        22
    bluetree  
       2023-10-25 19:09:00 +08:00
    做好自己这边的风险隔离,之后就干呗,做好爬虫的保险装置,gov 流氓级别,祝你好运
    netnr
        23
    netnr  
       2023-10-25 19:10:01 +08:00 via Android
    大多数是第二条,没控制好频率,搞成压力测试
    thinkm
        24
    thinkm  
       2023-10-25 19:11:13 +08:00
    坏消息:爬到自己了
    netnr
        25
    netnr  
       2023-10-25 19:15:16 +08:00 via Android
    iorilu
        26
    iorilu  
       2023-10-25 19:45:10 +08:00   ❤️ 1
    关键频率一定要低

    你要知道, 政府网站大多都是 N 年前随便凑得系统

    根本没任何高并发能力, 可能 10 个并发就能拖垮, 到时候你就麻烦了
    520discuz
        27
    520discuz  
       2023-10-25 20:18:20 +08:00
    爬=攻击 等着那啥吧...
    potatowish
        28
    potatowish  
       2023-10-25 22:01:16 +08:00 via iPhone
    很多事都是秋后算账,当时你觉得没事,事后揪住这个小辫子搞你一波
    xuhuanzy
        29
    xuhuanzy  
       2023-10-25 22:38:12 +08:00
    政府小水管要是崩了必抓人
    LudwigWS
        30
    LudwigWS  
       2023-10-25 22:42:10 +08:00 via iPhone   ❤️ 1
    @lisxour 时间不值钱?写这种定制需求代码要稳定运行怎么也得一天吧,不是出于学习爬虫目的真懒得写,上班的很难为了几百块写这些代码
    zbwsmile
        31
    zbwsmile  
       2023-10-25 23:20:45 +08:00 via iPhone
    可以加我微信聊
    tramm
        32
    tramm  
       2023-10-26 08:33:38 +08:00
    1 分钟请求一次应该不要紧
    nodejsexpress
        33
    nodejsexpress  
       2023-10-26 08:44:18 +08:00   ❤️ 2
    @lisxour 还是留给你做吧.
    lisxour
        34
    lisxour  
       2023-10-26 10:36:58 +08:00
    @LudwigWS 可能水平问题吧,这样的网站,只抓数据的话,代码 + 调试,不超两小时。。。如果有明码 JSON ,不需要破解 JS 的情况下,这种网站我中途都不需要调试的,20-30 分钟写完代码,一次就过😂
    lisxour
        35
    lisxour  
       2023-10-26 10:46:42 +08:00
    @LudwigWS 这类单通常不具备完善的合同制或者压根没合同,而且从我这么久的经验来说,绝大部分人(客户)都对需求说明比较弱,很多东西说不清楚,所以需求沟通时间成本和中间各种琐碎皮毛的修改才是占用时间的大头,不是代码时间,核心代码 1/3 时间,其他沟通+修改 2/3 时间,这都常有的事。屁大点的爬虫,你以沟通等的理由说加钱吧,客户也不会接受,不加钱吧,自己也不划算。
    xiamy1314
        36
    xiamy1314  
       2023-10-26 10:47:50 +08:00
    为了几百块。。。属实没必要。。。
    zbwsmile
        37
    zbwsmile  
       2023-10-26 10:56:27 +08:00 via iPhone
    OP 这么久也不回复也不留账号,估计自己搞了吧
    @lisxour
    SixGodHave7
        38
    SixGodHave7  
       2023-10-26 11:27:35 +08:00
    @netnr 欲练爬虫,先学刑法
    zxCoder
        39
    zxCoder  
       2023-10-26 13:22:52 +08:00
    不懂就问。

    那如果比如有一个人闲的蛋疼,自己手动访问一个一个下载下来,这合法吗哈哈哈

    @lisxour
    realpg
        40
    realpg  
       2023-10-26 13:55:57 +08:00
    @netnr #25
    不知道博客园是啥,但是名字语义分析,结合这篇文章,感觉这博客园的技术实力好弱鸡的感觉……
    都不如我草台班子搞得巨型医院门户(以前带预约挂号 qps 起飞)
    1018ji
        41
    1018ji  
       2023-10-26 14:09:30 +08:00
    建议自学爬虫,为了这几百块爬国家网站,是多缺钱
    momoe
        42
    momoe  
       2023-10-26 17:03:45 +08:00
    这个收费千儿八百都正常,关键是 gov 没几个人敢碰而已。但是看了下量不大,手工复制粘贴都完事儿了= =
    Winrey
        43
    Winrey  
       2023-10-26 18:28:04 +08:00
    @wpyfawkes
    哪怕境外老哥接单你指挥和贩售你同样有问题的

    你永远不知道它的并发能有多低,随便写出一个 bug 导致崩了,人家直接甩锅给你,刑事责任
    chenzw2
        44
    chenzw2  
       2023-10-27 08:50:27 +08:00
    建议按判刑年数收费
    Endocryne
        45
    Endocryne  
    OP
       2023-10-27 10:05:24 +08:00
    @zbwsmile 找了公司内部的同事,控制请求频率应该问题不大
    Endocryne
        46
    Endocryne  
    OP
       2023-10-27 10:06:36 +08:00
    @momoe 全国各级监管 3 年,手工复制不太现实
    raycool
        47
    raycool  
       2023-10-29 14:56:38 +08:00
    这个爬虫应该没啥难度
    tietou
        48
    tietou  
       364 天前
    @tom8 笑死人
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3015 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 27ms · UTC 13:40 · PVG 21:40 · LAX 05:40 · JFK 08:40
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.