V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
xyyandxyy
V2EX  ›  问与答

求推荐云盘或其他方案用于分享数据集(2T)

  •  
  •   xyyandxyy · 152 天前 · 2974 次点击
    这是一个创建于 152 天前的主题,其中的信息可能已经有所发展或是发生改变。

    学术工作需要开源对应的数据集,大小约 2T, 但不到 2T. 需要让其他使用者下载.

    这个数据集开源后应该国内外都要可以下载, 国内计划直接用百度网盘(SVIP 过期后文件好像还是可以继续分享下载). 国外的话求大佬们推荐!

    希望:

    • 一个比较重要的点是希望能稳定存储很久很久, 省去毕业后还要维护
    • 价格尽可能低

    目前考虑提供国外下载服务的方式:

    • 闲鱼找 google drive 2T 团队盘 (稳定性未知, 感觉不是很稳定)
    • 开两个 onedrive 的号, 在淘宝买 1t 扩容, 分两个号存储. 35 块钱 1T1 年, 过期只保存三个月.
    • ...

    求大佬推荐!

    26 条回复    2024-10-17 12:01:23 +08:00
    1rv013c6aiWPGt24
        1
    1rv013c6aiWPGt24  
       152 天前 via Android
    onedrive 有 1T 扩容?不是拼车吗?
    xyyandxyy
        2
    xyyandxyy  
    OP
       152 天前
    @UncleCAT4 淘宝上写的是扩容, 原理应该是拼车
    kebamt
        3
    kebamt  
       152 天前 via iPad
    如果去掉国内能访问选择方面会多很多
    kebamt
        4
    kebamt  
       152 天前 via iPad
    @UncleCAT4 此外 OneDrive 网页版国内也打不开,相当于不能访问
    kebamt
        5
    kebamt  
       152 天前 via iPad
    不是 Edu 版
    kebamt
        6
    kebamt  
       152 天前 via iPad
    比如 PikPak
    1rv013c6aiWPGt24
        7
    1rv013c6aiWPGt24  
       152 天前 via Android
    @kebamt 用文件管理器挂载就行了,基本上支持各种主流文件管理器
    xyyandxyy
        8
    xyyandxyy  
    OP
       152 天前
    @kebamt 可以完全不管国内访问, 因为国内访问我直接提供个百度云. 佬除了 PikPak 还有什么推荐吗? 自建也可以, 我是校园网, 校内有自己的服务器, 但是校外访问, 并下这个大个数据集, 没有想到怎么解决办法.
    chesha1
        9
    chesha1  
       152 天前
    onedrive for business ,一个月 10 刀,5TB 空间,国内外都能用,国内有服务器,不用翻墙,这应该最方便的,但是价格有点小贵

    或者放到 hugging face 上,不过国内就没法访问了,但是 2T 的数据集也不是谁都能用得了的,我感觉用得起这个数据集的团队应该不会吝啬梯子的钱。。。你在国内放一些常用子集的下载方式应该能满足 99%的同行的需求吧? Imagenet 不就这样吗? 1TB 多的 imagenet-21k 没多少人用,100GB 的 imagenet-1k 用的人就很多
    1423
        10
    1423  
       152 天前
    开放数据交给 archive 吧..算是白嫖
    xyyandxyy
        11
    xyyandxyy  
    OP
       152 天前
    @chesha1 嗯嗯, 大佬说的有道理. 因为数据集涉及到一些隐私, 按照目前类似数据集的做法, 一般都是我做一个 request form, 然后审核 request 后发一个下载链接过去. 感觉 HF 可以研究一下怎么放上去, 刚刚查了一下好像没有上传大小限制.
    xyyandxyy
        12
    xyyandxyy  
    OP
       152 天前
    @1423 archive 是?
    northbrunv
        13
    northbrunv  
       152 天前 via Android
    2t 国内 vps 自建云盘 1k/三年
    xyyandxyy
        14
    xyyandxyy  
    OP
       152 天前
    @northbrunv 但是带宽成本感觉有点吓人
    IvanLi127
        15
    IvanLi127  
       152 天前
    发 bt 种子,然后自己保种。
    adrianzhang
        16
    adrianzhang  
       152 天前
    这种事难道不是 bt 最方便吗? resilosync 用 key 控制权限呢?
    mcone
        17
    mcone  
       152 天前
    看到你说要审核,你提到的这些网盘其实都不合适,网盘随手就转存了,你也就前期审核有点用,后期真的就只是形式主义而已。
    我周边遇到的这种正经的审核,一般都是在附属 edu/ac 机构页面上,通过申请后的 pwd+简单鉴权的方式(甚至有的直接用了 nginx 鉴权),进入专门的下载页,有的为了省带宽就转到网盘或者云存储的下载直链上面去;我们课题组国内买的是科院的云盘服务,国外买的是 dropbox 直链服务。

    另外,多吐槽一句,我是不理解,你所在机构和课题组都不愿意提供基本的存储、逼着通讯作者都想“省去毕业后还要维护”的一个数据集,证明除了你之外都认为这玩意没啥价值,有什么好审核的
    XiLingHost
        18
    XiLingHost  
       152 天前
    做种,然后发磁链就行了
    xianghaolin
        19
    xianghaolin  
       152 天前
    E5 25T 就是不稳
    NSAgold
        20
    NSAgold  
       152 天前 via Android
    b2 5 美元/月/T
    gaobh
        21
    gaobh  
       152 天前
    cf 的 r2 不行么,接上 cdn 我记得是免费的吧
    NewHere
        22
    NewHere  
       152 天前
    自己有服务器的话,放在服务器上就好了,弄一下 http 服务放在实验室网站上提供下别人下载
    xyyandxyy
        23
    xyyandxyy  
    OP
       151 天前
    是这样的...

    主要是组内一般只维护一个静态的官网, 对外开放的存储还没有人来做, 要做也得抓其他同学(会维护且愿意做的同学不多)或自己来做, 整个流程更麻烦(因为还要去和管理的老师对接), 不如我在自己的服务器上写一个.

    我们领域有一些数据集是如佬所说的附属 edu/ac 机构页面, 也是比较大的数据集, 但是时间久了(5 年往上), 很多也断了维护, 或者是下载速度龟速. 也基本是靠社区分享才能获取. 确实审核也就维持个前一段时间的几年, 之后就不在了...

    所以综合时间和精力成本还是自己来研究下... 寄希望能少折腾点. 数据集还是有价值的, 我希望能送到需要的研究者手上, 减少他们去翻找的痛苦. 但是大组可能确实不 care, 每年三大会一堆, 不差我一个小小数据集.
    xyyandxyy
        24
    xyyandxyy  
    OP
       151 天前
    @gaobh 谢谢佬, 从你这才知道 cf 有这个, 看了一下好像我的数据这么大还是要比较高的费用的, 但是 mark 了!
    @xianghaolin 嗯嗯我看了一下确实是

    @NewHere 没有公网 IP 呜呜

    @NSAgold
    @IvanLi127
    @XiLingHost
    谢谢佬的建议! mark 了!
    yufeng0681
        25
    yufeng0681  
       151 天前
    @XiLingHost #18 这样的规则还不够细化,群主开一台机器成本也不低。 最好是弄成好几个地方的电脑不用关,或者说不会一起关的形态。 保证随时能下载到
    nakroy
        26
    nakroy  
       70 天前
    既然都开源了,那可以放在 huggingface 上,国内可以用同步的镜像站 hf-mirror.com 下载,很适合直接在服务器上用 huggingface-cli 命令行直接下载
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1071 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 22ms · UTC 19:19 · PVG 03:19 · LAX 11:19 · JFK 14:19
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.