学术工作需要开源对应的数据集,大小约 2T, 但不到 2T. 需要让其他使用者下载.
这个数据集开源后应该国内外都要可以下载, 国内计划直接用百度网盘(SVIP 过期后文件好像还是可以继续分享下载). 国外的话求大佬们推荐!
希望:
目前考虑提供国外下载服务的方式:
求大佬推荐!
1
1rv013c6aiWPGt24 121 天前 via Android
onedrive 有 1T 扩容?不是拼车吗?
|
3
kebamt 121 天前 via iPad
如果去掉国内能访问选择方面会多很多
|
5
kebamt 121 天前 via iPad
不是 Edu 版
|
6
kebamt 121 天前 via iPad
比如 PikPak
|
7
1rv013c6aiWPGt24 121 天前 via Android
@kebamt 用文件管理器挂载就行了,基本上支持各种主流文件管理器
|
8
xyyandxyy OP @kebamt 可以完全不管国内访问, 因为国内访问我直接提供个百度云. 佬除了 PikPak 还有什么推荐吗? 自建也可以, 我是校园网, 校内有自己的服务器, 但是校外访问, 并下这个大个数据集, 没有想到怎么解决办法.
|
9
chesha1 121 天前
onedrive for business ,一个月 10 刀,5TB 空间,国内外都能用,国内有服务器,不用翻墙,这应该最方便的,但是价格有点小贵
或者放到 hugging face 上,不过国内就没法访问了,但是 2T 的数据集也不是谁都能用得了的,我感觉用得起这个数据集的团队应该不会吝啬梯子的钱。。。你在国内放一些常用子集的下载方式应该能满足 99%的同行的需求吧? Imagenet 不就这样吗? 1TB 多的 imagenet-21k 没多少人用,100GB 的 imagenet-1k 用的人就很多 |
10
1423 121 天前
开放数据交给 archive 吧..算是白嫖
|
11
xyyandxyy OP @chesha1 嗯嗯, 大佬说的有道理. 因为数据集涉及到一些隐私, 按照目前类似数据集的做法, 一般都是我做一个 request form, 然后审核 request 后发一个下载链接过去. 感觉 HF 可以研究一下怎么放上去, 刚刚查了一下好像没有上传大小限制.
|
13
northbrunv 121 天前 via Android
2t 国内 vps 自建云盘 1k/三年
|
14
xyyandxyy OP @northbrunv 但是带宽成本感觉有点吓人
|
15
IvanLi127 121 天前
发 bt 种子,然后自己保种。
|
16
adrianzhang 121 天前
这种事难道不是 bt 最方便吗? resilosync 用 key 控制权限呢?
|
17
mcone 121 天前
看到你说要审核,你提到的这些网盘其实都不合适,网盘随手就转存了,你也就前期审核有点用,后期真的就只是形式主义而已。
我周边遇到的这种正经的审核,一般都是在附属 edu/ac 机构页面上,通过申请后的 pwd+简单鉴权的方式(甚至有的直接用了 nginx 鉴权),进入专门的下载页,有的为了省带宽就转到网盘或者云存储的下载直链上面去;我们课题组国内买的是科院的云盘服务,国外买的是 dropbox 直链服务。 另外,多吐槽一句,我是不理解,你所在机构和课题组都不愿意提供基本的存储、逼着通讯作者都想“省去毕业后还要维护”的一个数据集,证明除了你之外都认为这玩意没啥价值,有什么好审核的 |
18
XiLingHost 121 天前
做种,然后发磁链就行了
|
19
xianghaolin 121 天前
E5 25T 就是不稳
|
20
NSAgold 121 天前 via Android
b2 5 美元/月/T
|
21
gaobh 121 天前
cf 的 r2 不行么,接上 cdn 我记得是免费的吧
|
22
NewHere 121 天前
自己有服务器的话,放在服务器上就好了,弄一下 http 服务放在实验室网站上提供下别人下载
|
23
xyyandxyy OP 是这样的...
主要是组内一般只维护一个静态的官网, 对外开放的存储还没有人来做, 要做也得抓其他同学(会维护且愿意做的同学不多)或自己来做, 整个流程更麻烦(因为还要去和管理的老师对接), 不如我在自己的服务器上写一个. 我们领域有一些数据集是如佬所说的附属 edu/ac 机构页面, 也是比较大的数据集, 但是时间久了(5 年往上), 很多也断了维护, 或者是下载速度龟速. 也基本是靠社区分享才能获取. 确实审核也就维持个前一段时间的几年, 之后就不在了... 所以综合时间和精力成本还是自己来研究下... 寄希望能少折腾点. 数据集还是有价值的, 我希望能送到需要的研究者手上, 减少他们去翻找的痛苦. 但是大组可能确实不 care, 每年三大会一堆, 不差我一个小小数据集. |
24
xyyandxyy OP @gaobh 谢谢佬, 从你这才知道 cf 有这个, 看了一下好像我的数据这么大还是要比较高的费用的, 但是 mark 了!
@xianghaolin 嗯嗯我看了一下确实是 @NewHere 没有公网 IP 呜呜 @NSAgold @IvanLi127 @XiLingHost 谢谢佬的建议! mark 了! |
25
yufeng0681 120 天前
@XiLingHost #18 这样的规则还不够细化,群主开一台机器成本也不低。 最好是弄成好几个地方的电脑不用关,或者说不会一起关的形态。 保证随时能下载到
|
26
nakroy 39 天前
既然都开源了,那可以放在 huggingface 上,国内可以用同步的镜像站 hf-mirror.com 下载,很适合直接在服务器上用 huggingface-cli 命令行直接下载
|