V2EX › ershierdu 的所有回复 › 第 1 页 / 共 32 页

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

1 2 3 4 5 6 7 8 9 10 ... 32

❮

❯

20 天前

回复了 ershierdu 创建的主题 › 投资 › 2024 年 12 月，怎么买美股/港股？

@dya 盈透是必须用护照吗？

20 天前

回复了 ershierdu 创建的主题 › 投资 › 2024 年 12 月，怎么买美股/港股？

@Artpop 谢谢。ib 是指盈透证券对吧，“不用人在内地”是说“必须在香港吗”

@WasteNya 港股通要 50w 吧，没打算投这么多哈哈

@iampure 可以人在内地吗？

38 天前

回复了 ershierdu 创建的主题 › 问与答 › 安卓的 live photo 有统一标准吗？ OPPO 和小米有点像，但又不完全一样

@Biggoldfish
@Muniesa
感谢二位，在主楼里 append 了一些信息

232 天前

回复了 amirobotics 创建的主题 › 生活 › 媳妇说要将摄像头里的视频存起来，让宝宝长大看…但是一个月的量就有 150gb - 200gb+

我倒觉得这个事挺有意思的。楼上说数据量太大没时间看，但即便是现有的 AI 都接近能自动提取精彩内容了，再过几十年这绝对不是问题。重点在于，存储、计算资源只会越来越便宜，检索引擎会越来越智能，但原始数据删掉就没有了。
将来可能用自然语言描述一个场景，AI 就能把所有类似的记录全查出来，难以想象如果我有影像来呼应童年回忆是什么感受。

所以我基本不删任何照片，全部上云……

243 天前

回复了 kernelpanic 创建的主题 › 程序员 › 超过 1TB 的 csv 文件，有没有快速的处理方法

不了解最新的分布式架构，但感觉这也太符合 MapReduce 的思路了…

逻辑上：
1. 把文件扫一遍，得到 id->list[pair<content,sort>]的映射。
2. 单独为每个 id 的内容做内部排序。

实现上：
1.无论用什么方法，一轮文件 IO 把数据都进来都是需要的。为了后续处理更方便，再多加一轮 IO ，先把大文件按 1<id<10w, 10w+1<id<20w...切成多个小文件，这样每个小文件都是独立的，后续处理时维护的中间状态会少很多。
2. 每个小文件用一个进程处理，得到 id->list[pair<content,sort>]的中间结果。要么像楼上说的直接进数据库，要么每个 id 的内容放在一个文件里。一个小文件跑完后就可以从中间结果生成最终数据了。

并行度可以在切小文件的时候控制（每个小文件 10w 还是 100w 个 id ）。

前提：
你存放最终结果的数据库需要能承受这么大的最终数据，否则啥办法都白搭。

287 天前

回复了 ttomatoo 创建的主题 › 问与答 › C 盘焦虑症各位有吗？ C 盘分多大合适？

@wxgsorry 有价值的数据都在云端（甚至桌面我都在用坚果云同步）。否则，硬盘损坏/电脑丢失等情况造成数据丢失的可能性，会比 C 盘满了更能让我焦虑……

309 天前

回复了 Margelator 创建的主题 › 问与答 › 写一句你所知的计算机界名言名句。

翻了两页没人提这个：
Attention is all you need.

333 天前

回复了 LuckyPocketWatch 创建的主题 › 问与答 › 问下搬家的利润到底多大？搬了两次家，搞得我都不想码了，想去搬家了。。

六月份刚南京搬上海，全部走顺丰大件的快递，算下来大概一斤一块钱。
当然坏处是没法跟人同时到

333 天前

回复了 rabbbit 创建的主题 › C++ › C++ 如何在函数中获取作为参数的数组的长度？

从问题和给的样例来看，OP 应该是刚入门？
建议先学习一下 STL ，也就是 std::vector 之类的。楼上说的其他方案都更高阶了，可能不是现阶段你需要的

333 天前

回复了 kiduu 创建的主题 › 程序员 › 阿里云抄袭我的幻兽帕鲁服务端一键安装脚本！

@LuBenwei6p
微信公众号“阿里云开发者”（带阿里蓝标认证的），最新一篇就是怎么用阿里云搭这个游戏的服务器哈哈哈。
不过这个貌似是游戏开发商提供的方案，可能跟你理解的私服不一样

1 2 3 4 5 6 7 8 9 10 ... 32

❮

❯