pzhdfy 最近的时间轴更新
pzhdfy
ONLINE

pzhdfy

🏢  快手 / 大数据架构师
V2EX 第 86161 号会员,加入于 2014-12-11 11:20:38 +08:00
今日活跃度排名 27447
hadoop生态开源贡献者
pzhdfy 最近回复了
这不是大数据经典处理方法吗

将 PersonListA.csv 通过 name hash 拆分为 10 个,PersonListA_1.csv,PersonListA_2.csv...,PersonListA_10.csv (或者更多,每个文件能载入内存就行)
规则是每行数据通过 hash(name)%10 来确定放到哪个文件

将 PersonListB.csv 也是一样的原理,生成 PersonListB_1.csv,PersonListB_2.csv...,PersonListB_10.csv

这样 PersonListA_1.csv 只会根 PersonListB_1.csv 有相同 name 的数据,
所以只需要 10 组文件对比就行
2023-10-12 15:04:31 +08:00
回复了 pzhdfy 创建的主题 iCloud 国区 icloud 2T+music 拼车(年/半年/季付)
满了
2023-10-12 10:24:05 +08:00
回复了 pzhdfy 创建的主题 iCloud 国区 icloud 2T+music 拼车(年/半年/季付)
仅有最后一个了
2023-10-11 22:39:42 +08:00
回复了 pzhdfy 创建的主题 iCloud 国区 icloud 2T+music 拼车(年/半年/季付)
还有 2 个车位
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   4465 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 20ms · UTC 10:08 · PVG 18:08 · LAX 02:08 · JFK 05:08
Developed with CodeLauncher
♥ Do have faith in what you're doing.