V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
Andy1999
V2EX  ›  程序员

400M 的数据库, 1 亿 9 千行用什么索引比较好

  •  
  •   Andy1999 · 2016-04-04 19:52:27 +08:00 via iPhone · 13768 次点击
    这是一个创建于 3185 天前的主题,其中的信息可能已经有所发展或是发生改变。
    直接 TXT 按照 hash 划分可以嘛?
    第 1 条附言  ·  2016-04-05 18:57:42 +08:00
    V2EX 变贴吧?
    要 400M 没有 自己整理吧
    TG 群 https://telegram.me/joinchat/BICsbj5LZUyME9yGJqR0hA
    116 条回复    2016-06-27 07:02:18 +08:00
    1  2  
    moeeducn
        101
    moeeducn  
       2016-04-05 17:24:28 +08:00 via iPad
    [email protected] ,请楼主好心分享一份
    hongcha
        102
    hongcha  
       2016-04-05 18:04:11 +08:00
    同 es 楼主好人 [email protected]
    xngnln
        103
    xngnln  
       2016-04-05 18:12:50 +08:00
    同求,楼主好人, [email protected]
    BooksE
        104
    BooksE  
       2016-04-05 18:41:04 +08:00
    lz 好人。
    [email protected]
    gancl
        105
    gancl  
       2016-04-05 18:45:57 +08:00
    这是求种吗? 为什么都留 email
    keysona
        106
    keysona  
       2016-04-05 18:50:55 +08:00
    楼主来一份学习
    [email protected]
    谢谢了!
    cstj0505
        107
    cstj0505  
       2016-04-05 18:51:47 +08:00
    lz 好人,同求一份 tonytao0505@outlookcom
    thisisvoa
        108
    thisisvoa  
       2016-04-05 19:50:14 +08:00
    lz 好人,同求一份 [email protected] @_@
    dphdjy
        109
    dphdjy  
       2016-04-05 19:52:36 +08:00 via Android
    话说楼上那么要数据的人?要来干嘛?既然没正规用途?为何要要?只是留以备用吗~¯\_( •́ω•̀ )_/¯
    xlrtx
        110
    xlrtx  
       2016-04-05 21:03:32 +08:00
    100M 条, 400M 字节..是不是多看了一个零
    https://transfer.sh/yqU6x/adddb.py
    3dwelcome
        111
    3dwelcome  
       2016-04-05 21:56:42 +08:00 via Android
    @xlrtx
    我们也下了资源、一般来说、纯文本 400m,数据量在 1900 万条是合理范围。也许楼主用的是压缩过的特殊格式。
    3dwelcome
        112
    3dwelcome  
       2016-04-05 21:59:51 +08:00 via Android
    对了、我们是按照首字符分组、然后去重复排序、用二分查找的、效率还行。不过数据量要大不少、 400m 应该是很强的压缩技术了。
    Andy1999
        113
    Andy1999  
    OP
       2016-04-05 22:34:11 +08:00 via iPhone
    @3dwelcome 我去密码了
    Braid
        114
    Braid  
       2016-04-06 08:54:48 +08:00
    多谢楼主,建议看看 http://www.coreseek.cn/,我打算用这个测试下你的 400M 数据
    276562578
        115
    276562578  
       2016-04-07 16:28:46 +08:00
    @Andy1999 想知道你是怎么去重的?用 sort 么?
    northisland
        116
    northisland  
       2016-06-27 07:02:18 +08:00
    一直怀疑字符串 hash 会占额外的空间,但一直没摸到 hash 的瓶颈。

    曾经用 python hash 索引过 20m 数量的文件名,木有问题~~

    楼主 100m ,能给个反馈么?
    1  2  
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1012 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 83ms · UTC 20:22 · PVG 04:22 · LAX 12:22 · JFK 15:22
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.