这两天刚刚文本细读研究了一下梁博的微博,发现了这么个好东西。据说梁博的爬虫底层也是用这个数据库的。梁博之后也没再分享了。但是看美军据说在用?
- 2013-01-08 单机,从空库开始,插入 1 亿条微博长度的 key-value paire,耗时 5m26s,每秒插入 30 万条,把这 1 亿条微博随机 query 出来,并写入磁盘,耗时 1m29s,每秒查询 112 万次。 很快就要发布和大家见面啦,这次不采用 THUIRDB 的推广方式,我们换个花样。对了这个 DB 的名字,马老师钦定叫#THUIRDB-D#。D 表示动态的意思
- 回复 @果栋布丁: THUIRDB 是单机 100 亿。。可执行程序的 size,压缩比,速度,都完胜 leveldb 的。现在 thuirdb 已经在微博寻人上经受了很多考验,时机成熟我就开放自由使用,开源尚无时间表,因为现在开源,也没有意义,没有 feel。。 //@果栋布丁:和梁总的比呢? 梁总的也开源吧。 @梁斌 penny
- 2011-06-25 有 server-client 概念的 DB 是 TT,MemcacheDB,Redis,Mongodb 等 include 一个.h 文件,link 若干.lib 的内嵌概念的 DB 应该是 BDB,TC,LevelDB,THUIRDB 等。要把这两票人马分开
- 2011-05-24 前方捷报传来,查询速度提升 250%( 2.5 倍)( 10 万量级搜索耗时由 0.268 降低到 0.076s,不计读盘时间),解压速度十分给力。索引结构压缩方面,由 45k 降低到 24k,在此前压缩的基础上,再压掉 46%(21/45)。详细大数据量测试结果等 @THUIRDB 给出。理论上 100 亿条数据的索引差不多能从 2.5G 降低到 1.35G 。
- 2011-05-16 祝你成功 //@THUIRDB:另外 THUIRDB 做库过程可以看做是线性,非常快,我真希望有这么一个环境能够让我做这种顶峰体验啊 //@THUIRDB:假定一个 100 亿量级的数据集,那么索引不会超过:10G*3bit/8=3.75GB,也就是我曾说的,在一个 4G 内存的服务器上,可以支撑 100 亿的 KV 查询,每次查询只 touch 一次磁盘。
- 2011-05-15 今天差不多了,该回家了 //@THUIRDB:BDB 设了 3.5G 内存的 cache,做库时一直在内存中,最后才写库,因此很快,特此说明。
- 2011-05-15 转 //@THUIRDB:库文件小于原始语料,意味着可以在更大程度上让数据库能换入内存,例如如果一台测试机是 1G 内存,则 thuirdb 可以很容易全部加载进内存,而其他数据库,则存在部分无法加载到内存,这样总会有一定比例的数据去磁盘中读,速度必然慢。
其他线索摘抄到 pastebin 上了 https://pastebin.com/vyBnn3KV