开源一个纯 Go 编写的高性能内嵌型 KV 数据库 NutsDB，支持事务以及多种数据结构。

大家好，分享一个最近开源的 KV 数据库项目 NutsDB。是我对 nosql 一个阶段性实践吧。

NutsDB 是纯 Go 语言编写一个简单、高性能、内嵌型、持久化的 key-value 数据库。

NutsDB 支持 ACID 事务，所有的操作都在事务中执行，保证了数据的完整性。NutsDB 从 v0.2.0 版本开始支持多种数据结构，如列表(list)、集合(set)、有序集合(sorted set)。

项目地址

https://github.com/xujiajun/nutsdb

项目特性

高性能
支持 ACID 事务
支持基本的 Put、Delete、Get 操作
支持前缀扫描
支持范围扫描
除了基本的 String，还支持多种数据结构如列表(list)、集合(set)、有序集合(sorted set)

项目背景

对于现状或多或少的不满

我想找一个用纯 go 编写，尽量简单（方便二次开发、研究）、高性能（读写都能快一点）、内嵌型的（减少网络开销）数据库，最好支持事务。因为我觉得对于数据库而言，数据完整性很重要。如果能像 Redis 一样支持多种数据结构就更好了。而像 Redis 一般用作缓存，对于事务支持也很弱。

找到几个备选项：

BoltDB BoltDB 是一个基于 B+ tree，有着非常好的读性能，还支持很实用的特性：范围扫描和按照前缀进行扫描。有很多项目采用了他。虽然现在官方不维护，由 etcd 团队在维护他也支持 ACID 事务，但是他的写性能不是很好。如果对写性能要求不高也值得尝试。

GoLevelDB GoLevelDB 是 google 开源的 leveldb 的 go 语言版本的实现。他的性能很高，特别是写性能，据官方 c++版本说可以到 40w+次写 /秒，他基于 LSM tree 实现。他不支持事务。

Badger Badger 同样是基于 LSM tree，不同的是他把 key/value 分离。据他官网描述是基于为 SSD 优化。同是他也支持事务。但是我简单写了 benchmark 发现他的写性能没我想象中高。

好奇心的驱使

对于如何实现 kv 数据库的好奇心吧。数据库可以说是系统的核心，了解数据库的内核或者自己有实现，对更好的用轮子或者下次根据业务定制轮子都很有帮助。

基于以上两点，我决定尝试开发一个简单的 kv 数据库，性能要好，功能也要强大（至少他们好的功能特性都要继承）。

如上面的选项，我发现大致基于存储引擎的模型分：B+ tree 和 LSM tree。基于 B+ tree 的模型相对后者成熟。一般使用覆盖页的方式和 WAL （预写日志）来作崩溃恢复。而 LSM tree 的模型他是先写 log 文件，然后在写入 MemTable 内存中，当一定的时候写回 SSTable，文件会越来越多，于是他一般作法是在后台进行合并和压缩操作。一般来说，基于 B+ tree 的模型写性能不如 LSM tree 的模型。而在读性能上比 LSM tree 的模型要来得好。当然 LSM tree 的模型也可以优化，比如引入 BloomFilter。但是这些模型还是太复杂了。我喜欢简单，简单意味着好实现，好维护，相对不容易出错。

直到我找到 bitcask 这种模型，他其实本质上也算 LSM tree 的范畴吧。他模型非常简单很好理解和实现，很快我就实现了一个版本。但是他的缺点是不支持范围扫描。我尝试去优化他，又开发一个版本，基于 B+ tree 作为索引，满足了范围扫描的问题，读性能是够了，写性能很一般，又用 mmap 和对原模型作了精简，这样又实现了一版。写性能又提高了几十倍。现在这个版本基本上都实现上面提到的数据库的一些有用的特性，包括支持范围扫描和前缀扫描、包括支持 bucket、事务等，还支持了更多的数据结构（ list、set、sorted set ）。从 benchmark 来看，NutsDB 性能只高不低，这是 example 里面的代码 https://github.com/xujiajun/nutsdb/blob/master/examples/batch/put/main.go ，100w 条数据，我本机基本上 2s 跑完，写性能可达到 40~50W+/秒。

天下没有银弹，NutsDB 也有他的局限，比如随着数据量的增大，索引变大，启动会慢。只想说 NutsDB 还有很多优化和提高的空间，由于本人精力以及能力有限。所以把这个项目开源出来。更重要的是我认为一个项目需要有人去使用，有人提意见才会成长。

希望一起来参与贡献，欢迎 Star、提 issues、提交 PR ！