BerkeleyDB 多索引查询

由于性能原因，我们打算将关系型数据库转移到内存数据库中；在内存数据库产品的选型中，我们确定的候选对象有Redis和Berkeley DB；

Redis查询效率不错，并且支持丰富的数据存储结构，但不支持多索引，这样对于比较复杂的sql移植可能会造成数据膨胀；Berkeley DB只支持简单的Key/Value, 但支持多索引查询，对我们目前的应用来说，移植起来更有优势；

下面我们看看，如何为DB建立二级索引；

还是用例子来说明：

一张表中记录学生的信息；每个学生有个唯一的ID，这个id通常就是表的主键；

现在，我们希望通过学生的last_name来查询，这就需要建立二级索引；

注：用词约定：

* 本文提到的“数据库”是指Berkeley DB的database，相当于关系数据库的一个表。

作为SQL的常用表：

CREATE TABLE students(student_id CHAR(4) NOT NULL,lastname CHAR(15),

firstname CHAR(15), PRIMARY KEY(student_id)); CREATE INDEX lname ON students(lastname);

在Berkeley DB中，就是定义为如下结构：

struct student_record {

    char student_id[4];

    char last_name[15];

    char first_name[15];

};

void second()

{

    DB *dbp, *sdbp;

    int ret;

    /* 创建/打开第一个数据库*/

    if ((ret = db_create(&dbp, dbenv, 0)) != 0)

        handle_error(ret);

    if ((ret = dbp->open(dbp, NULL,

        "students.db", NULL, DB_BTREE, DB_CREATE, 0600)) != 0)

        handle_error(ret);

    /* 打开第二个数据库，注意，需要申明这个库支持重复记录，因为学生的last_name不是唯一的，是可能重复的*/

    if ((ret = db_create(&sdbp, dbenv, 0)) != 0)

        handle_error(ret);

    if ((ret = sdbp->set_flags(sdbp, DB_DUP | DB_DUPSORT)) != 0)

        handle_error(ret);

    if ((ret = sdbp->open(sdbp, NULL,

        "lastname.db", NULL, DB_BTREE, DB_CREATE, 0600)) != 0)

        handle_error(ret);

    /* 将二级个库关联到第一个库上. 注：getname是提取key函数*/

    if ((ret = dbp->associate(dbp, NULL, sdbp, getname, 0)) != 0)

        handle_error(ret);

}

/*

* getname -- 从第一个库的键值对中提取第二个库的key(即 last name)

*/

int getname(DB *secondary, const DBT *pkey, const DBT *pdata, DBT *skey)

{

    /*

     * 这里第二个key是数据的简单结构，所以并不需要做其它的工作，直接返回就完事。

     *  如果第二个key是需要从复杂记录中提取出来再组建，这个用户函数可能需要做分配空间和copy数据的工作；在这种情况下，对于第二个键的DBT结构需要设置 DB_DBT_APPMALLOC 标志位；*/

    memset(skey, 0, sizeof(DBT));

    skey->data = ((struct student_record *)pdata->data)->last_name;

    skey->size = sizeof(((struct student_record *)pdata->data)->last_name);

    return (0);

}

插入数据

从开发者的角度来看，插入数据与第二个索引数据库无关，直接操作第一个数据库中即可：

struct student_record s;

DBT data, key;

memset(&key, 0, sizeof(DBT));

memset(&data, 0, sizeof(DBT));

memset(&s, 0, sizeof(struct student_record));

key.data = "WC42";

key.size = 4;

memcpy(&s.student_id, "WC42", sizeof(s.student_id));

memcpy(&s.last_name, "Churchill      ", sizeof(s.last_name));

memcpy(&s.first_name, "Winston        ", sizeof(s.first_name));

data.data = &s;

data.size = sizeof(s);

if ((ret = dbp->put(dbp, txn, &key, &data, 0)) != 0)

    handle_error(ret);

删除数据

删除数据可以通过第一个索引（student_id）来删除，也可以通过第二个索引（last_name）来删除，无论使用哪个索引删除，被删除的都是第一个库中的真实数据；

eg：使用第一个索引删除：

BT key;

memset(&key, 0, sizeof(DBT));

key.data = "WC42";

key.size = 4;

if ((ret = dbp->del(dbp, txn, &key, 0)) != 0)

    handle_error(ret);

eg：使用二级个索引删除：

DBT skey;

memset(&skey, 0, sizeof(DBT));

skey.data = "Churchill      ";

skey.size = 15;

if ((ret = sdbp->del(sdbp, txn, &skey, 0)) != 0)

    handle_error(ret);

这里需要注意的是，第二个索引并非唯一性索引，所以可能对应多条数据，执行删除操作，将删除所有对应的数据；

查询数据

使用第一个索引查询数据，使用DB->get()；

使用第二个索引查询数据，可使用DB->pget() 或者 DB->pget()

两者的区别就是，如果使用DB->pget() ，则会将查询到的数据对应的第一个索引key同时返回；（DBC->pget()也是这样）

这里给出两者的函数原型：

#include <db_cxx.h>

int Db::get(DbTxn *txnid, Dbt *key, Dbt *data, u_int32_t flags);

int Db::pget(DbTxn *txnid, Dbt *key, Dbt *pkey, Dbt *data, u_int32_t flags);

pkey即第一索引的key；

eg：

DBT data, pkey, skey;

memset(&skey, 0, sizeof(DBT));

memset(&pkey, 0, sizeof(DBT));

memset(&data, 0, sizeof(DBT));

skey.data = "Churchill      ";

skey.size = 15;

if ((ret = sdbp->pget(sdbp, txn, &skey, &pkey, &data, 0)) != 0)

    handle_error(ret);

错误处理

在DS或CDS上更新二级索引时，可能会产生以下错误：

• 0

• DB_BUFFER_SMALL

• DB_NOTFOUND

• DB_KEYEMPTY

• DB_KEYEXIST

为了防止这些错误，在索引更新后，最好立刻删除这个二级索引，然后重建；

注意：DB_RUNRECOVERY 和 DB_PAGE_NOTFOUND属于严重级错误，一般不会发生；

如果Berkeley DB返回了这类错误，需要首先检查数据库的完整性（使用DB->verify())，确认没问题后再重建索引；

总结

一旦调用DB->associate() 将两个索引库关联起来，二级索引就成为第一数据库的另一个入口；

所有的更新操作都会影响与其关联的索引库；

在二级索引上，游标的操作函数都可正常使用；

需要指出的是，对于插入操作，BDB禁止通过二级索引来插入数据，因为那样的话，就没有方法为第一数据库指明主索引。应用程序，应该在第一个数据库上使用DB->put() or DBC->put()来插入数据；

可以对建立任意多个二级索引，BDB中对这方面没有限制；只要内存大小允许，以及文件描述符够用，理论上对于一个数据库可以建立任意多个二级索引；当然，索引不是越多越好，在数据更新时，索引的更新也是不小的代价；所以，设计阶段，对于索引的建立，需要精心的设计一二；

如果发现二级索引失效了，应该通过调用DB->remove()将其删除，同时，再调用一次DB->associate() 方法来生成新的索引；

如果二级索引库不再需要了，需要先关闭数据库句柄，DB->close()，再将其删除：DB->remove()；

关闭主索引库句柄时，会自动关闭所以与其关联的二级索引句柄；

更多参考

《Reference Guide for Berkeley DB》

http://docs.oracle.com/cd/E17076_03/html/index.html

Posted by: 大CC | 26SEP,2013

博客：blog.me115.com

微博：新浪微博

BerkeleyDB 多索引查询的更多相关文章

SQL Server-聚焦强制索引查询条件和Columnstore Index（九）
前言本节我们再来穿插讲讲索引知识,后续再讲数据类型中的日期类型,简短的内容,深入的理解,Always to review the basics. 强制索引查询条件前面我们也讲了一点强制索引查询的知 ...
mongodb 关系、引用、覆盖索引查询
一.关系 MongoDB 的关系表示多个文档之间在逻辑上的相互联系.文档间可以通过嵌入和引用来建立联系.MongoDB 中的关系可以是:1对1,1对多,多对1,多对多. 一个用户可以用多个地址,这是典 ...
MongoDB 覆盖索引查询
MongoDB 覆盖索引查询官方的MongoDB的文档中说明,覆盖查询是以下的查询: 所有的查询字段是索引的一部分所有的查询返回字段在同一个索引中由于所有出现在查询中的字段是索引的一部分, Mo ...
MongoDB覆盖索引查询
官方的MongoDB的文档中说明,覆盖查询是以下的查询: 1. 所有的查询字段是索引的一部分 2. 所有的查询返回字段在同一个索引中由于所有出现在查询中的字段是索引的一部分, MongoDB 无需在 ...
Mysql 版本号、存储引擎、索引查询
[1]Mysql 版本号.存储引擎.索引查询 # 查看数据库版本号 SELECT VERSION(); # 查看数据库支持的引擎(默认即Support == DEFAULT行) SHOW ENGINE ...
mysql 索引查询、创建 create index 与 add index 的区别
1.索引查询 ------TABLE_SCHEMA 库名:TABLE 表名 ------AND UPPER(INDEX_NAME) != 'PRIMARY' 只查询索引,不需要主键 SELECT ...
OceanBase支持索引查询啦！
OceanBase支持索引后,上面的例子中用索引的查询速度是不用索引查询速度的40倍! 相关阅读 OceanBase简史 OceanBase Join操作 OceanBase内部表 OceanBase ...
cassandra——可以预料的查询，如果你的查询条件有一个是根据索引查询，那其它非索引非主键字段，可以通过加一个ALLOW FILTERING来过滤实现
cassandra的索引查询和排序转自:http://zhaoyanblog.com/archives/499.html cassandra的索引查询和排序 cassandra的查询虽然很弱,但 ...
elasticsearch索引查询，日志搜素
索引查询 http://10.199.137.115:9200/_cat/indices?format=json 返回json字符串的索引状态增加索引名称过滤 http://10.199.137.1 ...

随机推荐

Java SE、Java EE和Java ME有什么区别？
Java现在已不仅仅是一种语言,从广义上说,它代表了一个技术体系.该体系根据应用方向的不同主要分为Java SE.Java EE和Java ME的3个部分. 1998年12月份Sun公司公布的Java ...
php curl语句的用法
system32文件夹下,修改php.ini文件,找到;extension= php_curl.dll行,去掉前面的;号,保存,重启服务器.在站点目录下建立一个PHP文件,内容如下 $ch = cur ...
Java 如何快速序列化
1,定义变量
ACM题目————数素数
令Pi表示第i个素数.现任给两个正整数M <= N <= 104,请输出PM到PN的所有素数. 输入格式: 输入在一行中给出M和N,其间以空格分隔. 输出格式: 输出从PM到PN的所有素数 ...
java程序输入10个数字并求和
课程作业: 模仿JavaAppArguments.java示例,编写编写一个程序,此程序从命令行接受多个数字,求和之后输出结果. 设计思想: 先从命令行读出数字,然后计算各个数字之和.求出结果. 流程 ...
javaWEB国际化：DateFormat，NumberFormat，MessageFormat，ResourceBundle的使用
DateFormat:格式化日期的工具类,本身是一个抽象类: NumberFormat:格式化数字到数字字符串,或货币字符串的字符类; MessageFormat: 可以格式化模式字符串,模式字 ...
javaScript去除空格或换行
js 去掉空格.回车.换行 1 releaseDesc = releaseDesc.replace(/\ +/g,"").replace(/[\r\n]/g,"" ...
VS2015+Windows 10下配置opencv3.0
博客园样式换了,原先的文章排版太乱了,新发一篇 ##0. 安装 opencv 3.0 首先去官网下载安装包(其实是个压缩包),释放到随便的一个路径里面为了方便描述,下面把这个路径称为 cvPath. ...
Entity Framework 第六篇分页查询
目前分页支持单表 , ) where TEntity : class { ) * size; var _reset = Get(filter, orderBy); total = _reset.Cou ...
Git合并开发代码分支到测试代码分支
——转载请注明出自天外归云的博客园用TortoiseGit下载代码到本地首先需要在本机安装好TortoiseGit.然后在随便哪个路径下比如D盘,右键“Git Clone”: 然后URL处选择项目 ...

BerkeleyDB 多索引查询

BerkeleyDB 多索引查询的更多相关文章

随机推荐

热门专题