wukong引擎源码分析之索引——part 2 持久化直接set（key，docID数组）在kv存储里

前面说过，接收indexerRequest的代码在index_worker.go里：

func (engine *Engine) indexerAddDocumentWorker(shard int) {

    for {

        request := <-engine.indexerAddDocumentChannels[shard] //关键

        addInvertedIndex := engine.indexers[shard].AddDocument(request.document, request.dealDocInfoChan) // 向反向索引表(数组)中加入一个文档

        // save

        if engine.initOptions.UsePersistentStorage {

            for k, v := range addInvertedIndex {

                engine.persistentStorageIndexDocumentChannels[shard] <- persistentStorageIndexDocumentRequest{

                    typ:            "index",

                    keyword:        k,

                    keywordIndices: v,

                }

            }

        }

        atomic.AddUint64(&engine.numTokenIndexAdded,

            uint64(len(request.document.Keywords)))

        atomic.AddUint64(&engine.numDocumentsIndexed, )

    }

}

持久化的代码：engine/persistent_storage_worker.go

package engine

import (

    "bytes"

    "encoding/binary"

    "encoding/gob"

    "github.com/huichen/wukong/core"

    "github.com/huichen/wukong/types"

    "sync"

    "sync/atomic"

)

type persistentStorageIndexDocumentRequest struct {

    typ string //"info"or"index"

    // typ=="info"时，以下两个字段有效

    docId   uint64

    docInfo *types.DocInfo

    // typ=="index"时，以下两个字段有效

    keyword        string

    keywordIndices *types.KeywordIndices

}

func (engine *Engine) persistentStorageIndexDocumentWorker(shard int) {

    for {

        request := <-engine.persistentStorageIndexDocumentChannels[shard]

        switch request.typ {

        case "info":

            // 得到key

            b := make([]byte, )

            length := binary.PutUvarint(b, request.docId)

            // 得到value

            var buf bytes.Buffer

            enc := gob.NewEncoder(&buf)

            err := enc.Encode(request.docInfo)

            if err != nil {

                atomic.AddUint64(&engine.numDocumentsStored, )

                return

            }

            // 将key-value写入数据库

            engine.dbs[shard][getDB(request.typ)].Set(b[:length], buf.Bytes())

            atomic.AddUint64(&engine.numDocumentsStored, )

        case "index":

            // 得到key

            b := []byte(request.keyword)

            // 得到value

            var buf bytes.Buffer

            enc := gob.NewEncoder(&buf)

            err := enc.Encode(request.keywordIndices)

            if err != nil {

                return

            }

            // 将key-value写入数据库

            engine.dbs[shard][getDB(request.typ)].Set(b, buf.Bytes())

        }

    }

}

func (engine *Engine) persistentStorageRemoveDocumentWorker(docId uint64, shard int) {

    // 得到key

    b := make([]byte, )

    length := binary.PutUvarint(b, docId)

    // 从数据库删除该key

    engine.dbs[shard][getDB("info")].Delete(b[:length])

}

func (engine *Engine) persistentStorageInitWorker(shard int) {

    var finish sync.WaitGroup

    finish.Add()

    // 恢复docInfo

    go func() {

        defer finish.Add(-)

        engine.dbs[shard][getDB("info")].ForEach(func(k, v []byte) error {

            key, value := k, v

            // 得到docID

            docId, _ := binary.Uvarint(key)

            // 得到data

            buf := bytes.NewReader(value)

            dec := gob.NewDecoder(buf)

            var data types.DocInfo

            err := dec.Decode(&data)

            if err == nil {

                // 添加索引

                core.AddDocInfo(shard, docId, &data)

            }

            return nil

        })

    }()

    // 恢复invertedIndex

    go func() {

        defer finish.Add(-)

        engine.dbs[shard][getDB("index")].ForEach(func(k, v []byte) error {

            key, value := k, v

            // 得到keyword

            keyword := string(key)

            // 得到data

            buf := bytes.NewReader(value)

            dec := gob.NewDecoder(buf)

            var data types.KeywordIndices

            err := dec.Decode(&data)

            if err == nil {

                // 添加索引

                core.AddKeywordIndices(shard, keyword, &data)

            }

            return nil

        })

    }()

    finish.Wait()

    engine.persistentStorageInitChannel <- true

}

可以看到，倒排索引存在DB里是丑陋的，直接set(key, value) 其中，key是倒排列表的关键字，而value是doc id list也就是数组。

如果索引比较多，每次去DB set是非常耗时的，尤其针对同一个keyword有doc id插入时！

总之，wukong对于持久化的做法很丑陋！

wukong引擎源码分析之索引——part 2 持久化直接set（key，docID数组）在kv存储里的更多相关文章

wukong引擎源码分析之索引——part 1 倒排列表本质是有序数组存储
searcher.IndexDocument(0, types.DocumentIndexData{Content: "此次百度收购将成中国互联网最大并购"}) engine.go ...
wukong引擎源码分析之索引——part 3 文档评分无非就是将docid对应的fields信息存储起来，为搜索结果rank评分用
之前的文章分析过,接受索引请求处理的代码在segmenter_worker.go里: func (engine *Engine) segmenterWorker() { for { request : ...
wukong引擎源码分析之搜索——docid有序的数组里二分归并求交集，如果用跳表的话，在插入索引时会更快
searcher.Search(types.SearchRequest{Text: "百度中国"}) // 查找满足搜索条件的文档,此函数线程安全 func (engine *En ...
Spark源码分析 – 汇总索引
http://jerryshao.me/categories.html#architecture-ref http://blog.csdn.net/pelick/article/details/172 ...
bleve搜索引擎源码分析之索引——mapping真复杂啊
接下来看看下面index部分的源码实现: data := struct { Name string Des string }{ Name: "hello world this is bone ...
转:Irrlicht 0.1引擎源码分析与研究(一)
目录(?)[-] 主要技术特性引擎概览 Irrlicht的窗口管理 Irrlicht引擎主要是由一个名叫Nikolaus Gebhardt奥地利人所设计,是sourceforge上的一个开源项目 ...
lua源码分析伪索引
Lua 提供了一个注册表, 这是一个预定义出来的表, 可以用来保存任何 C 代码想保存的 Lua 值. 这个表可以用有效伪索引 LUA_REGISTRYINDEX 来定位. 任何 C 库都可以在这张 ...
bleve搜索引擎源码分析之索引——mapping和lucene一样，也有_all
例子: package main import ( "fmt" "github.com/blevesearch/bleve" ) func main() { / ...
4 weekend110的textinputformat对切片规划的源码分析 + 倒排索引的mr实现 + 多个job在同一个main方法中提交
好的,现在,来weekend110的textinputformat对切片规划的源码分析, Inputformat默认是textinputformat,一通百通. 这就是今天,weekend110的te ...

随机推荐

集合-Vector
Vector中的操作是线程安全的. public Vector(int initialCapacity, int capacityIncrement) { super(); if (initialCa ...
****如何优雅的用Axure装逼？高保真原型心得分享
本文核心内容点:- 啥是高保真原型?(附简单说明原型)- Axure可以画出什么水准的高保真?(给示例,开启装逼模式)- 高保真原型图技巧:- 啥时候上高保真?适用场景 and 不适用场景啥是高保真 ...
某考试 T1 line
状压dp+矩阵转移,据说正解是dfs出的合法状态,,但难道不是三个for就行了吗2333 #include<iostream> #include<cmath> #include ...
File类文件过滤器
创建过滤器 package cn.zmh.File; import java.io.File; import java.io.FileFilter; // 实现FileFilter类的功能 publi ...
5.Longest Palindrome substring
/* * 5.Longest Palindrome substring * 2016-4-9 by Mingyang 自然而然的想到用dp来做 * 刚开始自己做的时候分的条件太细,两个index相等, ...
Mac安装IntelliJ IDEA时快捷键冲突设置
Mac有专门的快捷键,和Linux/Windows的不一样. 下面是发现的一些需要屏蔽的快捷键: 一.搜狗输入法: 暂时没发现有冲突. 二.系统代码提示:Ctrl+空格(输入法开关) 三.其它暂无 ...
U盘容纳不了大于4G的文件比如ISO文件咋办？
格式化U盘成NTFS格式就行了,不这么做8,16,32G Upan都容纳不下来.
IO多路复用：select、poll、epoll示例
一.IO多路复用所谓IO多路复用,就是通过一种机制,一个进程可以监视多个描述符,一旦某个描述符就绪(一般是读就绪或者写就绪),能够通知程序进行相应的读写操作. Linux支持IO多路复用的系统调用有 ...
android 项目R文件丢失解决的方法
R文件丢失的原因有非常多,这里提供几种解决的方法: 1. 选中项目,点击 Project - Clean , 清理一下项目. 2. 选中项目,右键选择 Android Tools - Fix P ...
Spring Boot与Micronaut性能比较
文章转载出处:微信公众号——锅外的大佬链接:https://mp.weixin.qq.com/s/MdBByJ0ju-rROKg7jsWygA 今天我们将比较两个在JVM上构建微服务的框架:Spri ...

wukong引擎源码分析之索引——part 2 持久化 直接set（key，docID数组）在kv存储里

wukong引擎源码分析之索引——part 2 持久化 直接set（key，docID数组）在kv存储里的更多相关文章

随机推荐

热门专题

wukong引擎源码分析之索引——part 2 持久化直接set（key，docID数组）在kv存储里

wukong引擎源码分析之索引——part 2 持久化直接set（key，docID数组）在kv存储里的更多相关文章