engine.go

package engine

import (

    "fmt"

    "github.com/huichen/murmur"

    "github.com/huichen/sego"

    "github.com/huichen/wukong/core"

    "github.com/huichen/wukong/storage"

    "github.com/huichen/wukong/types"

    "github.com/huichen/wukong/utils"

    "log"

    "os"

    "runtime"

    "sort"

    "strconv"

    "sync/atomic"

    "time"

const (

    NumNanosecondsInAMillisecond = 1000000

    PersistentStorageFilePrefix  = "wukong"

type Engine struct {

    // 计数器，用来统计有多少文档被索引等信息

    numDocumentsIndexed      uint64

    numDocumentsRemoved      uint64

    numDocumentsForceUpdated uint64

    numIndexingRequests      uint64

    numRemovingRequests      uint64

    numForceUpdatingRequests uint64

    numTokenIndexAdded       uint64

    numDocumentsStored       uint64

    // 记录初始化参数

    initOptions types.EngineInitOptions

    initialized bool

    indexers   []core.Indexer

    rankers    []core.Ranker

    segmenter  sego.Segmenter

    stopTokens StopTokens

    dbs        []storage.Storage

    // 建立索引器使用的通信通道

    segmenterChannel         chan segmenterRequest

    indexerAddDocChannels    []chan indexerAddDocumentRequest

    indexerRemoveDocChannels []chan indexerRemoveDocRequest

    rankerAddDocChannels     []chan rankerAddDocRequest

    // 建立排序器使用的通信通道

    indexerLookupChannels   []chan indexerLookupRequest

    rankerRankChannels      []chan rankerRankRequest

    rankerRemoveDocChannels []chan rankerRemoveDocRequest

    // 建立持久存储使用的通信通道

    persistentStorageIndexDocumentChannels []chan persistentStorageIndexDocumentRequest

    persistentStorageInitChannel           chan bool

func (engine *Engine) Init(options types.EngineInitOptions) {

    // 将线程数设置为CPU数

    runtime.GOMAXPROCS(runtime.NumCPU())

    // 初始化初始参数

    if engine.initialized {

        log.Fatal("请勿重复初始化引擎")

    options.Init()

    engine.initOptions = options

    engine.initialized = true

    if !options.NotUsingSegmenter {

        // 载入分词器词典

        engine.segmenter.LoadDictionary(options.SegmenterDictionaries)

        // 初始化停用词

        engine.stopTokens.Init(options.StopTokenFile)

    // 初始化索引器和排序器

    for shard := 0; shard < options.NumShards; shard++ {

        engine.indexers = append(engine.indexers, core.Indexer{})

        engine.indexers[shard].Init(*options.IndexerInitOptions)

        engine.rankers = append(engine.rankers, core.Ranker{})

        engine.rankers[shard].Init()

    // 初始化分词器通道

    engine.segmenterChannel = make(

        chan segmenterRequest, options.NumSegmenterThreads)

    // 初始化索引器通道

    engine.indexerAddDocChannels = make(

        []chan indexerAddDocumentRequest, options.NumShards)

    engine.indexerRemoveDocChannels = make(

        []chan indexerRemoveDocRequest, options.NumShards)

    engine.indexerLookupChannels = make(

        []chan indexerLookupRequest, options.NumShards)

    for shard := 0; shard < options.NumShards; shard++ {

        engine.indexerAddDocChannels[shard] = make(

            chan indexerAddDocumentRequest,

            options.IndexerBufferLength)

        engine.indexerRemoveDocChannels[shard] = make(

            chan indexerRemoveDocRequest,

            options.IndexerBufferLength)

        engine.indexerLookupChannels[shard] = make(

            chan indexerLookupRequest,

            options.IndexerBufferLength)

    // 初始化排序器通道

    engine.rankerAddDocChannels = make(

        []chan rankerAddDocRequest, options.NumShards)

    engine.rankerRankChannels = make(

        []chan rankerRankRequest, options.NumShards)

    engine.rankerRemoveDocChannels = make(

        []chan rankerRemoveDocRequest, options.NumShards)

    for shard := 0; shard < options.NumShards; shard++ {

        engine.rankerAddDocChannels[shard] = make(

            chan rankerAddDocRequest,

            options.RankerBufferLength)

        engine.rankerRankChannels[shard] = make(

            chan rankerRankRequest,

            options.RankerBufferLength)

        engine.rankerRemoveDocChannels[shard] = make(

            chan rankerRemoveDocRequest,

            options.RankerBufferLength)

    // 初始化持久化存储通道

    if engine.initOptions.UsePersistentStorage {

        engine.persistentStorageIndexDocumentChannels =

            make([]chan persistentStorageIndexDocumentRequest,

                engine.initOptions.PersistentStorageShards)

        for shard := 0; shard < engine.initOptions.PersistentStorageShards; shard++ {

            engine.persistentStorageIndexDocumentChannels[shard] = make(

                chan persistentStorageIndexDocumentRequest)

        engine.persistentStorageInitChannel = make(

            chan bool, engine.initOptions.PersistentStorageShards)

    // 启动分词器

    for iThread := 0; iThread < options.NumSegmenterThreads; iThread++ {

        go engine.segmenterWorker()

    // 启动索引器和排序器

    for shard := 0; shard < options.NumShards; shard++ {

        go engine.indexerAddDocumentWorker(shard)

        go engine.indexerRemoveDocWorker(shard)

        go engine.rankerAddDocWorker(shard)

        go engine.rankerRemoveDocWorker(shard)

        for i := 0; i < options.NumIndexerThreadsPerShard; i++ {

            go engine.indexerLookupWorker(shard)

        for i := 0; i < options.NumRankerThreadsPerShard; i++ {

            go engine.rankerRankWorker(shard)

    // 启动持久化存储工作协程

    if engine.initOptions.UsePersistentStorage {

        err := os.MkdirAll(engine.initOptions.PersistentStorageFolder, 0700)

        if err != nil {

            log.Fatal("无法创建目录", engine.initOptions.PersistentStorageFolder)

        // 打开或者创建数据库

        engine.dbs = make([]storage.Storage, engine.initOptions.PersistentStorageShards)

        for shard := 0; shard < engine.initOptions.PersistentStorageShards; shard++ {

            dbPath := engine.initOptions.PersistentStorageFolder + "/" + PersistentStorageFilePrefix + "." + strconv.Itoa(shard)

            db, err := storage.OpenStorage(dbPath)

            if db == nil || err != nil {

                log.Fatal("无法打开数据库", dbPath, ": ", err)

            engine.dbs[shard] = db

        // 从数据库中恢复

        for shard := 0; shard < engine.initOptions.PersistentStorageShards; shard++ {

            go engine.persistentStorageInitWorker(shard)

        // 等待恢复完成

        for shard := 0; shard < engine.initOptions.PersistentStorageShards; shard++ {

            <-engine.persistentStorageInitChannel

        for {

            runtime.Gosched()

            if engine.numIndexingRequests == engine.numDocumentsIndexed {

                break

        // 关闭并重新打开数据库

        for shard := 0; shard < engine.initOptions.PersistentStorageShards; shard++ {

            engine.dbs[shard].Close()

            dbPath := engine.initOptions.PersistentStorageFolder + "/" + PersistentStorageFilePrefix + "." + strconv.Itoa(shard)

            db, err := storage.OpenStorage(dbPath)

            if db == nil || err != nil {

                log.Fatal("无法打开数据库", dbPath, ": ", err)

            engine.dbs[shard] = db

        for shard := 0; shard < engine.initOptions.PersistentStorageShards; shard++ {

            go engine.persistentStorageIndexDocumentWorker(shard)

    atomic.AddUint64(&engine.numDocumentsStored, engine.numIndexingRequests)

// 将文档加入索引

//

// 输入参数：

//  docId          标识文档编号，必须唯一，docId == 0 表示非法文档（用于强制刷新索引），[1, +oo) 表示合法文档

//  data          见DocumentIndexData注释

//  forceUpdate 是否强制刷新 cache，如果设为 true，则尽快添加到索引，否则等待 cache 满之后一次全量添加

//

// 注意：

//      1. 这个函数是线程安全的，请尽可能并发调用以提高索引速度

//      2. 这个函数调用是非同步的，也就是说在函数返回时有可能文档还没有加入索引中，因此

//         如果立刻调用Search可能无法查询到这个文档。强制刷新索引请调用FlushIndex函数。

func (engine *Engine) IndexDocument(docId uint64, data types.DocumentIndexData, forceUpdate bool) {

    engine.internalIndexDocument(docId, data, forceUpdate)

    hash := murmur.Murmur3([]byte(fmt.Sprint("%d", docId))) % uint32(engine.initOptions.PersistentStorageShards)

    if engine.initOptions.UsePersistentStorage && docId != 0 {

        engine.persistentStorageIndexDocumentChannels[hash] <- persistentStorageIndexDocumentRequest{docId: docId, data: data}

func (engine *Engine) internalIndexDocument(

    docId uint64, data types.DocumentIndexData, forceUpdate bool) {

    if !engine.initialized {

        log.Fatal("必须先初始化引擎")

    if docId != 0 {

        atomic.AddUint64(&engine.numIndexingRequests, 1)

    if forceUpdate {

        atomic.AddUint64(&engine.numForceUpdatingRequests, 1)

    hash := murmur.Murmur3([]byte(fmt.Sprint("%d%s", docId, data.Content)))

    engine.segmenterChannel <- segmenterRequest{

        docId: docId, hash: hash, data: data, forceUpdate: forceUpdate}

// 将文档从索引中删除

//

// 输入参数：

//  docId          标识文档编号，必须唯一，docId == 0 表示非法文档（用于强制刷新索引），[1, +oo) 表示合法文档

//  forceUpdate 是否强制刷新 cache，如果设为 true，则尽快删除索引，否则等待 cache 满之后一次全量删除

//

// 注意：

//      1. 这个函数是线程安全的，请尽可能并发调用以提高索引速度

//      2. 这个函数调用是非同步的，也就是说在函数返回时有可能文档还没有加入索引中，因此

//         如果立刻调用Search可能无法查询到这个文档。强制刷新索引请调用FlushIndex函数。

func (engine *Engine) RemoveDocument(docId uint64, forceUpdate bool) {

    if !engine.initialized {

        log.Fatal("必须先初始化引擎")

    if docId != 0 {

        atomic.AddUint64(&engine.numRemovingRequests, 1)

    if forceUpdate {

        atomic.AddUint64(&engine.numForceUpdatingRequests, 1)

    for shard := 0; shard < engine.initOptions.NumShards; shard++ {

        engine.indexerRemoveDocChannels[shard] <- indexerRemoveDocRequest{docId: docId, forceUpdate: forceUpdate}

        if docId == 0 {

            continue

        engine.rankerRemoveDocChannels[shard] <- rankerRemoveDocRequest{docId: docId}

    if engine.initOptions.UsePersistentStorage && docId != 0 {

        // 从数据库中删除

        hash := murmur.Murmur3([]byte(fmt.Sprint("%d", docId))) % uint32(engine.initOptions.PersistentStorageShards)

        go engine.persistentStorageRemoveDocumentWorker(docId, hash)

// 查找满足搜索条件的文档，此函数线程安全

func (engine *Engine) Search(request types.SearchRequest) (output types.SearchResponse) {

    if !engine.initialized {

        log.Fatal("必须先初始化引擎")

    var rankOptions types.RankOptions

    if request.RankOptions == nil {

        rankOptions = *engine.initOptions.DefaultRankOptions

    } else {

        rankOptions = *request.RankOptions

    if rankOptions.ScoringCriteria == nil {

        rankOptions.ScoringCriteria = engine.initOptions.DefaultRankOptions.ScoringCriteria

    // 收集关键词

    tokens := []string{}

    if request.Text != "" {

        querySegments := engine.segmenter.Segment([]byte(request.Text))

        for _, s := range querySegments {

            token := s.Token().Text()

            if !engine.stopTokens.IsStopToken(token) {

                tokens = append(tokens, s.Token().Text())

    } else {

        for _, t := range request.Tokens {

            tokens = append(tokens, t)

    // 建立排序器返回的通信通道

    rankerReturnChannel := make(

        chan rankerReturnRequest, engine.initOptions.NumShards)

    // 生成查找请求

    lookupRequest := indexerLookupRequest{

        countDocsOnly:       request.CountDocsOnly,

        tokens:              tokens,

        labels:              request.Labels,

        docIds:              request.DocIds,

        options:             rankOptions,

        rankerReturnChannel: rankerReturnChannel,

        orderless:           request.Orderless,

    // 向索引器发送查找请求

    for shard := 0; shard < engine.initOptions.NumShards; shard++ {

        engine.indexerLookupChannels[shard] <- lookupRequest

    // 从通信通道读取排序器的输出

    numDocs := 0

    rankOutput := types.ScoredDocuments{}

    timeout := request.Timeout

    isTimeout := false

    if timeout <= 0 {

        // 不设置超时

        for shard := 0; shard < engine.initOptions.NumShards; shard++ {

            rankerOutput := <-rankerReturnChannel

            if !request.CountDocsOnly {

                for _, doc := range rankerOutput.docs {

                    rankOutput = append(rankOutput, doc)

            numDocs += rankerOutput.numDocs

    } else {

        // 设置超时

        deadline := time.Now().Add(time.Nanosecond * time.Duration(NumNanosecondsInAMillisecond*request.Timeout))

        for shard := 0; shard < engine.initOptions.NumShards; shard++ {

            select {

            case rankerOutput := <-rankerReturnChannel:

                if !request.CountDocsOnly {

                    for _, doc := range rankerOutput.docs {

                        rankOutput = append(rankOutput, doc)

                numDocs += rankerOutput.numDocs

            case <-time.After(deadline.Sub(time.Now())):

                isTimeout = true

                break

    // 再排序

    if !request.CountDocsOnly && !request.Orderless {

        if rankOptions.ReverseOrder {

            sort.Sort(sort.Reverse(rankOutput))

        } else {

            sort.Sort(rankOutput)

    // 准备输出

    output.Tokens = tokens

    // 仅当CountDocsOnly为false时才充填output.Docs

    if !request.CountDocsOnly {

        if request.Orderless {

            // 无序状态无需对Offset截断

            output.Docs = rankOutput

        } else {

            var start, end int

            if rankOptions.MaxOutputs == 0 {

                start = utils.MinInt(rankOptions.OutputOffset, len(rankOutput))

                end = len(rankOutput)

            } else {

                start = utils.MinInt(rankOptions.OutputOffset, len(rankOutput))

                end = utils.MinInt(start+rankOptions.MaxOutputs, len(rankOutput))

            output.Docs = rankOutput[start:end]

    output.NumDocs = numDocs

    output.Timeout = isTimeout

    return

// 阻塞等待直到所有索引添加完毕

func (engine *Engine) FlushIndex() {

    for {

        runtime.Gosched()

        if engine.numIndexingRequests == engine.numDocumentsIndexed &&

            engine.numRemovingRequests*uint64(engine.initOptions.NumShards) == engine.numDocumentsRemoved &&

            (!engine.initOptions.UsePersistentStorage || engine.numIndexingRequests == engine.numDocumentsStored) {

            // 保证 CHANNEL 中 REQUESTS 全部被执行完

            break

    // 强制更新，保证其为最后的请求

    engine.IndexDocument(0, types.DocumentIndexData{}, true)

    for {

        runtime.Gosched()

        if engine.numForceUpdatingRequests*uint64(engine.initOptions.NumShards) == engine.numDocumentsForceUpdated {

            return

// 关闭引擎

func (engine *Engine) Close() {

    engine.FlushIndex()

    if engine.initOptions.UsePersistentStorage {

        for _, db := range engine.dbs {

            db.Close()

// 从文本hash得到要分配到的shard

func (engine *Engine) getShard(hash uint32) int {

    return int(hash - hash/uint32(engine.initOptions.NumShards)*uint32(engine.initOptions.NumShards))

engine.go的更多相关文章

ArcGIS Engine开发之图形查询
图形查询是以用户通过鼠标操作生成的图形几何体为输入条件进行查询的查询,其查询结果为该几何体空间范围内的所有要素.常用的查询方式包括点选.线选.多边形选择.圆形选择和矩形选择等. 相关类与接口图像查询 ...
ArcGIS Engine开发之属性查询
属性查询即基于空间数据的属性数据的查询,通过用户提交SQL语言中的where语句定义的查询条件,对属性数据进行搜索,从而得到查询结果的操作. 相关的类与接口与属性查询功能相关的类主要有QureyFi ...
ArcGIS Engine开发之地图基本操作（4）
ArcGIS Engine开发中数据库的加载 1.加载个人地理数据库数据个人地理数据库(Personal Geodatabase)使用Miscrosoft Access文件(*.mdb)进行空间数据 ...
ArcGIS Engine开发之地图基本操作（3）
地图数据的加载一.加载Shapefile数据 Shapefile文件是目前主流的一种空间数据的文件存储方式,也是不同GIS软件进行数据格式转换常用的中间格式.加载Shapefile数据的方式有两种: ...
ArcGIS Engine开发之地图基本操作（2）
地图数据的加载 1.加载地图文档 ArcGIS Engine支持加载多种类型的数据,有矢量数据的Coverage.Shapefile.dwg/dxf文件,栅格数据的BMP.GRID.控件数据库等.很多 ...
ArcGIS Engine开发前基础知识（4）
ArcGIS不同开发方式的比较关于GIS应用软件的开发,通常有三种方式:C/S架构.网络GIS和移动GIS.ArcGIS平台提供了对三种开发方式的支持,对于采用从C/S架构的大多数开发者来讲,首先想 ...
ArcGIS Engine开发前基础知识（3）
对象模型图一.对象模型图中的类与接口 ArcGIS Engine 提供大量的对象,这些对象之间存在各种各样的关系,如继承.组合.关联等.对象模型图(Object model diagram,ODM) ...
ArcGIS Engine开发前基础知识（2）
ArcGIS基本控件简介 ArcGIS Engine控件是一组可视化的开发组件,每个ArcGIS Engine控件都是一个COM组件.这些组件包括MapControl,PageLayoutContro ...
ArcGIS Engine开发前基础知识（1）
ArcGIS二次开发是当前gis领域的一项重要必不可少的技能.下面介绍它的基本功能一.ArcGIS Engine功能在使用之前首先安装和部署arcgis sdk,(在这里不在赘述相关知识)可以实现 ...
安装ArcGIS Engine 9.3
本文仅用于学习交流,商业用途请支持正版!转载请注明:http://www.cnblogs.com/mxbs/p/6217003.html 准备: ArcGIS Engine 9.3.crack_for ...

随机推荐

jQuery鼠标移入移出(冒泡版和无冒泡版)
带冒泡事件的鼠标移入移出(默认的):mouseover和mouseout事件没有冒泡事件的鼠标移入移出:mouseenter和mouseleave事件
大型B2C网站高性能可伸缩架构技术探秘
大型B2C网站高性能可伸缩架构技术探秘 2010-07-21 08:51 狂放不羁 JavaEye 字号:T | T 向您介绍大型B2C网站高性能的网站架构技术,包括缓存的使用.应用程序和数据库的拆分 ...
初识java——java的基础语法
标识符:计算机语言中各种符号表示某个特定含义的符号. 表示符的命名规则:1,不能用关键字或者true,false,null; 2,标识符可以包含数字,字母,下划线,美元符号. 3,标识符的首字符必须是 ...
spring 整合 mybatis 中数据源的几种配置方式
因为spring 整合mybatis的过程中, 有好几种整合方式,尤其是数据源那块,经常看到不一样的配置方式,总感觉有点乱,所以今天有空总结下. 一.采用org.mybatis.spring.mapp ...
Spring Boot开发MongoDB应用实践
本文继续上一篇定时任务中提到的邮件服务,简单讲解Spring Boot中如何使用MongoDB进行应用开发. 上文中提到的这个简易邮件系统大致设计思路如下: 1.发送邮件支持同步和异步发送两种 2.邮 ...
Charles手机抓包实用教程
一.Charles官网下载链接:https://www.charlesproxy.com/download/ 二.抓包步骤: 1.安装Charles,并打开 2.电脑设置代理端口:打开charles- ...
Mybatis 系列3
系列文章 2 中,我们通过对mybatis源码的简单分析,可看出,在mybatis配置文件中,在configuration根节点下面,可配置properties.typeAliases.plugins ...
Windows 10创意者更新ISO发布！官方下载
http://news.mydrivers.com/1/526/526719.htm 去年7月份,微软面向Windows 10推出了“周年更新”,让系统变得更加稳定好用.今天,Windows 10迎来 ...
Pydev Console中文提示乱码的问题
1. 像这样的规则内容请这样处理"\u305d\u3093\u306a\u306b"style unicode string : print str.decode("un ...
html5 下拉刷新(pc+移动网页源码）
本文demo下载地址:http://www.wisdomdd.cn/Wisdom/resource/articleDetail.htm?resourceId=1071 本文实现在html5网页中使用下 ...

engine.go

engine.go的更多相关文章

随机推荐

热门专题