segmenter_worker.go

package engine

import (

    "github.com/huichen/wukong/types"

type segmenterRequest struct {

    docId       uint64

    hash        uint32

    data        types.DocumentIndexData

    forceUpdate bool

func (engine *Engine) segmenterWorker() {

    for {

        request := <-engine.segmenterChannel

        if request.docId == 0 {

            if request.forceUpdate {

                for i := 0; i < engine.initOptions.NumShards; i++ {

                    engine.indexerAddDocChannels[i] <- indexerAddDocumentRequest{forceUpdate: true}

            continue

        shard := engine.getShard(request.hash)

        tokensMap := make(map[string][]int)

        numTokens := 0

        if !engine.initOptions.NotUsingSegmenter && request.data.Content != "" {

            // 当文档正文不为空时，优先从内容分词中得到关键词

            segments := engine.segmenter.Segment([]byte(request.data.Content))

            for _, segment := range segments {

                token := segment.Token().Text()

                if !engine.stopTokens.IsStopToken(token) {

                    tokensMap[token] = append(tokensMap[token], segment.Start())

            numTokens = len(segments)

        } else {

            // 否则载入用户输入的关键词

            for _, t := range request.data.Tokens {

                if !engine.stopTokens.IsStopToken(t.Text) {

                    tokensMap[t.Text] = t.Locations

            numTokens = len(request.data.Tokens)

        // 加入非分词的文档标签

        for _, label := range request.data.Labels {

            if !engine.initOptions.NotUsingSegmenter {

                if !engine.stopTokens.IsStopToken(label) {

                    //当正文中已存在关键字时，若不判断，位置信息将会丢失

                    if _, ok := tokensMap[label]; !ok {

                        tokensMap[label] = []int{}

            } else {

                //当正文中已存在关键字时，若不判断，位置信息将会丢失

                if _, ok := tokensMap[label]; !ok {

                    tokensMap[label] = []int{}

        indexerRequest := indexerAddDocumentRequest{

            document: &types.DocumentIndex{

                DocId:       request.docId,

                TokenLength: float32(numTokens),

                Keywords:    make([]types.KeywordIndex, len(tokensMap)),

},

            forceUpdate: request.forceUpdate,

        iTokens := 0

        for k, v := range tokensMap {

            indexerRequest.document.Keywords[iTokens] = types.KeywordIndex{

                Text: k,

                // 非分词标注的词频设置为0，不参与tf-idf计算

                Frequency: float32(len(v)),

                Starts:    v}

            iTokens++

        engine.indexerAddDocChannels[shard] <- indexerRequest

        if request.forceUpdate {

            for i := 0; i < engine.initOptions.NumShards; i++ {

                if i == shard {

                    continue

                engine.indexerAddDocChannels[i] <- indexerAddDocumentRequest{forceUpdate: true}

        rankerRequest := rankerAddDocRequest{

            docId: request.docId, fields: request.data.Fields}

        engine.rankerAddDocChannels[shard] <- rankerRequest

segmenter_worker.go的更多相关文章

wukong引擎源码分析之索引——part 1 倒排列表本质是有序数组存储
searcher.IndexDocument(0, types.DocumentIndexData{Content: "此次百度收购将成中国互联网最大并购"}) engine.go ...
wukong引擎源码分析之索引——part 3 文档评分无非就是将docid对应的fields信息存储起来，为搜索结果rank评分用
之前的文章分析过,接受索引请求处理的代码在segmenter_worker.go里: func (engine *Engine) segmenterWorker() { for { request : ...

随机推荐

aside元素
aside元素用来表示当前页面或文章的附属信息部分,它可以包含与当前页面或主要内容相关的引用.侧边栏.广告.导航条,以及其他类似的有别于主要内容的部分. aside元素主要有以下两种使用方法: 1.包 ...
mongodb查询语句
左边是mongodb语句,右边是sql语句 db.users.find() select * from users db.users.find({"age" : 27}) sele ...
SOFA 源码分析 — 泛化调用
前言通常 RPC 调用需要客户端使用服务端提供的接口,而具体的形式则是使用 jar 包,通过引用 jar 包获取接口的的具体信息,例如接口名称,方法名称,参数类型,返回值类型. 但也存在一些情况,例 ...
四年级--python函数基础用法
一.函数的定义,调用和返回值 1.1 语法 def 函数(参数一,参数二...): ''' 文档注释 ''' 代码逻辑一代码逻辑二 .... return 返回值 1.2 定义函数的三种形式说明: ...
Zookeeper + Dubbo + SpringMVC + dubbo-admin
第一步:在CentOS/Windows上安装Zookeeper[前提] A:CentOS Zookeeper作为Dubbo服务的注册中心,Dubbo原先基于数据库的注册中心,没采用Zookee ...
C++ 文件流的详解
部分内容转载:http://blog.csdn.net/kingstar158/article/details/6859379 感谢追求执着,原本想自己写,却发现了这么明白的文章. C++文件流操作是 ...
用户注册登录系统 V2.0
# 准备空列表 users = [] # 准备当前在线用户 online_user = {} while True: # 打印系统提示 print("欢迎使用用户注册登录系统V2.0&qu ...
String 类的函数实现
#include<iostream> //#include<string> using namespace std; class Strings { public: Strin ...
.net 弹出消息框后，页面样式变乱
点击按钮,执行提交操作,弹出消息框后,页面的样式变乱,解决方法: 首先,确定使用的css样式正确,页面中的宽高值保持规范统一: 然后,弹出框避免使用Response.Write(),如下所示 Resp ...
【转】Python的下划线
原文: 1. Python中的下划线(译文) 2. [转]关于python中带下划线的变量和函数的意义总结: 1. 单下划线开头.保护变量,不可被其他包导入使用,除非在__all__声明可以显示引用 ...

segmenter_worker.go

segmenter_worker.go的更多相关文章

随机推荐

热门专题