package types

// 这些常数定义了反向索引表存储的数据类型
const (
    // 仅存储文档的docId
    DocIdsIndex = 0

    // 存储关键词的词频,用于计算BM25
    FrequenciesIndex = 1

    // 存储关键词在文档中出现的具体字节位置(可能有多个)
    // 如果你希望得到关键词紧邻度数据,必须使用LocationsIndex类型的索引
    LocationsIndex = 2

    // 默认插入索引表文档 CACHE SIZE
    defaultDocCacheSize = 300000
)

// 初始化索引器选项
type IndexerInitOptions struct {
    // 索引表的类型,见上面的常数
    IndexType int

    // 待插入索引表文档 CACHE SIZE
    DocCacheSize int

    // BM25参数
    BM25Parameters *BM25Parameters
}

// 见http://en.wikipedia.org/wiki/Okapi_BM25
// 默认值见engine_init_options.go
type BM25Parameters struct {
    K1 float32
    B  float32
}

func (options *IndexerInitOptions) Init() {
    if options.DocCacheSize == 0 {
        options.DocCacheSize = defaultDocCacheSize
    }
}

index_init_oprions.go的更多相关文章

随机推荐

  1. 恶补web之八:jQuery(3)

    jquery和其他js框架.jQuery使用$作为jQuery的简写,但是还有很多js框架,比如: MooTools,Backbone,Sammy,Cappuccino,Knockout,JavaSc ...

  2. 基于event 实现的线程安全的优先队列(python实现)

    event 事件是个很不错的线程同步,以及线程通信的机制,在python的许多源代码中都基于event实现了很多的线程安全,支持并发,线程通信的库 对于优先队列的堆实现,请看<python下实现 ...

  3. 自定义ViewGroup添加布局动画

    声明几个属性值: <declare-styleable name="GridImageViewGroup"> <attr name="childVert ...

  4. Windows平台安装及配置Hadoop(不借助cygwin)

    由于项目需要,我在VMware上装了几个虚拟机Windows server 2012 R2,并要搭建Hadoop集群.刚刚入门hadoop,一头雾水,然后开始搜各种教程,首先是选用cygwin进行安装 ...

  5. CAN数据格式-ASC

    Vector工具录制的数据,一般有ASC和BLF两种格式,本文介绍ASC. 1. ASC定义 ASC(ASCII)即文本文件,数据已可视化的文本存储. 2.ASC查看 通常情况下,用记事本就可以打开. ...

  6. Java反射之修改常量值

    1. 通过反射修改常量的值 package com.blueStarWei.invoke; import java.lang.reflect.Field; public class ModifyFin ...

  7. MySQL 8 新特性之Invisible Indexes

    背景 索引是把双刃剑,在提升查询速度的同时会减慢DML的操作.毕竟,索引的维护需要一定的成本.所以,对于索引,要加上该加的,删除无用的.前者是加法,后者是减法.但在实际工作中,大家似乎更热衷于前者,而 ...

  8. 并发编程(五):CAS

    在atomic包中,大多数类都是借助unsafe类来实现的,如以下代码 public static AtomicInteger count = new AtomicInteger(0); privat ...

  9. JavaScript中高阶函数

    https://zhuanlan.zhihu.com/p/23836323?refer=dreawer 高阶函数就是可以将函数作为另一个函数的参数.例如:将两个数的平方相加,这里匿名函数fn就是函数被 ...

  10. 数据库中row_number()、rank()、dense_rank() 的区别

    row_number的用途非常广泛,排序最好用它,它会为查询出来的每一行记录生成一个序号,依次排序且不会重复,注意使用row_number函数时必须要用over子句选择对某一列进行排序才能生成序号. ...