lucene中的IndexWriter.setMaxFieldLength()

lucene中的IndexWriter.setMaxFieldLength() 老版本的Lucene中,IndexWriter的maxFieldLength是指一个索引中的最大的Field个数. 这个属性在Lucene2.9.0中是不可见的,对其的修改被放在相应的setMaxFieldLength(Int l)和getMaxFiedLength()中: 当索引中的Field的个数等于这个属性时,新增的任何field都会被忽略,即使对己经存在相同的Field新增内容也是不可以的.附上一个测试类(L…

lucene中Field简析

http://blog.csdn.net/zhaoxiao2008/article/details/14180019 先看一段lucene3代码 Document doc = new Document(); doc.add(new Field("fullpath", f.getCanonicalPath(), Field.Store.YES, Field.Index.NOT_ANALYZED)) Field类是文档索引期间很重要的类,控制着被索引的域值 Field.Store.* 域存…

【Lucene3.6.2入门系列】第03节_简述Lucene中常见的搜索功能

package com.jadyer.lucene; import java.io.File; import java.io.IOException; import java.text.SimpleDateFormat; import java.util.Date; import org.apache.lucene.analysis.standard.StandardAnalyzer; import org.apache.lucene.document.Document; import org.…

lucene 中关于Store.YES 关于Store.NO的解释

总算搞明白 lucene 中关于Store.YES 关于Store.NO的解释了一直对Lucene Store.YES不太理解,网上多数的说法是存储字段,NO为不存储. 这样的解释有点郁闷:字面意思一看就明白,但是不解. 之前我的理解是:如果字段可以不存储,那要怎么搜索这个不存储的字段呢? 原来Lucene就是这样,可以设置某些字段为不存储,但是可以用来检索. 终于在一篇文章里看到这几句话,突然间就明白了. //Store.YES 保存可以查询可以打印内容 Field storeYes…

Lucene 中自定义排序的实现

使用Lucene来搜索内容,搜索结果的显示顺序当然是比较重要的.Lucene中Build-in的几个排序定义在大多数情况下是不适合我们使用的.要适合自己的应用程序的场景,就只能自定义排序功能,本节我们就来看看在Lucene中如何实现自定义排序功能. Lucene中的自定义排序功能和Java集合中的自定义排序的实现方法差不多,都要实现一下比较接口. 在Java中只要实现Comparable接口就可以了.但是在Lucene中要实现SortComparatorSource接口和 ScoreDocCom…

《Lucene in Action 第二版》第4章节学习总结 -- Lucene中的分析

通过第四章的学习,可以了解lucene的分析过程是怎样的,并且可以学会如何使用lucene内置分析器,以及自定义分析器.下面是具体总结 1. 分析(Analysis)是什么? 在lucene中,分析就是指:将域(Field)文本转换成最基本的索引表示单元---项(Term)的过程.而项(Term)又是由语汇单元(Token)以及它所属的域名组合而成的. 在索引过程中存在分析(IndexWriter的初始化中需要放入一个Analyzer的实例:并且如果要使Analyzer生效,则需要使用Index…

Lucene中的 Query对象

"Lucene中的 Query对象": 检索前,需要对检索字符串进行分析,这是由queryparser来完成的.为了保证查询的正确性,最好用创建索引文件时同样的分析器. queryparser解析字符串时,可以指定查询域,实际可以在字符串中指定一个或多个域.例如:“info:电视台 and id:3329”,“info:电视台”,“电视台”,假如不指定默认域,就会在默认域查询. queryparser调用静态方法parse后会返回query的实例,原子查询.例如:“info:电视台…

Lucene 中的Tokenizer, TokenFilter学习

lucene中的TokenStream,TokenFilter之间关系 TokenStream是一个能够在被调用后产生语汇单元序列的类,其中有两个类型:Tokenizer和TokenFilter,两者的不同在于TokenFilter中包含了一个TokenStream作为input,该input仍然可以为一种TokenFilter进行递归封装,是一种组合模式:而Tokenzier接受一个Reader对象读取字符并创建语汇单元,TokenFilter负责处理输入的语汇单元,通过新增.删除或者…

Lucene中Analyzer语句分析

Lucene中Analyzer语句分析,利用lucene中自带的词法分析工具Analyzer,进行对句子的分析. 源代码如下: package com.test; import java.io.IOException; import java.io.StringReader; import java.util.List; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.SimpleAnal…

lucene中FSDirectory、RAMDirectory的用法

package com.ljq.one; import java.io.BufferedReader;import java.io.File;import java.io.FileInputStream;import java.io.InputStreamReader; import org.apache.lucene.analysis.Analyzer;import org.apache.lucene.analysis.standard.StandardAnalyzer;import org.…

lucene中创建索引库

package com.hope.lucene;import org.apache.commons.io.FileUtils;import org.apache.lucene.document.Document;import org.apache.lucene.document.Field;import org.apache.lucene.document.TextField;import org.apache.lucene.index.*;import org.apache.lucene.se…

lucene中Field.Index,Field.Store详解

lucene在doc.add(new Field("content",curArt.getContent(),Field.Store.NO,Field.Index.TOKENIZED));Field有两个属性可选:存储和索引. 通过存储属性你可以控制是否对这个Field进行存储: 通过索引属性你可以控制是否对该Field进行索引. 事实上对这两个属性的正确组合很重要. Field.Index Field.Store 说明 TOKENIZED(分词) YES 被分词索引且存储 TOKEN…

【转载】lucene中Field.Index,Field.Store详解

lucene在doc.add(new Field("content",curArt.getContent(),Field.Store.NO,Field.Index.TOKENIZED)); Field有两个属性可选:存储和索引. 通过存储属性你可以控制是否对这个Field进行存储: 通过索引属性你可以控制是否对该Field进行索引. 事实上对这两个属性的正确组合很重要. Field.Index Field.Store 说明 TOKENIZED(分词) YES 被分词索引且存储 TOKE…

Lucene中的合并因子mergeFactor

mergeFactor 是用来决定segment该如何被addDocument()方法进行合并的. 当mergeFactor取比较小的值时,索引时所使用的内存较少而且搜素未优化的速度会比较快.因此,mergeFactor取值较大时(比如大于10), 适合于批量的索引建立,而当搜索未优化索引的速度会更快,但是索引建立的速度会比较慢. 当mergeFactor取较大的值时,建立索引的速度会比较快.因此,mergeFactor取值较大时(比如大于10) 适合于这些批量的索引建立,而当mergeFac…

lucene中Field.Index,Field.Store的一些设置

lucene在doc.add(new Field("content",curArt.getContent(),Field.Store.NO,Field.Index.TOKENIZED)); Field有两个属性可选:存储和索引. 通过存储属性你可以控制是否对这个Field进行存储: 通过索引属性你可以控制是否对该Field进行索引. 事实上对这两个属性的正确组合很重要. Field.Index Field.Store 说明 TOKENIZED(分词) YES 被分词索引且存储 TOKE…

理解Lucene中的Query

Query是一个接口,它有很多实现类. QueryParser是Query解析器,用于将一个字符串解析为一个Query对象,这个Query对象可能属于TermQuery,也可能属于PhraseQuery.TermQuery.BooleanQuery等.可以通过Query对象的getClass()方法来查看这个对象到底是哪个实现类. Lucene已经给我们提供了很多Query查询器,如PhraseQuery,SpanQuery那为什么还要提供QueryParser呢?或者说设计QueryParse…

理解Lucene中的Analyzer

学习一个库,最好去官网.因为很多库API变动十分大,从博客上找的教程都过时了. Lucene原理就是简简单单的"索引",以空间换时间.但是Lucene将这件事做到了极致,后人再有想写倒排索引的,只能算是练练手. Lucene的重要模块之一就是分析器模块,这个模块负责对输入文本进行一些处理,比如分词.去除停止词(如"的"."着")等琐碎操作. 这个模块产生的token,就相当于键,求token的哈希值,然后把文档id放到对应的桶中. 中文Analy…

Lucene中最简单的索引和搜索示例

package com.jiaoyiping.lucene; import org.apache.lucene.analysis.standard.StandardAnalyzer; import org.apache.lucene.document.*; import org.apache.lucene.index.DirectoryReader; import org.apache.lucene.index.IndexReader; import org.apache.lucene.inde…

Lucene中的域选项

Field类是lucene在索引过程中的一个很重要的类,该类控制着域值被索引的方式域选项主要包括以下几种选项:域索引选项.域存储选项.域的项向量选项.域的排序选项等域索引选项:通过倒排索引来控制域值是否能够被搜索 Index.ANALYZED,将文本域分析成为一个或多个独立的语汇单元,每个语汇单元都能够被搜索 Index.NOT_ANALYZED,对文本域进行索引但是不进行分词(适用于对人名,URL,电话号码等需要进行精确匹配的搜索) Index.ANALYZE…

lucene中Field简介

Lucene 6.1.0中存在的field种类如下(后缀是Field): 下面介绍几个常用的Field类型: TextField A field that is indexed and tokenized, without term vectors. For example this would be used on a 'body' field, that contains the bulk of a document's text.是一个会自动被索引和分词的字段.一般被用在文章的正文部分.…

Lucene中几种常用的Query

看完图之后在来详细说明一下. 1.phrasequery是用来查询短语的.注意他只针对英文,对中文并没有什么用处. 核心用法: @Test public void test02(){ //新建查询 PhraseQuery query = new PhraseQuery(); //设置分词之间的距离 query.setSlop(1); //添加前一个和后一个分词 query.add(new Term("content", "management")); query.a…

Lucene中string docvalues使用utf-16的优化

原来的string docvalues使用utf-8编码,载入时转码花费大量时间,我们把转码实现从new String(bytes, "UTF-8")改用lucene的bytesRef.utf8ToString,降低了大约十秒的时间. 想进一步优化,我们使用UTF-16LE编码,解码很easy甚至仅仅需拷贝,假设用简单的byte[]到char[]转换,能够在节省7秒时间,而假设用unsafe能够节省估计15秒以上的时间(没有对全量索引做測试).…

lucene中TOKENIZED,UN_TOKENIZED 解釋

Field("content",curArt.getContent(),Field.Store.NO,Field.Index.TOKENIZED)); 這些地方與舊版本有很大的區別.Field有兩個屬性可選:存儲和索引.通過存儲屬性你可以控制是否對這個Field進行存儲:通過索引屬性你可以控制是否對該Field進行索引.這看起來似乎有些廢話,事實上對這兩個屬性的正確組合很重要.Field.Index Field.Store 說明 TOKENIZED(…

lucene中facet实现统计分析的思路——本质上和word count计数无异，像splunk这种层层聚合（先filed1统计，再field2统计，最后field3统计）lucene是排序实现

http://stackoverflow.com/questions/185697/the-most-efficient-way-to-find-top-k-frequent-words-in-a-big-word-sequence http://www.geeksforgeeks.org/find-the-k-most-frequent-words-from-a-file/ http://cs.stackexchange.com/questions/26427/word-frequency-w…

lucene中模糊搜索的应用场景

模糊搜索:wildCardQuery的时候,是用* 表示全部,?表示一个字符,那么直接用*搜索,就能查到当前索引文件的全部数据个数这里搜索查到的个数和用工具查到的个数是一致的...…

Lucene中TokenStream,Tokenizer,TokenFilter,TokenStreamComponents与Analyzer

TokenStream extends AttributeSource implements Closeable: incrementToken,end,reset,close Tokenizer直接继承至TokenStream,其输入input是一个reader TokenFilter也直接继承TokenStream,但input是一个TokenStream. TokenStreamComponents事实上是将tokenizer和tokenfilter包装起来的(也能够仅仅是tokenize…

Lucene全文检索技术

Lucene全文检索技术今日大纲 ● 搜索的概念.搜索引擎原理.倒排索引 ● 全文索引的概念 ● 使用Lucene对索引进行CRUD操作 ● Lucene常用API详解 ● 分词器.高亮.分页.得分.排序 ***************************************************************************************************** 1. 搜索的概念 1.1 什么是搜索简单的说…

理解Lucene索引与搜索过程中的核心类

理解索引过程中的核心类执行简单索引的时候需要用的类有: IndexWriter.Directory.Analyzer.Document.Field 1.IndexWriter IndexWriter(写索引)是索引过程的核心组件,这个类负责创建新的索引,或者打开已有的索引,以及向索引中添加.删除或更新被索引文档的信息,但不能读取或搜索索引.IndexWriter需要开辟一定的空间来存储索引,该功能由Directory完成 2.Directory /** A Directory is a…

Lucene.net(4.8.0) 学习问题记录三: 索引的创建 IndexWriter 和索引速度的优化

前言:目前自己在做使用Lucene.net和PanGu分词实现全文检索的工作,不过自己是把别人做好的项目进行迁移.因为项目整体要迁移到ASP.NET Core 2.0版本,而Lucene使用的版本是3.6.0 ,PanGu分词也是对应Lucene3.6.0版本的.不过好在Lucene.net 已经有了Core 2.0版本(4.8.0 bate版),而PanGu分词,目前有人正在做,貌似已经做完,只是还没有测试~,Lucene升级的改变我都会加粗表示. Lucene.net 4.8.0 https…

第一个lucene程序，把一个信息写入到索引库中、根据关键词把对象从索引库中提取出来、lucene读写过程分析

新建一个Java Project :LuceneTest 准备lucene的jar包,要加入的jar包至少有: 1)lucene-core-3.1.0.jar (核心包) 2) lucene-analyzers-3.1.0.jar (分词器) 3) lucene-highlighter-3.1.0.jar (高亮器) 4) lucene-memory-3.1.0.jar (高亮器) 新建实体类:Article, 属性:id,title,content; gette…

【lucene中的IndexWriter.setMaxFieldLength()】的更多相关文章