Lucene和索引

全文索引的原理：
是扫描每个词对每个词创建索引，指明这个词在文章出现的次数和位置

全文检索的流程：
对检索的对象（文章，文档，网页内容）预先建立文档域和索引域，在索引域会分词创建索引，
然后搜索关键词会从索引域查询对应的索引，
根据索引匹配出文档域的内容，获取最后结果。

什么时候用到ik分词器？
1. 关键词搜索时对关键词进行分词，
2. 对文档域和索引域时对索引分词

luncene自带中文分词器：
StandardAnalyzer，CJKAnalyzer ，SmartChineseAnalyzer，自带的不是很符合中国人的分析习惯，而且扩展性不是很好
第三方的中文分词器:paoding --比较好，可惜过时不能用了，mmseg4j --版本跟新太快，企业不喜欢用，IK-analyzer 我们用的比较多
ik分词器的安装：我么创建的是maven工程，使用maven命令进行安装。步骤：将jar包考到某盘如 D盘根目录，使用如下方式安装：
mvn install:install-file -Dfile=你的jar包路径\IKAnalyzer5.3.1.jar -DgroupId=org.wltea.ik-analyzer -DartifactId=ik-analyzer -Dversion=5.3.1.RELEASE -Dpackaging=jar
mvn install:install-file -Dfile=你的jar包路径\IK-Analyzer-extra-5.3.1.jar -DgroupId=org.wltea.ik-analyzer -DartifactId=ik-analyzer-extra -Dversion=5.3.1.RELEASE -Dpackaging=jar

使用步骤：
1.pom 文件依赖
2.导入配置文件：分别将ext.dic,IKAnalyzer.cfg.xml，stopword.dic文件拷贝到工程的resources目录
3. 在代码编写中，使用 ik分词器
直接： Analyzer analyzer = new IKAnalyzer();

创建索引
创建索引分为如下8个步骤：
采集数据从数据库查询数据
2.创建Document文档对象每一条记录对应一个文档
3.创建分析器（分词器）用来提取词汇
4.创建IndexWriterConfig配置信息类索引库配置信息
5.创建Directory对象，声明索引库存储位置
6.创建IndexWriter写入对象写入的是文档对象即数据库中查询到的数据
7.把Document写入到索引库中
8.释放资源
示例代码：
public class CreateIndex {
//创建BookDao实现类的实例，用户采集数据
private BookDao bookDao = new BookDaoImpl();

@Test
public void testCreateIndex() throws Exception {
//数据采集
List<Book> books = bookDao.queryBookList();
List<Document> docs = new ArrayList<Document>();
for (Book book : books) {
//创建文档对象
Document doc = new Document();
doc.add(new TextField("id",book.getId()+"", Field.Store.YES));
doc.add(new TextField("name",book.getName(), Field.Store.YES));
doc.add(new TextField("price",book.getPic()+"", Field.Store.YES));
doc.add(new TextField("pic",book.getPic(), Field.Store.YES));
doc.add(new TextField("desc",book.getDesc(), Field.Store.YES));
docs.add(doc);
}

//创建分词器
Analyzer analyzer = new StandardAnalyzer();

//索引存储位置
Directory directory = FSDirectory.open((new File("D:/index")).toPath());

//IndexWriterConfig配置了IndexWriter对象的参数信息
IndexWriterConfig indexWriterConfig = new IndexWriterConfig(analyzer);

//创建IndexWriter写入对象 Directory d, IndexWriterConfig conf
IndexWriter indexWriter = new IndexWriter(directory,indexWriterConfig);

//将文档写入到索引库
indexWriter.addDocuments(docs);

//提交操作
indexWriter.commit();

//回收资源
indexWriter.close();
}
}

luncene不是搜索引擎不是成品，只是一个工具，solr搜索框架或者es搜索框架才是成品

做SEO时，比如店铺装修时，关键词会优先被搜索引擎捕获

为什么要用全文检索？要么使用索引，但是模糊查询会导致索引失效进行全表扫描，所以使用全文检索方式解决关键词搜索

主键是默认带唯一索引

尝试 500万的记录查询，有索引和没有索引的差别是80 到100倍左右

结构：索引是一种数据结构二叉树，如果五等分每次查询减少80%的查询量
Oracle 的是Btree 索引结构

数据查询的方法：
1.顺序扫描法，直接查询文档，从头到尾查询所有文件和整个内容
2.倒排索引法，相对顺序扫描法的一种说法，不直接查询文档，倒着来，通过查询索引匹配文档得到结果。预先文档域，进行关键词的分词建立索引域，然后我们输入关键词查询时，从索引域去找到分词的索引匹配对应的文档内容，获取最终结果

全文检索技术的应用场景：
单机软件的搜索，如Word 里的搜索
站内搜索
垂直领域的搜索
专业引擎公司

全文索引工作原理：扫描每个词对每个词创建索引，指明这个词在文章出现的次数和位置

Lucene和索引的更多相关文章

lucene写索引出现锁文件的原因之一
lucene正常情况目录下的文件有三个文件. segments.gen segments_a08, 还有一个类似 _uw.cfs名字的东西. 当然,不一定都一样, 但肯定是这三个. 如果出现了很多文 ...
Lucene -- 实时索引
lucene的实时搜索可以分成:实时和近实时的搜索. 实时只能依靠内存了. 近实时可以用lucene中提供org.apache.lucene.index.DirectoryReader.open(In ...
lucene学习笔记：三，Lucene的索引文件格式
Lucene的索引里面存了些什么,如何存放的,也即Lucene的索引文件格式,是读懂Lucene源代码的一把钥匙. 当我们真正进入到Lucene源代码之中的时候,我们会发现: Lucene的索引过程, ...
lucene创建索引简单示例
利用空闲时间写了一个使用lucene创建索引简单示例, 1.使用maven创建的项目 2.需要用到的jar如下: 废话不多说,直接贴代码如下: 1.创建索引的类(HelloLucene): packa ...
如何提高Lucene构建索引的速度
如何提高Lucene构建索引的速度 hans(汉斯) 2013-01-27 10:12 对于Lucene>=2.3:IndexWriter可以自行根据内存使用来释放缓存.调用writer.set ...
Solr4.8.0源码分析(12)之Lucene的索引文件(5)
Solr4.8.0源码分析(12)之Lucene的索引文件(5) 1. 存储域数据文件(.fdt和.fdx) Solr4.8.0里面使用的fdt和fdx的格式是lucene4.1的.为了提升压缩比,S ...
Solr4.8.0源码分析(11)之Lucene的索引文件(4)
Solr4.8.0源码分析(11)之Lucene的索引文件(4) 1. .dvd和.dvm文件 .dvm是存放了DocValue域的元数据,比如DocValue偏移量. .dvd则存放了DocValu ...
Solr4.8.0源码分析(10)之Lucene的索引文件(3)
Solr4.8.0源码分析(10)之Lucene的索引文件(3) 1. .si文件 .si文件存储了段的元数据,主要涉及SegmentInfoFormat.java和Segmentinfo.java这 ...
Solr4.8.0源码分析(9)之Lucene的索引文件(2)
Solr4.8.0源码分析(9)之Lucene的索引文件(2) 一. Segments_N文件一个索引对应一个目录,索引文件都存放在目录里面.Solr的索引文件存放在Solr/Home下的core/ ...
Solr4.8.0源码分析(8)之Lucene的索引文件(1)
Solr4.8.0源码分析(8)之Lucene的索引文件(1) 题记:最近有幸看到觉先大神的Lucene的博客,感觉自己之前学习的以及工作的太为肤浅,所以决定先跟随觉先大神的博客学习下Lucene的原 ...

随机推荐

RocketMQ系列(一) 基本介绍
RocketMQ系列(一) 基本介绍 1.MQ 作用 MQ 的应用场景主要包含以下 3 个方面: 1.1.异步与解耦当我们下了一个订单之后,订单服务会进行 RPC 同步调用支付服务.库存服务.物流 ...
Hugging News #0821: Hugging Face 完成 2.35 亿美元 D 轮融资
每一周,我们的同事都会向社区的成员们发布一些关于 Hugging Face 相关的更新,包括我们的产品和平台更新.社区活动.学习资源和内容更新.开源库和模型更新等,我们将其称之为「Hugging Ne ...
文心一言 VS 讯飞星火 VS chatgpt （83）-- 算法导论8.1 4题
四.用go语言,假设现有一个包含n个元素的待排序序列.该序列由 n/k 个子序列组成,每个子序列包含k个元素.一个给定子序列中的每个元素都小于其后继子序列中的所有元素,且大于其前驱子序列中的每个元素. ...
Codeforces 1257E - The Contest
题意三个人,每个人有一些数字,组合起来是\(1\)-\(n\),每个人可以给另一个人一个拥有的数字,问最小操作数,使得第一个人拥有\(1\)-\(i\)的数,第二个人拥有\(i+1\)-\(j\)的 ...
c++中的数论知识
写在开头:word的公式打不上来,只能截图了一.组合数学 (1) 加法定理与乘法原理加法原理:做一件事情,完成它可以有n类办法,在第一类办法中有m1种不同的方法,在第二类办法中有m2种不同的方法, ...
JNI动态注册以及JNI签名
一.动态注册和静态注册注册native方法有两种方式,动态注册和静态注册.静态注册是在编译时进行注册,而且在java中声明的native方法和c/c++中的本地方法的对应关系是恒定的:比如说在com ...
Shell 文件或目录操作符（-e、-d、-f、-r、-w、-x）
操作符操作符含义-e 判断对象是否存在(Exist),若存在则结果为真-d 判断对象是否为目录(Directory),是则为真-f 判断对象是否为一般文件(File),是则为真-r 判断对象是否有 ...
Go with Protobuf
原文在这里. 本教程为 Go 程序员提供了使用Protocol buffer的基本介绍. 本教程使用proto3向 Go 程序员介绍如何使用 protobuf.通过创建一个简单的示例应用程序,它向你展 ...
再谈http请求调用(Post与Get)，项目研发的核心一环
支持.Net Core(2.0及以上)与.Net Framework(4.0及以上) [目录] 前言 Post请求 Get请求与其它工具的比较 1[前言] http请求调用是开发中经常会用到的功能. ...
开源项目 | 一款基于NodeJs+Vue3的强大的在线设计图片工具
一.项目概述一款漂亮且功能强大的在线海报图片设计器,仿稿定设计.适用于海报图片生成.电商分享图.文章长图.视频/公众号封面等多种场景. 二. 技术特性丝滑的操作体验,丰富的交互细节,基础功能完善 ...

Lucene和索引

Lucene和索引的更多相关文章

随机推荐

热门专题