lucene全文检索基础

海南一哥 2024-10-26 19:47:43 原文

全文检索是一种将文件中所有文本与检索项匹配的文字资料检索方法.比如用户在n个小说文档中检索某个关键词，那么所有包含该关键词的文档都返回给用户。那么应该从哪里入手去实现一个全文检索系统？相信大家都听说过apache的开源项目lucene,下面就从零开始揭开全文检索的面纱。

1.信息检索整体流程

一次完整的搜索从用户输入要查询的关键词开始,比如想查找lucene的相关学习资料，我们都会Google或百度中输入关键词，比如输入“lucene, 全文检索框架”,之后系统根据用户输入的关键词返回相关信息。一次检索大致可分为四步：

第一步：输入关键词
第二步：分词技术

这一步利用自然语言处理技术将用户输入的查询语句进行分词，如标准分词会把“lucene, 全文检索框架”分成：lucene | 全 | 文 | 检 | 索 | 框 | 架 | ,空格分词会分成：lucene, | 全文检索框架 | ,二分法会分成:lucene | 全文 | 文检 | 检索 | 索框 | 框架 |,还有简单分词等多种分词方法.
第三步:关键词检索

提交关键词后在倒排索引库中进行匹配,倒排索引就是关键词key和文档之间的对应关系，就像给文档贴上标签。比如在检索库中含有lucene关键词的有文档1、文档6、文档9，含有全文检索的有文档1，文档6，那么做与运算，同时含有lucene和全文检索的文档就是1和6.
第四步：

对多个相关文档进行相关度计算、排序，返回给用户检索结果.

2.lucene架构

这张图很清楚的表现了lucene的工作原理：把文件系统、数据库、网页、手工输入的数据都集合起来，结构化、半结构化、非结构化数据整合在一起，建立成索引库。用户提交查询以后通过索引建设到文档，反馈给用户搜索结果.

3.文档、域、词元

文档：文档时lucene索引和搜索的基本单位.比如，一篇小说，一个word文档.

域:文档中的信息，比如小说标题、作者、简介等.

词元:对标题这个域进行分词，可以得到一个或多个词元.

4.词元权重计算

df:term frequency。 term在文档中出现的频率.tf越大,词元越重要.

tf:document frequecy。有多少文档包含此term，df越大词元越不重要.

词元权重计算公式： W(t,d)=tf(t,d)*log(n/df(t))

W(t,d):the weight of the term in document d

tf(t,d):the frequency of term t in document d

n:the number of documents

df(t):the number of documents that contain term t

5.余弦相似性

我们知道，两个向量的夹角越小,向量越相似，夹角为0时余弦值为1，方向相反时余弦值为－1.用户的输入通过分词形成用户查询向量V(q)＝{w1,w2,w3…wn},文档的多个词元构成文档向量D。通过计算文档向量和用户查询向量的相似性返回前N个最相似的给用户.

lucene全文检索基础的更多相关文章

Apache Lucene(全文检索引擎)—创建索引
目录返回目录:http://www.cnblogs.com/hanyinglong/p/5464604.html 本项目Demo已上传GitHub,欢迎大家fork下载学习:https://gith ...
Lucene全文检索技术
Lucene全文检索技术今日大纲 ● 搜索的概念.搜索引擎原理.倒排索引 ● 全文索引的概念 ● 使用Lucene对索引进行CRUD操作 ● Lucene常用API详解 ● ...
Lucene 全文检索入门
博客地址:http://www.moonxy.com 一.前言 Lucene 是 apache 软件基金会的一个子项目,由 Doug Cutting 开发,是一个开放源代码的全文检索引擎工具包,但它不 ...
Lucene全文检索_分词_复杂搜索_中文分词器
1 Lucene简介 Lucene是apache下的一个开源的全文检索引擎工具包. 1.1 全文检索(Full-text Search) 1.1.1 定义全文检索就是先分词创建索引,再执行搜索的过 ...
Lucene 全文检索
基于 lucene 8 1 Lucene简介 Lucene是apache下的一个开源的全文检索引擎工具包. 1.1 全文检索(Full-text Search) 全文检索就是先分词创建索引,再执行搜索 ...
使用Lucene全文检索并使用中文版和高亮显示
使用Lucene全文检索并使用中文版和高亮显示中文分词需要引入中文分词发的jar 包,咱们从maven中获取  <dependency&g ...
lucene 全文检索工具的介绍
Lucene:全文检索工具:这是一种思想,使用的是C语言写出来的 1.Lucene就是apache下的一个全文检索工具,一堆的jar包,我们可以使用lucene做一个谷歌和百度一样的搜索引擎系统 2. ...
Lucene 全文检索 Lucene的使用
Lucene 全文检索 Lucene的使用一.简介: 参考百度百科: http://baike.baidu.com/link?url=eBcEVuUL3TbUivRvtgRnMr1s44nTE7 ...
Apache Lucene(全文检索引擎)—分词器
目录返回目录:http://www.cnblogs.com/hanyinglong/p/5464604.html 本项目Demo已上传GitHub,欢迎大家fork下载学习:https://gith ...

随机推荐

append()/extend()/insert()/remove()/del/pop()/slice列表分片
member = ['小甲鱼', 88, '黑夜', 90, '迷途', 85, '怡静', 90, '秋舞斜阳', 88] member.append('字符串')#在列表结尾处增加字符串 memb ...
Oracle数据库（3-7）
显式游标使用主要有四个步骤: 声明/定义游标打开游标读取数据关闭游标 CASE 条件表达式 WHEN 条件表达式结果1 THEN 语句1 WHEN 条件表达式结果2 THEN 语句2 ...... W ...
Spring Cloud学习笔记-001
Spring Boot快速入门 1. Eclipse新建maven工程,骨架选择quickstart: 2. 加入springboot的父工程,和web依赖: 3. 编写一个简单的RESTful接口, ...
chm 转 txt
CHM格式转TXT,如果在Windows下可使用命令行实现,为叙述方便,以笔者机器为例,在 E:\11 文件夹下有 123.chm 这个文件,按如下操作将这个 CHM 转成 TXT 文件. 第一步: ...
CSS3属性之圆角效果——border-radius属性
在css3之前,要实现圆角的效果可以通过图片或者用margin属性实现(可以参考这里:http://www.hicss.net/css-practise-of-image-round-box/).实现 ...
[HAOI2015]数字串拆分
题目描述你有一个长度为n的数字串.定义f(S)为将S拆分成若干个1~m的数的和的方案数,比如m=2时,f(4)=5,分别为4=1+1+1+1你可以将这个数字串分割成若干个数字(允许前导0),将他们加 ...
POJ 2289（多重匹配+二分）
POJ 2289(多重匹配+二分) 把n个人,分到m个组中.题目给出每一个人可以被分到的那些组.要求分配完毕后,最大的那一个组的人数最小. 用二分查找来枚举. #include<iostream ...
●POJ 1509 Glass Beads
题链: http://poj.org/problem?id=1509 题解: 给出一个字符串,有一个操作:把首字符放到末尾,形成新的串.求任意次操作后,字典序最小的串的首字母在原串中的位置.(这就是最 ...
[BZOJ]3243 向量内积(Noi2013)
小C做了之后很有感觉的题目之一,但因为姿势不对调了很久. Description 两个d 维向量A=[a1,a2,...,ad]与B=[b1,b2,...,bd]的内积为其相对应维度的权值的乘积和,即 ...
为什么Unix只允许对非目录文件实行勾链？
Unix文件系统的目录结构中带有交叉勾链,用户可以用不同的文件路径名共享一个文件,即文件的勾链在用户看来是为了一个已存在的文件另起一个路径名.在Unix的多级目录结构中勾链的结果表现为一个文件由多个目 ...