初识lucene(想看代码的跳过)
最早是在百度贴吧里看到的lucene这个名称,只知道跟搜索引擎有关,因为工作中一直以来没有类似的需求,所以没有花时间学习这方面的知识。
刚过完年,公司不忙,自己闲不住把《Netty权威指南》大致刷了起来(后续有时间再把Netty这块的一些知识分享出来)。不过就在前几天,领导突然说后面有个新项目准备让我来做,目前还在整理需求中。然后巴拉巴拉简单的跟我讲了一下,大概就是说去年我给客户做了个小的WAP网站,人家觉还行今年准备搞个大一点的,门户+文库+机器人客服,这个文库需要搜索功能,用户在搜索框里面输入指定关键字,需要匹配现有的文档附件里面的内容,返回匹配成功的文档下载地址... 听到这个需求的时候,我并没有因为自己没有做过类似的项目而慌张,相反内心有种莫名的欣喜,可能是因为我脑袋里闪过Lucene这个词,借此机会可以好好的深入了解一下了。
一周之前,我对Lucene的认识正如 《Lucene实战 》中所写的一样,以为它是一个完整的搜索引擎,后来才知道它是一个 “信息检索工具库”并不能拿来即用,需要配合java来让它变成一个搜索引擎。当然,Lucene项目下还有一些子项目,基于Lucene开发的,可拿来即用,如solr,nutch等,感兴趣的可以百度搜索一下相关内容,此处不再介绍。
下面我就来现学现卖。先带你认识一下Lucene,知道它的干什么的;下一篇会写个简单的实例,能让你快速用起来;后面再慢慢的介绍一些概念和底层细节,有助于深入理解Lucene。
1.是什么
它是一款高性能、可扩展的信息检索(IR)工具库,信息检索是指文档(txt,json,xml,csv等)搜索,文档内容搜索及文档相关的一些元数据搜索等操作;
2.能做什么
通过Lucene的几个核心类,使你可以在不必深入了解全文索引和搜索机制的同时,也能轻松的将它集成到自己的应用中。Lucene的核心是索引和搜索,它可以为文本文档内容添加索引,使得你在搜索关键字的时候,能迅速返回包含这些关键字的文档。Lucene本身无法为docx,pdf,xlsx等格式的二进制格式文档添加索引,因为他不做内容编码的处理。但是借助Tika工具,可以将这些二进制文档转换成文本形式,来实现Lucene对这些文档支持。当然,内容的来源不仅仅局限于文件,还可以是互联网资源,数据库数据,这些一般都由开发者自己处理,Lucene也有现成的组件。总之,Lucene的核心专注于对内容的索引和搜索,并不关心内容的来源。
3.浅谈索引和搜索
索引和搜索是Lucene的核心,看过新华字典吗?厚厚的一本新华字典,如果我们要从中找一个字需要一页一页的翻吗?当然不是,字典的前几页有目录索引,根据目录索引我们能快速定位到被查字的位置。Lucene中的索引有着异曲同工的效果,通过对文档内容分析,提取出很多关键字(分词),再为每个关键字添加位置信息(可能为多个),这样我们就能通过关键字快速定位到文档位置,提高搜索的速度。有人可能不太理解为什么添加索引能提高搜索效率,这么说你可能会懂:拿中文文档来说,汉字的数量和词的数量是有限的,假设我现在为一万本中文书建立索引 , 那么我关键词的数量最多为 一本新华字典+现代汉语词典的量,我为2万本书建立索引,我关键词的数量是不是不会发生改变,不过关键词下位置信息会增多对吧。数据越多,建立索引的时间会越长,不过能换来搜索时间稳定,很值。
大致介绍了一下Lucene的用途和核心功能,本篇到此结束。下一篇会直接上个简单的实例,让开发者能快速上手,并且会详细介绍Lucene的索引过程。
本篇中有没说清楚或者有误的地方,欢迎指点,大家相互学习。
初识lucene(想看代码的跳过)的更多相关文章
- 【前端模板之路】一、重构的兄弟说:我才不想看你的代码!把HTML给我交出来!
写在前面 随着前端领域的发展和社会化分工的需要,继前端攻城湿之后,又一重要岗位横空出世——重构攻城湿!所谓的重构攻城湿,他们的一大特点之一,就是精通CSS配置文件的编写...前端攻城湿跟重构攻城湿是一 ...
- (转)【前端模板之路】一、重构的兄弟说:我才不想看你的代码!把HTML给我交出来!
原文地址:http://www.cnblogs.com/chyingp/archive/2013/06/30/front-end-tmplate-start.html 写在前面 随着前端领域的发展和社 ...
- php spl标准库简介(SPL是Standard PHP Library(PHP标准库)(直接看代码实例,特别方便)
php spl标准库简介(SPL是Standard PHP Library(PHP标准库)(直接看代码实例,特别方便) 一.总结 直接看代码实例,特别方便易懂 thinkphp控制器利眠宁不支持(说明 ...
- 初识lucene
lucene的介绍网上有好多,再写一遍可能有点多余了. 使用lucene之前,有一系列的疑问 为什么lucene就比数据库快? 倒排索引是什么,他是怎么做到的 lucene的数据结构是什么样的,cpu ...
- calltree看代码调用图
calltree是在linux下面看c代码(尤其是复杂的内核代码)的神器. 推荐 calltree+vim + ctags + cscope + taglist [ vim: 搭建vim看代码的环境 ...
- 免费的Lucene 原理与代码分析完整版下载
Lucene是一个基于Java的高效的全文检索库.那么什么是全文检索,为什么需要全文检索?目前人们生活中出现的数据总的来说分为两类:结构化数据和非结构化数据.很容易理解,结构化数据是有固定格式和结构的 ...
- CGAL代码阅读跳坑指南
CGAL代码阅读跳坑指南 整体框架介绍 CGAL中的算法和数据结构由它们使用的对象类型和操作参数化.它们可以处理满足特定语法和语义需求的任何具体模板参数.为了避免长参数列表,参数类型被收集到一个单独的 ...
- 使用tkinter打造一个小说下载器,想看什么小说,就下什么
前言 今天教大家用户Python GUI编程--tkinter 打造一个小说下载器,想看什么小说,就下载什么小说 先看下效果图 Tkinter 是使用 python 进行窗口视窗设计的模块.Tkint ...
- 【JavaScript基础】Js的定时器(你想看的原理也在哟)
[JavaScript基础]Js的定时器(你想看的原理也在哟) 博客说明 文章所涉及的资料来自互联网整理和个人总结,意在于个人学习和经验汇总,如有什么地方侵权,请联系本人删除,谢谢! 说明 本章是经历 ...
随机推荐
- vue项目基本流程
一.做项目基本流程: 1.规划组件结构 Nav.vue Header.vue Home.vue..... 2.编写对应路由 vue-router 3.具体些每个组件功能 一些公共的文件jquery,j ...
- python中的变量,运算符
范例: name = 'Crossin' myVar = 123 price = 5.99 visible = True “=”的作用是把右边的值赋予给左边的变量. python中有四种较为常见的数据 ...
- Discuz的安装与使用
Discuz的安装与使用 一.Discuz的安装 由于本机已经安装好XAMPP集成工具,后续Discuz访问数据库以及服务器等都是基于XAMPP环境.在主机localhost根目录下新建bbs文件夹. ...
- 十年磨一剑 Delphi重新崛起再写传奇
新年伊始,英巴卡迪诺公司(Embarcadero)就在其官网发布了"激动人心的RAD Studio2018年发展规划"公告(见上图).公告中指出,将在于2018年第一季度发布10. ...
- Redis入门_下
本文主要介绍redis一些高级特性. 1.Redis HyperLogLog Redis HyperLogLog 是用来做基数统计的算法,HyperLogLog 的优点是,在输入元素的数量或者体积非常 ...
- 抛砖引玉之~sftp
跨平台系列汇总:http://www.cnblogs.com/dunitian/p/4822808.html#linux XFtp用惯了,没有它就不行了?Linux就不能文件传输了? 答案肯定是~No ...
- Linux命令之tar-rsync
一.tar命令 可以对文件和目录进行打包压缩(相较于zip.gzip.bzip2不能对目录进行压缩,tar是一大优势) 用途:制作归档文件.释放归档文件 基本格式: 压缩---> tar [选 ...
- 【linux之find及awk】
一.find命令 find 精确查找,根据提供的条件或组合条件进行查找,遍历所有文件,因此速度比较慢. 语法: find 目录 条件 动作 默认目录是当前目录默认条件是所有条件默认动作是显示查找到的信 ...
- Java采用内部构造器Builder模式进行对类进行构建
好处: 能保证重叠构造器模式的安全性: 能保证JAVABeans模式的可读性: package cn.lonecloud.builder; /** * 使用内部类构建器来对这个类进行构造 * @Tit ...
- UVA - 1592 Database 枚举+map
思路 直接枚举两列,然后枚举每一行用map依次记录每对字符串出现的是否出现过(字符串最好先处理成数字,这样会更快),如果出现就是"NO",否则就是"YES". ...