初识lucene(想看代码的跳过)
最早是在百度贴吧里看到的lucene这个名称,只知道跟搜索引擎有关,因为工作中一直以来没有类似的需求,所以没有花时间学习这方面的知识。
刚过完年,公司不忙,自己闲不住把《Netty权威指南》大致刷了起来(后续有时间再把Netty这块的一些知识分享出来)。不过就在前几天,领导突然说后面有个新项目准备让我来做,目前还在整理需求中。然后巴拉巴拉简单的跟我讲了一下,大概就是说去年我给客户做了个小的WAP网站,人家觉还行今年准备搞个大一点的,门户+文库+机器人客服,这个文库需要搜索功能,用户在搜索框里面输入指定关键字,需要匹配现有的文档附件里面的内容,返回匹配成功的文档下载地址... 听到这个需求的时候,我并没有因为自己没有做过类似的项目而慌张,相反内心有种莫名的欣喜,可能是因为我脑袋里闪过Lucene这个词,借此机会可以好好的深入了解一下了。
一周之前,我对Lucene的认识正如 《Lucene实战 》中所写的一样,以为它是一个完整的搜索引擎,后来才知道它是一个 “信息检索工具库”并不能拿来即用,需要配合java来让它变成一个搜索引擎。当然,Lucene项目下还有一些子项目,基于Lucene开发的,可拿来即用,如solr,nutch等,感兴趣的可以百度搜索一下相关内容,此处不再介绍。
下面我就来现学现卖。先带你认识一下Lucene,知道它的干什么的;下一篇会写个简单的实例,能让你快速用起来;后面再慢慢的介绍一些概念和底层细节,有助于深入理解Lucene。
1.是什么
它是一款高性能、可扩展的信息检索(IR)工具库,信息检索是指文档(txt,json,xml,csv等)搜索,文档内容搜索及文档相关的一些元数据搜索等操作;
2.能做什么
通过Lucene的几个核心类,使你可以在不必深入了解全文索引和搜索机制的同时,也能轻松的将它集成到自己的应用中。Lucene的核心是索引和搜索,它可以为文本文档内容添加索引,使得你在搜索关键字的时候,能迅速返回包含这些关键字的文档。Lucene本身无法为docx,pdf,xlsx等格式的二进制格式文档添加索引,因为他不做内容编码的处理。但是借助Tika工具,可以将这些二进制文档转换成文本形式,来实现Lucene对这些文档支持。当然,内容的来源不仅仅局限于文件,还可以是互联网资源,数据库数据,这些一般都由开发者自己处理,Lucene也有现成的组件。总之,Lucene的核心专注于对内容的索引和搜索,并不关心内容的来源。
3.浅谈索引和搜索
索引和搜索是Lucene的核心,看过新华字典吗?厚厚的一本新华字典,如果我们要从中找一个字需要一页一页的翻吗?当然不是,字典的前几页有目录索引,根据目录索引我们能快速定位到被查字的位置。Lucene中的索引有着异曲同工的效果,通过对文档内容分析,提取出很多关键字(分词),再为每个关键字添加位置信息(可能为多个),这样我们就能通过关键字快速定位到文档位置,提高搜索的速度。有人可能不太理解为什么添加索引能提高搜索效率,这么说你可能会懂:拿中文文档来说,汉字的数量和词的数量是有限的,假设我现在为一万本中文书建立索引 , 那么我关键词的数量最多为 一本新华字典+现代汉语词典的量,我为2万本书建立索引,我关键词的数量是不是不会发生改变,不过关键词下位置信息会增多对吧。数据越多,建立索引的时间会越长,不过能换来搜索时间稳定,很值。
大致介绍了一下Lucene的用途和核心功能,本篇到此结束。下一篇会直接上个简单的实例,让开发者能快速上手,并且会详细介绍Lucene的索引过程。
本篇中有没说清楚或者有误的地方,欢迎指点,大家相互学习。
初识lucene(想看代码的跳过)的更多相关文章
- 【前端模板之路】一、重构的兄弟说:我才不想看你的代码!把HTML给我交出来!
写在前面 随着前端领域的发展和社会化分工的需要,继前端攻城湿之后,又一重要岗位横空出世——重构攻城湿!所谓的重构攻城湿,他们的一大特点之一,就是精通CSS配置文件的编写...前端攻城湿跟重构攻城湿是一 ...
- (转)【前端模板之路】一、重构的兄弟说:我才不想看你的代码!把HTML给我交出来!
原文地址:http://www.cnblogs.com/chyingp/archive/2013/06/30/front-end-tmplate-start.html 写在前面 随着前端领域的发展和社 ...
- php spl标准库简介(SPL是Standard PHP Library(PHP标准库)(直接看代码实例,特别方便)
php spl标准库简介(SPL是Standard PHP Library(PHP标准库)(直接看代码实例,特别方便) 一.总结 直接看代码实例,特别方便易懂 thinkphp控制器利眠宁不支持(说明 ...
- 初识lucene
lucene的介绍网上有好多,再写一遍可能有点多余了. 使用lucene之前,有一系列的疑问 为什么lucene就比数据库快? 倒排索引是什么,他是怎么做到的 lucene的数据结构是什么样的,cpu ...
- calltree看代码调用图
calltree是在linux下面看c代码(尤其是复杂的内核代码)的神器. 推荐 calltree+vim + ctags + cscope + taglist [ vim: 搭建vim看代码的环境 ...
- 免费的Lucene 原理与代码分析完整版下载
Lucene是一个基于Java的高效的全文检索库.那么什么是全文检索,为什么需要全文检索?目前人们生活中出现的数据总的来说分为两类:结构化数据和非结构化数据.很容易理解,结构化数据是有固定格式和结构的 ...
- CGAL代码阅读跳坑指南
CGAL代码阅读跳坑指南 整体框架介绍 CGAL中的算法和数据结构由它们使用的对象类型和操作参数化.它们可以处理满足特定语法和语义需求的任何具体模板参数.为了避免长参数列表,参数类型被收集到一个单独的 ...
- 使用tkinter打造一个小说下载器,想看什么小说,就下什么
前言 今天教大家用户Python GUI编程--tkinter 打造一个小说下载器,想看什么小说,就下载什么小说 先看下效果图 Tkinter 是使用 python 进行窗口视窗设计的模块.Tkint ...
- 【JavaScript基础】Js的定时器(你想看的原理也在哟)
[JavaScript基础]Js的定时器(你想看的原理也在哟) 博客说明 文章所涉及的资料来自互联网整理和个人总结,意在于个人学习和经验汇总,如有什么地方侵权,请联系本人删除,谢谢! 说明 本章是经历 ...
随机推荐
- HDU 4333 [SAM WRONG!!!]
题意:给一个数字,每一次把它的最后一位拿到最前面,一直那样下去,分别求形成的数字小于,等于和大于原来数的个数. SAM上就是走n步 相等好好做啊,但是大于小于不好做啊,用类似弦论的思想也不能处理出怎样 ...
- Apache、Lighttpd、Nginx 三种web服务器对比
简介 1. Apache Apache是世界使用排名第一的Web服务器软件.它可以运行在几乎所有广泛使用的计算机平台上,由于其跨平台和安全性被广泛使用,是最流行的Web服务器端软件之一.Apac ...
- Docker MySQL备份
建立备份的MySQL容器 docker run --name mysql-back -e MYSQL_ROOT_PASSWORD=root -v /srv/mysql/backup:/mysql/ba ...
- 【NOIP2012】 疫情控制
[NOIP2012] 疫情控制 标签: 倍增 贪心 二分答案 NOIP Description H 国有 n 个城市,这 n 个城市用 n-1 条双向道路相互连通构成一棵树, 1 号城市是首都, 也是 ...
- 箱型图boxplot函数的使用
主要参数: medlwd:设置中位线宽度 whiskcol:设置虚线颜色 staplecol:设置顶端颜色 outcol:离群值颜色 相应的具体位置: outline=FALSE:去除离群值 outp ...
- TzObjectInspector 一例
TzObjectInspector Github上的一个开源组件!可以做到类似Delphi IDE属性,事件面板的样式!作者持续更新中... 看起来是这个样子: 这个东西用起来并不像想象的那样可以直接 ...
- MysqL 磁盘写入策略之innodb_flush_log_at_trx_commit
本文从参数含义,性能,安全角度阐述两个参数为不同的值时对db 性能,数据的影响,引擎是Innodb的前提下. 取值:0/1/2 innodb_flush_log_at_trx_commit=0,表示每 ...
- ICQ
我一直都想编一个自己的聊天软件,像QQ那种:最近有时间我就自己编了一个.编写的过程中收获很大…… 现在拿出来跟大家分享,有兴趣的朋友可以和我交流交流. 先给大家看一下效果: 启动服务器: 再给大家看一 ...
- JVM笔记4-对象的创建
1.对象的创建过程: 1.new 类名 2.根据new的参数在常量池中定位一个类的符号的引用. 3.如果没找到这个符号的引用,说明类还没有被加载.则进行类的加载,解析和初始化 4.虚拟机为对象分配内存 ...
- Unity引擎与C#脚本简介
欢迎大家前往腾讯云+社区,获取更多腾讯海量技术实践干货哦~ 由 QQ会员技术团队 发布在云+社区 1. Unity编辑器基础 从原理上讲,游戏开发就是将一系列变动的场景呈现在玩家面前,并根据玩家的输入 ...