solr原理

1.solr原理：

我本人的理解：solr是为解决高性能的全文索引而出现的，它将用户输入的关键字进行智能分解，分解成一个个词，过滤掉一些多余的停词及空格等，比如，“在”、“里面”、“也”、“的”、“它”、“为”这些词都是停止词。这些词因为使用频率过高，几乎 每个网页上都存在，所以搜索引擎开发人员都将这一类词语全部忽略掉。如果我们的网站上存在大量这样的词语，那么相当于浪费了很多资源。然后将分解之后的词去建好的solr索引的字段中根据词的比重逐一进行匹配，最后将符合条件的数据返回给用户。

2.分词原理：

建立索引和查询的过程中，都是以基本的语素项为单位的。基本的语素项就是通过分词得到。这个过程决定了索引单元金额最终的匹配过程。

分词在文本索引的建立过程和用户提交检索过程中都存在。利用相同的分词器，把短语或者句子切分成相同的结果，才能保证检索过程顺利进行。

1、 英文分词的原理

基本的处理流程是：输入文本、词汇分割、词汇过滤（去除停留词）、词干提取（形态还原）、大写转为小写、结果输出。

2、 中文分词原理

中文分词比较复杂，并没有英文分词那么简单。这主要是因为中文的词与词之间并不像英文中那样用空格来隔开。

主要的方法有三种：基于词典匹配的分词方法、基于语义理解的分词、基于词频统计的分词。

3.Lucene：分词器和索引文件

目录

分词器

索引文件结构

常用的中文分词器

1、分词器

分词器，对文本资源进行切分，将字符文本串按照一定的规则切分为一个个可以进行索引的最小单位（关键词），以便检索时使用。

建立索引和进行检索时都要用到分词器。为了保证能正确的检索到结果，在建立索引与进行检索时使用的分词器应是同一个。   

2、索引文件结构

索引库是一组索引文件的集合。

索引文件的检索：索引表规模相对较小，文档集合规模较大。进行检索时，先从检索索引表开始，然后找到相对应的文档。如果查询中仅包含一个关键词，则在索引表中找到该关键词，并取出它所对应的文档就可以了。如果查询中包含多个关键词，则需要将各个关键字检索出的文档记录进行合并。

索引文件的维护：维护索引常使用三个操作：插入、删除和更新文档。但是更新操作需要较高的代价，因为文档修改后（即使是很小的修改），也可以造成文档中的很多的关键词的位置发生了变化，这时需要频繁的读取和修改记录，这种代价是相当高的。因此，一般不进行更新操作，而是使用“先删除，后创建”的方式代替更新操作。

3、常用的中文分词器

ik-analyzer：IK Analyzer是一个开源的，基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始， IKAnalyzer已经推出了4个大版本。最初，它是以开源项目Luence为应用主体的，结合词典分词和文法分析算法的中文分词组件。从3.0版本开始，IK发展为面向Java的公用分词组件，独立于Lucene项目，同时提供了对Lucene的默认优化实现。在2012版本中，IK实现了简单的分词歧义排除算法，标志着IK分词器从单纯的词典分词向模拟语义分词衍化。

Ansj：Ansj中文分词是一款纯Java的主要应用于自然语言处理的高精度的中文分词。追求的目标是--准确-高效-自由。包括：中文分词、人名识别、地名识别、组织机构名识别、多级词性标注、关键词提取、指纹提取支持行业词典、用户自定义词典。Ansj 是基于中科院的 ictclas 中文分词算法，比其他常用的开源分词工具（如mmseg4j）的分词准确率更高。

在线演示：http://ansj.sdapp.cn/demo/seg.jsp

官网地址：http://www.ansj.org/

Github地址：https://github.com/ansjsun/ansj_seg

mmseg4j：用 Chih-Hao Tsai 的 MMSeg 算法(http://technology.chtsai.org/mmseg/)实现的中文分词器，并实现 lucene 的 analyzer 和 solr 的TokenizerFactory 以方便在Lucene和Solr中使用。MMSeg 算法有两种分词方法：Simple和Complex，都是基于正向最大匹配。Complex 加了四个规则过虑。官方说：词语的正确识别率达到了 98.41%。mmseg4j 已经实现了这两种分词算法。

imdict-chinese-analyzer：imdict-chinese-analyzer 是 imdict智能词典 的智能中文分词模块，算法基于隐马尔科夫模型(Hidden Markov Model, HMM)，是中国科学院计算技术研究所的ictclas中文分词程序的重新实现（基于Java），可以直接为lucene搜索引擎提供简体中文分词支持。

ictclas4j：ICTCLAS4j中文分词系统是sinboy在中科院张华平和刘群老师的研制的FreeICTCLAS的基础上完成的一个java开源分词项目，简化了原分词程序的复杂度，旨在为广大的中文分词爱好者一个更好的学习机会。关于ICTCLAS分词系统的讨论，请访问google group关于ictclas分词系统的讨论组http://groups.google.com/group/ictclas

ICTCLAS汉语分词系：http://ictclas.org/

4.solr的配置文件：

（1）solr.xml

    与整个搜索引擎相关的配置。

（2）solrconfig.xml。

    与某个core相关的主要配置，如定义updatehandler用于索引文件，requesthandler用于搜索内容等。

（3）schema.xml

    定义了某类型文档的索引格式。

solr原理的更多相关文章

Solr使用入门指南
本文转自http://chuanliang2007.spaces.live.com/blog/cns!E5B7AB2851A4C9D2!499.entry?wa=wsignin1.0 由于搜索引擎功能 ...
solr与.net系列课程(一)solr的安装与配置
不久之前开发了一个项目,需要用到solr,因为所以在开始再网上查找资料,但是发现大部分的资料都是很片面的,要么就是只讲解solr如何安装的,要么就是只讲解solr的某一个部分的,而且很多都是资料都是一 ...
企业级搜索引擎Solr使用入门指南
由于搜索引擎功能在门户社区中对提高用户体验有着重在门户社区中涉及大量需要搜索引擎的功能需求,目前在实现搜索引擎的方案上有集中方案可供选择: 基于Lucene自己进行封装实现站内搜索. 工作量及扩展性都 ...
Solr入门指南
本文转自http://chuanliang2007.spaces.live.com/blog/cns!E5B7AB2851A4C9D2!499.entry?wa=wsignin1.0 因为搜索引擎功能 ...
solr的安装与配置
solr的安装与配置不久之前开发了一个项目,需要用到solr,因为所以在开始再网上查找资料,但是发现大部分的资料都是很片面的,要么就是只讲解solr如何安装的,要么就是只讲解solr的某一个部分的, ...
[转载] Solr使用入门指南
转载自http://blog.csdn.net/liuzhenwen/article/details/4060922 由于搜索引擎功能在门户社区中对提高用户体验有着重要的作用,在门户社区中涉及大量需要 ...
solr初认识
Solr : Search On Lucene Replication Solr 基本概况 Apache Solr (读音: SOLer) 是一个开源的搜索服务器.Solr 使用 Java 语言开发, ...
Solr 文章集成
Solr 文章集成 solr原理 solr wiki: http://wiki.apache.org/solr/ 分布式全文检索系统SolrCloud简单介绍 http://my.oschina.ne ...
[Java] Solr & Elasticsearch
背景实现网站自带的搜索功能,如淘宝中的商品搜索全文搜索数据分类结构化数据:固定格式或长度有限的数据,如数据库.元数据等非结构化数据:不定长或无固定格式的数据,如邮件.word文档等搜索分类 ...

随机推荐

国内 docker 仓库镜像对比
http://www.datastart.cn/tech/2016/09/28/docker-mirror.html
OpenSessionInViewFilter的配置
OpenSessionInViewFilter是用来处理懒加载异常的. 懒加载异常的意思的就是:还用不到的东西,就先不加载,等需要的时候再来加载. 所以懒加载对性能有一定的提升,但是,这也会出现一些问 ...
MySql中LongText字段对应Hibernate映射文件的设置(转)
<?xml version="1.0"?><!DOCTYPE hibernate-mapping PUBLIC "-//Hibernate/Hi ...
python 注释xml的元素
use xml.dom.minidom 注释xml元素和去除xml注释. code is: #!/usr/bin/env python from xml.dom import minidom impo ...
2016.6.30 java.util.concurrent.ExecutionException java.lang.OutOfMemoryError
选中ccs项目后,选择debug on server,但是运行到一半,跳出错误: java.util.concurrent.ExecutionException: java.lang.OutOfMem ...
Spring声明式事务的配置方式
1.事务的特性原子性:事务中的操作是不可分割的一部分一致性:要么同时成功,要么同时失败(事务执行前后数据保持一致) 隔离性:并发互不干扰持久性:事务一旦被提交,它就是一条持久 ...
Elasticsearch Java API深入详解
0.题记之前Elasticsearch的应用比较多,但大多集中在关系型.非关系型数据库与Elasticsearch之间的同步.以上内容完成了Elasticsearch所需要的基础数据量的供给.但想要 ...
JS杂技之无中间变量的值交换方式
从http://www.cnblogs.com/liuyitian/p/4081517.html#3074553看到一种无中间变量的值交换方式,具体如下: var a = 1;var b = 2;a ...
vue slot slot-scope
https://segmentfault.com/a/1190000012996217 插槽,也就是slot,是组件的一块HTML模板,这块模板显示不显示.以及怎样显示由父组件来决定. 实际上,一个s ...
TCP/IP详解卷一（第十七章 TCP:传输控制协议）
与UDP协议相比,TCP提供一种面向连接的.可靠的字节流服务. TCP首部跟UDP一样,TCP数据被封装在一个IP数据报中,下面显示TCP的首部数据格式每个TCP段都包含源端和目的端的端口号,用于 ...

solr原理

solr原理的更多相关文章

随机推荐

热门专题