什么是Solr搜索

我们经常会用到搜索功能,所以也比较熟悉,这里就简单的介绍一下搜索的原理。

当然只是介绍solr的原理,并不是搜索引擎的原理,那会更复杂。

流程图

这是一个非常简单的流程图:

User:即需要搜索的用户。

Raw Data:需要搜索的内容,当然是源数据,可能是文本文件,可能是数据库的数据,可能是XML等等。

Index:有格式的数据。

其实从图中可以看出来:

  1. Solr搜索非常类似于读写数据库的过程。
  2. Solr搜索最主要的两个问题(细节已经封装好):
    1. 怎样从元数据合理组织格式化成Index
    2. 怎样根据关键字从Index中调取相关数据(排序、模糊查询等等)。

类比一下,Index就相当于数据表,里面有很多记录,我们需要做的就是设计数据表的格式,有哪些列。并且根据关键字搜索。

Solr综述

Solr其实是一个WebApp,在官网下载后将war包放在web'容器下便可以直接运行,你自己的web项目通过HTTP请求的方式和Solr交互。当然需要现在Solr中生成索引库(类似不同的数据表)。HTTP请求中带有相关参数(关键字、需要搜索的索引库、排序规则….)。那么想爱先简单介绍下一些相关的概念:

索引Index,文档Docements,域Fields

Solr中数据最小单元为Field,比如Name、Age。Documents是一个具体的对象,如人。举例说明:Edwin是一个人,那么可以将Edwin抽象为一个Document,这个Document包含很多Fields,Name、Age、Sex….。一个索引库Index由许多Documents组成。

Index(Student) ß Docements(Edwin、AngelaBaby…) ß Fields(Name、Age…)

是不是很像数据库的模型? 其实完全可以把这个理解为数据库… 并且Index还真的有主键的概念,叫做Unique Field。

查询Query

上面解决了数据格式化成Index的问题,那么还剩下怎样根据关键字查询搜索结果的问题,先举个例子:

http://localhost:8983/solr/Artist/select?q=Artist_Name:周杰伦 &wt=json&indent=true

这就是web项目和Solr交互的一个Url

Localhost:8983/solr 这个事Solr项目

Artist是索引库Index

q=Artist_Name:周杰伦

q代表Query 意思是查询Artist_Name为周杰伦的数据

wt=json 指结果按照Json形式返回

indent=true 返回的数据格式化(也就是好看一点~)

通过这一个简单的请求,即可以明白Solr请求的一个基本过程了,有什么需求加什么参数,之后Solr解析请求,根据自己的匹配规则,一个很复杂的公式,计算所有Documents的得分,得分高的优先返回。最后Web项目获得得到搜索结果,格式化输出。

两个重要的文件

Schema.xml

这个文件其实就是对Index的配置,包括Field的类型,Unique Field,分词等等。

先看看整体结构:

  1.  
  2.   <schema name="Artist" version="1.1">
  3.    <fieldtype name="string" class="solr.StrField" sortMissingLast="true" omitNorms="true"/>
  4.    <fieldType name="long" class="solr.TrieLongField" precisionStep="0" positionIncrementGap="0"/>
  5.    <fieldType name="int" class="solr.TrieIntField" precisionStep="0" positionIncrementGap="0"/>
  6.   <field name="ID" type="int" indexed="true" stored="true" multiValued="false" required="true"/>
  7.    <field name="Name" type="text_ik" indexed="true" stored="true"/>
  8.    <field name="Name_Exact" type="string" indexed="true" stored="true" />
  9.    <field name="SpaceID" type="long" indexed="true" stored="true"/>
  10.    <field name="PinYin" type="text_general" indexed="true" stored="true"/>
  11.    <field name="SongNum" type="int" indexed="true" stored="true"/>
  12.  
  13.    <copyField source="Artist_Name" dest="Artist_Name_Exact" />
  14.  <!-- field to use to determine and enforce document uniqueness. -->
  15.  <uniqueKey>ID</uniqueKey>
  16.  
  17.  <!-- field for the QueryParser to use when an explicit fieldname is absent -->
  18.  <defaultSearchField>ID</defaultSearchField>
  19.  
  20. <!-- Chinese -->
  21.    <fieldType name="text_ik" class="solr.TextField">
  22.         <analyzer type="index" isMaxWordLength="false" class="org.wltea.analyzer.lucene.IKAnalyzer"/>
  23.         <analyzer type="query" isMaxWordLength="true" class="org.wltea.analyzer.lucene.IKAnalyzer"/>
  24.    </fieldType>
  25.  
  26.  <!-- SolrQueryParser configuration: defaultOperator="AND|OR" -->
  27.  <solrQueryParser defaultOperator="OR"/>
  28. </schema>

FieldType代表Field的类型,可以自定义也可以使用Solr提供的Type,具体支持的Type可以参考Solr文档,其中需要稍微解释一下的是string,实现的class是solr.StrField,string的意思是将Field当成字符串,那么如果在搜索时,不会进行分词。只能整体匹配,例如将Name设置为string,那么当搜索周杰伦的时候,只有Name完全和周杰伦相同才会被匹配,周杰,周杰伦你好…这些都不会匹配,这个在精确查找时很有用。

Unique Field :其实是主键的意思,就是说在所有的Documents中被设置成Unique的Field只能有唯一值。当然在Index生成的时候,不用去重,Solr并不会报错,比如向Solr输入

ID:1 Name:张三

ID:1 Name:李四

如果ID为Unique Field,那么Solr可能会根据先后顺序,只会存储一个ID为1的Document,剩余重复ID的Document会被忽略。

Field中还有很多属性:

Name和Type就不说了

Indexed:表示此Field是否索引,意思就是能否被搜索到,如果Name设置为false,那么搜索Name=周杰伦是没有结果的。

Stored:表示此Field是否被存储。

multiValued:表示此Field能否有多值,即Category可以有多个值:如原创歌手、华语男歌手等等。默认false,Unique Field必须显式设置为false。

Required:表示此Field是否能为空,默认false,Unique Field必须设置为true。

  1. <copyField source="Name" dest="Name_Exact" />

这是一个很有用的东西,从名字就能看出来是赋值Field,最大的作用便是可以让一个Field有多个不同的Type。

比如Name一个可以设置为text_ik(分词器,可以看我的博客:三、Solr多核心及分词器(IK)配置)

一个设置为string

那么模糊搜索时,可以使用Name,精确搜索时使用Name_Exact。

Solrconfig.xml

Scheme.xml是对索引库中Documents的配置,那么solrconfig就是对索引库的整体配置。配置requestHandler,有点类似于filter,就是在请求前后对请求进行预处理。这个之后碰到具体情况再具体分析,因为一般情况下设置好了之后,极少需要改动此文件。

总结

其实我个人使用Solr后觉得,如上面画的简单的流程图,最重要的两个问题:

  1. 查询条件

    查询哪些Field,用什么方式查询,什么排序,比如按照更新时间排序,还是在搜索歌曲时HQ、SQ优先等等,主要用到了Url参数、solrconfig中的requestHandler。

  2. Index的设计

    这是重中之重,我觉得大部分情况下应该都是使用solr从数据库中读取数据生成索引,这就要求原来的数据库设计就要比较合理,如果原来的数据库比较乱,那么就需要大量的SQL将表联结等等操作,并且出错的概率也高。

一、Solr综述的更多相关文章

  1. 三、Solr多核心及分词器(IK)配置

    多核心的概念 多核心说白了就是多索引库.也可以理解为多个"数据库表" 说一下使用multicore的真实场景,比若说,产品搜索和会员信息搜索,不使用多核也没问题,这样带来的问题是 ...

  2. Solr多核心及分词器(IK)配置

    Solr多核心及分词器(IK)配置   多核心的概念 多核心说白了就是多索引库.也可以理解为多个"数据库表" 说一下使用multicore的真实场景,比若说,产品搜索和会员信息搜索 ...

  3. 什么是Solr搜索

    什么是Solr搜索 一.Solr综述   什么是Solr搜索 我们经常会用到搜索功能,所以也比较熟悉,这里就简单的介绍一下搜索的原理. 当然只是介绍solr的原理,并不是搜索引擎的原理,那会更复杂. ...

  4. solr中Cache综述

    一.概述 Solr查询的核心类就是SolrIndexSearcher,每个core通常在同一时刻只由当前的SolrIndexSearcher供上层的handler使用(当切换SolrIndexSear ...

  5. 创建solr集群简述

    综述: 用两台服务器,每台服务器上启动两个solr实例(端口分别为8983.7574),即一共有2x2=4个节点.4个节点分散在两个分片上,每台机器上存放两个分片的各一个replica,这样等于每台机 ...

  6. solr服务中集成IKAnalyzer中文分词器、集成dataimportHandler插件

    昨天已经在Tomcat容器中成功的部署了solr全文检索引擎系统的服务:今天来分享一下solr服务在海量数据的网站中是如何实现数据的检索. 在solr服务中集成IKAnalyzer中文分词器的步骤: ...

  7. Solr 排除查询

    前言 solr排除查询也就是我们在数据库和程序中经常处理的不等于,solr的语法是在定语前加[-].. StringBuilder sbHtml=new StringBuilder(); shBhtm ...

  8. Solr高级查询Facet

    一.什么是facet solr种以导航为目的的查询结果成为facet,在用户查询的结果上根据分类增加了count信息,然后用户根据count信息做进一步搜索. facet主要用于导航实现渐进式精确搜索 ...

  9. [Solr] (源) Solr与MongoDB集成,实时增量索引

    一. 概述 大量的数据存储在MongoDB上,需要快速搜索出目标内容,于是搭建Solr服务. 另外一点,用Solr索引数据后,可以把数据用在不同的项目当中,直接向Solr服务发送请求,返回xml.js ...

随机推荐

  1. springMVC如何判断入参是默认参数还是请求传过来的参数?

    springMVC如何判断入参是默认参数还是请求传过来的参数?

  2. spring aop切面配置

    <bean id="aopLog" class="sardine.commodity.biz.AopLog"/>    <aop:config ...

  3. 原生js实现的放大镜效果

    这是我用原生js写的放大镜效果,与各种各样的框架技术相比,我喜欢使用原生的js,在这里,想和大家一起谈谈原生和框架技术的理解与个人喜好. <!DOCTYPE HTML><html&g ...

  4. 你好,C++(25)函数调用和它背后的故事5.1.2 函数调用机制

    5.1.2  函数调用机制 在前面的学习中,我们多次提到了“调用函数”的概念.所谓调用函数,就是将程序的执行控制权从调用者(某个函数)交给被调用的函数,同时通过参数向被调用的函数传递数据,然后程序进入 ...

  5. 你好,C++(14)如何描述“一个名叫陈良乔,年龄33岁,身高173厘米,体重61.5千克的男人”——3.8 用结构体类型描述复杂的事物

    3.8  用结构体类型描述复杂的事物 利用C++本身所提供的基本数据类型所定义的变量,只能表达一些简单的事物.比如我们可以用int类型定义nAge变量表示人的年龄,用string类型定义strName ...

  6. 使用github创建博客

    本文主要介绍以下几个内容: 1.使用githbu创建自己的博客 2.将博客域名映射到自己的域名 3.如果写博客   一.使用github创建自己的博客 具体可参考https://pages.githu ...

  7. linux定时任务crond那些事!

    1.定时任务crond介绍 1.1 crond是什么 crond是linux系统中用来定期执行命令或指定程序任务的一种服务或软件. 特殊需求:(秒级别)crond服务就无法搞定了,一般工作中写脚本守护 ...

  8. php经典面试题

    1. 用PHP打印出前一天的时间,打印格式是2007年5月10日 22:21:21 2. PHP代码如下:$a="hello"; $b=&$a;unset($b);$b=& ...

  9. 查看文件系统类型的Linux命令

    不需挂载就能查看的命令:   1. file  [root@localhost dev]# file -s /dev/sda1 /dev/sda1: Linux rev 1.0 ext4 filesy ...

  10. jQueryMobile之Popup

    效果: (1):Tooltip (2):Menu (3):NestedMenu (4):Login ------ 源码: <!DOCTYPE html> <html lang=&qu ...