全文搜索(Full Text Search)

现在我们已经讨论了搜索结构化数据的一些简单用例，是时候开始探索全文搜索了 - 如何在全文字段中搜索来找到最相关的文档。

对于全文搜索而言，最重要的两个方面是：

基于词条(Term-based)和全文(Full-text)

尽管所有的查询都会执行某种程度的相关度计算，并不是所有的查询都存在解析阶段。除了诸如bool或者function_score这类完全不对文本进行操作的特殊查询外，对于文本的查询可以被划分两个种类：

基于词条的查询(Term-based Queries)

类似term和fuzzy的查询是不含有解析阶段的低级查询(Low-level Queries)。它们在单一词条上进行操作。一个针对词条Foo的term查询会在倒排索引中寻找该词条的精确匹配(Exact term)，然后对每一份含有该词条的文档通过TF/IDF进行相关度_score的计算。

尤其需要记住的是term查询只会在倒排索引中寻找该词条的精确匹配 - 它不会匹配诸如foo或者FOO这样的变体。它不在意词条是如何被保存到索引中。如果你索引了["Foo", "Bar"]到一个not_analyzed字段中，或者将Foo Bar索引到一个使用whitespace解析器的解析字段(Analyzed Field)中，它们都会在倒排索引中得到两个词条："Foo"以及"Bar"。

全文查询(Full-text Queries)

类似match或者query_string这样的查询是高级查询(High-level Queries)，它们能够理解一个字段的映射：

如果你使用它们去查询一个date或者integer字段，它们会将查询字符串分别当做日期或者整型数。
如果你查询一个精确值(not_analyzed)字符串字段，它们会将整个查询字符串当做一个单独的词条。
但是如果你查询了一个全文字段(analyzed)，它们会首先将查询字符串传入到合适的解析器，用来得到需要查询的词条列表。

一旦查询得到了一个词条列表，它就会使用列表中的每个词条来执行合适的低级查询，然后将得到的结果进行合并，最终产生每份文档的相关度分值。

我们会在后续章节中详细讨论这个过程。

在很少的情况下，你才需要直接使用基于词条的查询(Term-based Queries)。通常你需要查询的是全文，而不是独立的词条，而这个工作通过高级的全文查询来完成会更加容易(在内部它们最终还是使用的基于词条的低级查询)。

如果你发现你确实需要在一个not_analyzed字段上查询一个精确值，那么考虑一下你是否真的需要使用查询，而不是使用过滤器。

单词条查询通常都代表了一个二元的yes|no问题，这类问题通常使用过滤器进行表达更合适，因此它们也能够得益于过滤器缓存(Filter Caching)：

GET /_search

{

    "query": {

        "filtered": {

            "filter": {

                "term": { "gender": "female" }

            }

        }

    }

}

`match`查询

在你需要对任何字段进行查询时，match查询应该是你的首选。它是一个高级全文查询，意味着它知道如何处理全文字段(Full-text, analyzed)和精确值字段(Exact-value，not_analyzed)。

即便如此，match查询的主要使用场景仍然是全文搜索。让我们通过一个简单的例子来看看全文搜索时如何工作的。

索引一些数据

首先，我们会创建一个新的索引并通过bulk API索引一些文档：

DELETE /my_index 

PUT /my_index

{ "settings": { "number_of_shards": 1 }} 

POST /my_index/my_type/_bulk

{ "index": { "_id": 1 }}

{ "title": "The quick brown fox" }

{ "index": { "_id": 2 }}

{ "title": "The quick brown fox jumps over the lazy dog" }

{ "index": { "_id": 3 }}

{ "title": "The quick brown fox jumps over the quick dog" }

{ "index": { "_id": 4 }}

{ "title": "Brown fox brown dog" }

注意到以上在创建索引时，我们设置了number_of_shards为1：在稍后的相关度坏掉了(Relevance is broken)一节中，我们会解释为何这里创建了一个只有一个主分片(Primary shard)的索引。

单词查询(Single word query)

第一个例子我们会解释在使用match查询在一个全文字段中搜索一个单词时，会发生什么：

GET /my_index/my_type/_search

{

    "query": {

        "match": {

            "title": "QUICK!"

        }

    }

}

ES会按照如下的方式执行上面的match查询：

检查字段类型

title字段是一个全文字符串字段(analyzed)，意味着查询字符串也需要被分析。
解析查询字符串

查询字符串"QUICK!"会被传入到标准解析器中，得到的结果是单一词条"quick"。因为我们得到的只有一个词条，match查询会使用一个term低级查询来执行查询。
找到匹配的文档

term查询会在倒排索引中查询"quick"，然后获取到含有该词条的文档列表，在这个例子中，文档1，2，3会被返回。
对每份文档打分

term查询会为每份匹配的文档计算其相关度分值_score，该分值通过综合考虑词条频度(Term Frequency)("quick"在匹配的每份文档的title字段中出现的频繁程度)，倒排频度(Inverted Document Frequency)("quick"在整个索引中的所有文档的title字段中的出现程度)，以及每个字段的长度(较短的字段会被认为相关度更高)来得到。参考什么是相关度(What is Relevance?)

这个过程会给我们下面的结果(有省略)：

"hits": [

 {

    "_id":      "1",

    "_score":   0.5,

    "_source": {

       "title": "The quick brown fox"

    }

 },

 {

    "_id":      "3",

    "_score":   0.44194174,

    "_source": {

       "title": "The quick brown fox jumps over the quick dog"

    }

 },

 {

    "_id":      "2",

    "_score":   0.3125,

    "_source": {

       "title": "The quick brown fox jumps over the lazy dog"

    }

 }

]

文档1最相关，因为它的title字段短，意味着quick在它所表达的内容中占比较大。文档3比文档2的相关度更高，因为quick出现了两次。

REFERENCE FROM : http://blog.csdn.net/dm_vincent/article/details/41693125

[Elasticsearch] 全文搜索 (一) 基础概念和match查询的更多相关文章

Elasticsearch全文搜索——adout
现在尝试下稍微高级点儿的全文搜索——一项传统数据库确实很难搞定的任务. 搜索下所有喜欢攀岩(rock climbing)的雇员: curl -XGET 'localhost:9200/megacorp ...
Elasticsearch 全文搜索
1,匹配查询(match) match查询主要的应用场景是进行全文搜索: // 1,初始化数据 DELETE /my_index PUT /my_index { "settings" ...
【Elasticsearch学习】之基础概念
Elasticsearch是一个近实时的分布式搜索引起,其底层基于开源全文搜索库Lucene:Elasticsearch对Lucene进行分装,对外提供REST API 的操作接口.基于 ES,可以快 ...
elasticsearch全文搜索
1.创建索引 PUT 192.168.100.102:9200/news 2.创建mapping POST 192.168.100.102:9200/news/new/_mapping { " ...
Elasticsearch 全文搜索和keyword search字段的mapping定义
在ES5.0之前我们对于需要keyword search的字段都是这样定义的: { "field name":{ "type": "string&qu ...
Elasticsearch系列---搜索执行过程及scroll游标查询
概要本篇主要介绍一下分布式环境中搜索的两阶段执行过程. 两阶段搜索过程回顾我们之前的CRUD操作,因为只对单个文档进行处理,文档的唯一性很容易确定,并且很容易知道是此文档在哪个node,哪个sha ...
ElasticSearch全文搜索引擎（A）
文章:[Elasticsearch] 全文搜索 (一) - 基础概念和match查询全文检索,是从最初的字符串匹配和简单的布尔逻辑检索技术,演进到能对超大文本.语音.图像.活动影像等非结构化数据进行 ...
〈四〉ElasticSearch的认识：基础原理的补充
目录想想我们漏了什么回顾补回集群的建立集群发现机制配置文件健康状态补充: 小节总结分片的管理梳理分片的均衡分配主副分片的排斥容错性: 数据路由对于集群健康状态的影响小节总 ...
SQL Server 全文搜索
SQL Server 的全文搜索(Full-Text Search)是基于分词的文本检索功能,依赖于全文索引.全文索引不同于传统的平衡树(B-Tree)索引和列存储索引,它是由数据表构成的,称作倒转索 ...

随机推荐

[转]C#网络编程(基本概念和操作) - Part.1
本文转自:http://www.tracefact.net/CSharp-Programming/Network-Programming-Part1.aspx 引言 C#网络编程系列文章计划简单地讲述 ...
《2016ThoughtWorks技术雷达峰会----微服务架构》
微服务架构王键,ThoughtWorks, 首席咨询师首先微服务架构的定义,thoughtWorks在2012年3月的技术雷达中这样定义: “微服务架构是一种架构,它提倡将单一应用程序划分为一 ...
Visio连接数据表实体外键[快捷记录]
打开数据库模型图. 单击“常用”工具栏上的“连接线”工具. 将“连接线”工具放在父表的中心上,使表的四周出现轮廓线,然后拖到子表的中心.当子表出现轮廓线时,松开鼠标按钮. 两个连接点均变为红色,同时父 ...
jQuery学习之jQuery Ajax用法详解
jQuery Ajax在web应用开发中很常用,它主要包括有ajax,get,post,load,getscript等等这几种常用无刷新操作方法,下面我来给各位同学介绍介绍. 我们先从最简单的方法看起 ...
CoreAnimation笔记
核心动画继承结构 CoreAnimation Core Animation是直接作用在CALayer上的(并非UIView上)非常强大的跨Mac OS X和iOS平台的动画处理API,Core Ani ...
JavaScript的闭包和内存泄漏问题
闭包 http://www.ruanyifeng.com/blog/2009/08/learning_javascript_closures.html JavaScript中必须提到的功能最强大的抽象 ...
微软职位内部推荐-SDEII_ ECO
微软近期Open的职位: SDE II SDE II Organization Summary: Engineering, Customer interactions & Online (EC ...
NET WebApi OWIN 实现 OAuth 2.0
NET WebApi OWIN 实现 OAuth 2.0 OAuth(开放授权)是一个开放标准,允许用户让第三方应用访问该用户在某一网站上存储的私密的资源(如照片,视频,联系人列表),而无需将用户名和 ...
noi题库（noi.openjudge.cn） 1.7编程基础之字符串T31——T35
T31 字符串P型编码描述给定一个完全由数字字符('0','1','2',-,'9')构成的字符串str,请写出str的p型编码串.例如:字符串122344111可被描述为"1个1.2个 ...
VMware Fusion DHCP方式下如何指定虚拟机IP地址
默认情况下,vmware fusion中的虚拟机,网卡设置成dhcp(动态分配 )时,会分配一个IP地址,但这个IP通常很难记,如果我们想为某台虚拟机挑一个好记的IP地址,可以按如下步骤操作: 命令行 ...

[Elasticsearch] 全文搜索 (一) 基础概念和match查询

全文搜索(Full Text Search)

基于词条(Term-based)和全文(Full-text)

match查询

[Elasticsearch] 全文搜索 (一) 基础概念和match查询的更多相关文章

随机推荐

热门专题

`match`查询