elasticsearch 介绍

一、什么是elasticsearch

　　Elasticsearch是一个基于Lucene的高度可伸缩的分布式的开源全文搜索和分析引擎。它允许您快速、实时地存储、搜索和分析大量数据。它通常用作底层引擎/技术，为具有复杂搜索特性和需求的应用程序提供支持。ElasticSearch是用java开发的，并作为Apache许可条款下的开放源码发布，是当前流行的企业级搜索引擎。

二、Elasticsearch的安装和配置

　　1、下载并解压相应的安装包，并配置ES_HOME下载链接貌似被屏蔽了，需要开代理下载。

　　2、在bin目录下启动elasticsearch.bat 即可运行Elasticsearch，通过浏览器访问localhost:9200如果返回一串json则说明启动成功。

　　3、上述的启动ES是基于环境变量JAVA_HOME所指向的JDK，如果要自己指定飞环境变量的JDk可以在环境变量中配置ES_JDK，类似JAVA_HOME，然后修改ES的bin目录下的

elasticsearch-env文件和elasticsearch-env.bat，具体修改如下

　　4、创建ES服务（注意JAVA_HOME环境变量一定要设置成系统变量，不能设置为用户系统变量，不然启动会报错，无法找到jvm.dll文件）

　　执行命令elasticsearch-server.bat start 就能将ES创建为windows服务，elasticsearch-server.bat相关的命令有

　　install　　将Elasticsearch作为服务安装

　　start 　　启动Elasticsearch服务（如果已安装）

　 stop　　停止Elasticsearch服务（如果启动）

　 remove　　删除已安装的Elasticsearch服务（并在启动时停止服务）

　　manager　　启动一个GUI来管理已安装的服务，可以设置服务的一些属性和参数

　　elasticsearch-server.bat manager 执行后的界面如下：如果要指向非JAVA_HOME 的jdk，那么可以修改下面的jvm.ddl

三、elasticsearch中的基本概念

　　概述：

　　在Elasticsearch中，包含多个索引（Index），相应的每个索引可以包含多个类型（Type），这些不同的类型每个都可以存储多个文档（Document），每个文档又有多个属性。一个索引索引 (index) 类似于传统关系数据库中的一个数据库，是一个存储关系型文档的地方。索引 (index) 的复数词为 indices 或 indexes 。

　　1、索引（index）： ES将数据存储于一个或多个索引中，索引是具有类似特性的文档的集合。类比传统的关系型数据库领域来说，索引相当于SQL中的一个数据库。索引由其名称(必须为全小写字符)进行标识，并通过引用此名称完成文档的创建、搜索、更新及删除操作。一个ES集群中可以按需创建任意数目的索引。

　　2、类型（type）：类型是索引内部的逻辑分区(category/partition)，然而其意义完全取决于用户需求。因此，一个索引内部可定义一个或多个类型(type)。一般来说，类型就是为那些拥有相同的域的文档做的预定义。例如，在索引中，可以定义一个用于存储用户数据的类型，一个存储日志数据的类型，以及一个存储评论数据的类型。类比传统的关系型数据库领域来说，类型相当于“表”。

　　3、文档（document）：文档是Lucene索引和搜索的原子单位，它是包含了一个或多个域的容器，基于JSON格式进行表示。文档由一个或多个域组成，每个域拥有一个名字及一个或多个值，有多个值的域通常称为“多值域”。每个文档可以存储不同的域集，但同一类型下的文档至应该有某种程度上的相似之处。

　　4、映射（mapping）：ES中，所有的文档在存储之前都要首先进行分析。用户可根据需要定义如何将文本分割成token、哪些token应该被过滤掉，以及哪些文本需要进行额外处理等等。另外，ES还提供了额外功能，例如将域中的内容按需排序。事实上，ES也能自动根据其值确定域的类型。

　　5、节点（node）：运行了单个实例的ES主机称为节点，它是集群的一个成员，可以存储数据、参与集群索引及搜索操作。类似于集群，节点靠其名称进行标识，默认为启动时自动生成的随机Marvel字符名称。用户可以按需要自定义任何希望使用的名称，但出于管理的目的，此名称应该尽可能有较好的识别性。节点通过为其配置的ES集群名称确定其所要加入的集群。

　　6、分片（shard）：ES的“分片(shard)”机制可将一个索引内部的数据分布地存储于多个节点，它通过将一个索引切分为多个底层物理的Lucene索引完成索引数据的分割存储功能，这每一个物理的Lucene索引称为一个分片(shard)。每个分片其内部都是一个全功能且独立的索引，因此可由集群中的任何主机存储。创建索引时，用户可指定其分片的数量，默认数量为5个。

　　7、副本（replica）：Shard有两种类型：primary和replica，即主shard及副本shard。Primary shard用于文档存储，每个新的索引会自动创建5个Primary shard，当然此数量可在索引创建之前通过配置自行定义，不过，一旦创建完成，其Primary shard的数量将不可更改。Replica shard是Primary Shard的副本，用于冗余数据及提高搜索性能。每个Primary shard默认配置了一个Replica shard，但也可以配置多个，且其数量可动态更改。ES会根据需要自动增加或减少这些Replica shard的数量。

四、ES相关度评分的理论

　　1、bool模型：只是在查询中使用 AND 、 OR 和 NOT （与、或和非）这样的条件来查找匹配的文档，这个过程简单且快速，它将所有可能不匹配的文档排除在外。

　　2、词频/逆向文档频率（TF/IDF）：当匹配到一组文档后，需要根据相关度排序这些文档，不是所有的文档都包含所有词，有些词比其他的词更重要。一个文档的相关度评分部分取决于每个查询词在文档中的权重。词的权重由三个因素决定分别是：

　　　　词频：词在文档中出现的频率越高权重越高。

　　　　逆向文档率：词在所有文档中出现的频率越高，权重越低。

　　　　字段长度归一值：字段越短，权重越高。

　　3、向量空间模型：先将查询条件根据词的权重表示为向量a，然后为被查询的每个文档创建查询词向量b，a的b的夹角越小，相关度越高。

五、elasticsearch中主要的配置说明#集群的名称，集群内的节点cluster.name必须相同

cluster.name: myElasticsearch

#节点名称

node.name: node1


#配置当前节点是否具有可选为master节点的资格，默认值为true

node.master: true


#配置当前节点是否允许存储数据，默认值为true

node.data: true
     　　master和data同时配置会产生一些奇异的效果：
        1) 当master为false，而data为true时，会对该节点产生严重负荷；
        2) 当master为true，而data为false时，该节点作为一个协调者；
        3) 当master为false，data也为false时，该节点就变成了一个负载均衡器。

#配置节点之间交互的端口

transport.tcp.port: 9300

#设置运行跨域访问，默认为false

http.cors.enabled: true


#设置跨域访问的允许范围

http.cors.allow-origin: "*"


#设置访问这个节点的ip和该节点绑定的ip

network.host: 192.168.0.1


#是否禁止HTTP

http.enabled: false


#HTTP监听的端口

http.port: 9200

#节点间交互时，可以设置是否压缩，转为为不压缩：
transport.tcp.compress: true


#设置新节点被启动时能够发现的主节点列表（主要用于不同网段机器连接）

discovery.zen.ping.unicast.hosts: ["192.168.0.1:9300", "192.168.0.1:9301"]


#配置索引的默认分片数，默认值为5

index.number_of_shards: 5


#配置索引的默认副本数，默认值为1

index.number_of_replicas: 1


#配置文件所在的位置，即elasticsearch.yml和logging.yml所在的位置

path.conf: /path/to/conf


#分配给当前节点的索引数据所在的位置

path.data: /path/to/data


#临时文件位置

path.work: /path/to/work


#日志文件所在位置

path.logs: /path/to/logs


#插件安装位置

path.plugins: /path/to/plugins

#设置内容的最大长度：
http.max_content_length: 100mb

六、将数据导入到elasticsearch

　　1、外部的数据存储在外部文件accounts.json中，里面的数据都是json格式，可以通过下面的命令来进行导入。

　　　　curl -H "Content-Type: application/json" -XPOST "localhost:9200/bank/account/_bulk?pretty&refresh" --data-binary "@accounts.json"

{"index":{"_id":"1"}}

{"account_number":1,"balance":39225,"firstname":"Amber","lastname":"Duke","age":32,"gender":"M","address":"880 Holmes Lane",

"employer":"Pyrami","email":"amberduke@pyrami.com","city":"Brogan","state":"IL"}

{"index":{"_id":"2"}}

{"account_number":6,"balance":5686,"firstname":"Hattie","lastname":"Bond","age":36,"gender":"M","address":"671 Bristol Street",

"employer":"Netagy","email":"hattiebond@netagy.com","city":"Dante","state":"TN"}

　　2、外部数据存储在mysql中

　　　　占位

七、配置elasticsearch集群

　　1、下载elasticsearch的安装包，并解压3份，然后分别编辑它们的elasticsearch.yml配置文件，再分别启动各个节点，它们会自动发现各个节点并组成集群。

　　2、注意不要直接复制已经运行过的elasticsearch，因为已经运行的过程中已经产生了数据，所以配置集群后有可能无法链接节点，这个时候清空data目录中的文件应该可以解决。

　　#############node1####################

cluster.name: elasticsearch

node.name: node-

node.master: true

node.data: true
http.cors.enabled: true
http.cors.allow-origin: "*"

network.host: 127.0.0.1

http.port:

transport.tcp.port: 

discovery.zen.ping.unicast.hosts: ["127.0.0.1:9301",  "127.0.0.1:9302", "127.0.0.1:9303"]

###############node2####################

cluster.name: elasticsearch

node.name: node-

node.master: true

node.data: true

http.cors.enabled: true
http.cors.allow-origin: "*"

network.host: 127.0.0.1

http.port:

transport.tcp.port: 

discovery.zen.ping.unicast.hosts: ["127.0.0.1:9301",  "127.0.0.1:9302", "127.0.0.1:9303"]

#############node3########################

cluster.name: elasticsearch

node.name: node-

node.master: true

node.data: true

http.cors.enabled: true
http.cors.allow-origin: "*"

network.host: 127.0.0.1 
http.port:  
transport.tcp.port:  
discovery.zen.ping.unicast.hosts: ["127.0.0.1:9301", "127.0.0.1:9302", "127.0.0.1:9303"]

　　集群搭建完成后可以来对集群状态进行查看

　　3、安装head插件

　　　　3.1、head插件是运行在node环境上的，安装head插件前需要安装node.js。

　　　　3.2、下载elasticsearch-head-master.zip并解压，然后以命令行的方式进入该文件夹使用npm install来安装。

　　　　3.3、安装完成后在该目录下会出现一个文件夹node_modules，进入该文件夹并执行npm run start 来运行。

　　　　3.4、访问http://localhost:9100/ 即可看到如下界面。

　　　4、集群中节点的分类

　　　　　　4.1、主节点：首先要将节点设置为候选主节点，候选主节点的设置方法是设置node.mater为true，默认情况下，node.mater和node.data的值都为true。在集群启动后各个节点会在候选节点中选举一个主节点。主节点负责创建索引、删除索引、分配分片、追踪集群中的节点状态等工作。

　　　　　　4.2、数据节点：负责数据的存储和相关具体操作，比如CRUD、搜索、聚合。所以，数据节点对机器配置要求比较高，首先需要有足够的磁盘空间来存储数据，其次数据操作对系统CPU、Memory和IO的性能消耗都很大。通常随着集群的扩大，需要增加更多的数据节点来提高可用性。

　　　　　　4.3、客户端节点：负责请求的分发和汇总，本身并不存储数据。请求的转发和汇总这个功能本身主节点和数据节点也能完成这项工作，但是客户端节点是专门来完成请求的分发和汇总，从而更好的实现负载均衡。

　　　　　　4.4、协调节点：这是一个节点的角色，不管是主节点、数据节点还是客户端节点，只要请求是由哪个节点进行分发和汇总，那么该节点就是承担了协调节点的角色。协调节点对处理器和运行内存要求比较高，客户端节点只能作为协调节点。

　　　5、分片

　　　　　　5.1、主分片(Primary Shard)：是elasticsearch的最小存储单元，一个index中的数据通常会存储在多个分片中。默认情况下，elasticsearch会为每个index分为5个分片，可以通过配置文件中index.number_of_shards: 5来对分片数进行设置。分片并不是越多越好，虽然分片查询时并行的，但是请求的分发和结果的合并都需要消耗时间和性能的，所以在数据量比较少的情况下，分片太多反而会降低效率。分片在创建index的时候就已经分配好，并且无法修改。

　　　　　　5.2、复制分片（Replica Shard）：主要是进行数据冗余来提高系统的可靠性。

　　　6、集群的状态：

　　　　Red，表示有主分片没有分配，某些数据不可用。

　　　　Yellow，表示主分片都已分配，数据都可用，但是有复制分片没有分配。

　　　　Green，表示主分片和复制分片都已分配，一切正常。

八、安装和使用中文分词器

　　1、elasticsearch提供了一些内置的分词器，并且默认是使用标准分词器。

　　　　1.1、standard analyzer(标准分词器)：去标点符号和停用词，将句子直接分成单个字，并将大写转为小写。

POST _analyze

{

  "analyzer": "standard",

  "text": "中国人，I am CHinese!"

}

...

{

   "tokens": [

      {

         "token": "中",

         "start_offset": ,

         "end_offset": ,

         "type": "<IDEOGRAPHIC>",

         "position":

      },

      {

         "token": "国",

         "start_offset": ,

         "end_offset": ,

         "type": "<IDEOGRAPHIC>",

         "position":

      },

      {

         "token": "人",

         "start_offset": ,

         "end_offset": ,

         "type": "<IDEOGRAPHIC>",

         "position":

      },

      {

         "token": "i",

         "start_offset": ,

         "end_offset": ,

         "type": "<ALPHANUM>",

         "position":

      },

      {

         "token": "am",

         "start_offset": ,

         "end_offset": ,

         "type": "<ALPHANUM>",

         "position":

      },

      {

         "token": "chinese",

         "start_offset": ,

         "end_offset": ,

         "type": "<ALPHANUM>",

         "position":

      }

   ]

}

　　　　1.2、simple analyzer(简单分词器)：通过空格和标点符号来进行分词，同时忽略标点符号、数字和停用词，将大写转为小写。

POST _analyze

{

  "analyzer": "simple",

  "text": "我是 中国人123，I am CHinese"

}

...

{

   "tokens": [

      {

         "token": "我是",

         "start_offset": ,

         "end_offset": ,

         "type": "word",

         "position":

      },

      {

         "token": "中国人",

         "start_offset": ,

         "end_offset": ,

         "type": "word",

         "position":

      },

      {

         "token": "i",

         "start_offset": ,

         "end_offset": ,

         "type": "word",

         "position":

      },

      {

         "token": "am",

         "start_offset": ,

         "end_offset": ,

         "type": "word",

         "position":

      },

      {

         "token": "chinese",

         "start_offset": ,

         "end_offset": ,

         "type": "word",

         "position":

      }

   ]

}

　　　　1.3、whitespace analyzer（空格分词器）：顾名思义就是根据空格来进行分词。

POST _analyze

{

  "analyzer": "whitespace",

  "text": "我是 中国人123，I am CHinese"

}

...

{

   "tokens": [

      {

         "token": "我是",

         "start_offset": ,

         "end_offset": ,

         "type": "word",

         "position":

      },

      {

         "token": "中国人123，I",

         "start_offset": ,

         "end_offset": ,

         "type": "word",

         "position":

      },

      {

         "token": "am",

         "start_offset": ,

         "end_offset": ,

         "type": "word",

         "position":

      },

      {

         "token": "CHinese",

         "start_offset": ,

         "end_offset": ,

         "type": "word",

         "position":

      }

   ]

}

　　　　1.4、language analyzer（语言分词器）：elasticsearch内置了多种语言分词器，如english、chinese等。但是分词效果并不理想。

　　2、安装中文分词器：

　　　　2.1、下载比较常用的中文分词器elasticsearch-analysis-ik-6.6.0.zip，注意一定要与elasticsearch的版本严格对应，一个小版本的区别都有可能使用不了。

　　　　2.2、将解压后的文件夹放入ES安装目录中的plugins目录下，然后重启ES就算安装成功，注意集群中的每个节点都必须要对分词器进行安装

　　　　2.3、ik分词器有两种分词方式ik_smart 和ik_max_word ，前者是粗粒度拆分，后者是细粒度拆分

POST _analyze

{

  "analyzer": "ik_smart",

  "text": "我是中国人，我爱中国"

}

...

{

   "tokens": [

      {

         "token": "我",

         "start_offset": ,

         "end_offset": ,

         "type": "CN_CHAR",

         "position":

      },

      {

         "token": "是",

         "start_offset": ,

         "end_offset": ,

         "type": "CN_CHAR",

         "position":

      },

      {

         "token": "中国人",

         "start_offset": ,

         "end_offset": ,

         "type": "CN_WORD",

         "position":

      },

      {

         "token": "我",

         "start_offset": ,

         "end_offset": ,

         "type": "CN_CHAR",

         "position":

      },

      {

         "token": "爱",

         "start_offset": ,

         "end_offset": ,

         "type": "CN_CHAR",

         "position":

      },

      {

         "token": "中国",

         "start_offset": ,

         "end_offset": ,

         "type": "CN_WORD",

         "position":

      }

   ]

}

细粒度拆分：

POST _analyze

{

  "analyzer": "ik_max_word",

  "text": "我是中国人，我爱中国"

}

...

{

   "tokens": [

      {

         "token": "我",

         "start_offset": ,

         "end_offset": ,

         "type": "CN_CHAR",

         "position":

      },

      {

         "token": "是",

         "start_offset": ,

         "end_offset": ,

         "type": "CN_CHAR",

         "position":

      },

      {

         "token": "中国人",

         "start_offset": ,

         "end_offset": ,

         "type": "CN_WORD",

         "position":

      },

      {

         "token": "中国",

         "start_offset": ,

         "end_offset": ,

         "type": "CN_WORD",

         "position":

      },

      {

         "token": "国人",

         "start_offset": ,

         "end_offset": ,

         "type": "CN_WORD",

         "position":

      },

      {

         "token": "我",

         "start_offset": ,

         "end_offset": ,

         "type": "CN_CHAR",

         "position":

      },

      {

         "token": "爱",

         "start_offset": ,

         "end_offset": ,

         "type": "CN_CHAR",

         "position":

      },

      {

         "token": "中国",

         "start_offset": ,

         "end_offset": ,

         "type": "CN_WORD",

         "position":

      }

   ]

}

elasticsearch 介绍的更多相关文章

1.ElasticSearch介绍及基本概念
一.ElasticSearch介绍一个采用RESTful API标准的高扩展性的和高可用性的实时性分析的全文搜索工具基于Lucene[开源的搜索引擎框架]构建 ElasticSearch是一个面向 ...
elasticsearch介绍，安装，安装错误解决及相应插件安装
一.elasticsearch介绍 1.简介(使用的是nosql,更新比mongodb慢): ElasticSearch是一个基于Lucene的搜索服务器.它提供了一个分布式多用户能力的全文搜索引擎, ...
【SpringBoot】搜索框架ElasticSearch介绍和整合SpringBoot
========================12章搜索框架ElasticSearch介绍和整合SpringBoot ============================= 加入小D课堂技术交 ...
Elasticsearch介绍及安装部署
本节内容: Elasticsearch介绍 Elasticsearch集群安装部署 Elasticsearch优化安装插件:中文分词器ik 一.Elasticsearch介绍 Elasticsear ...
批量搞机（二）：分布式ELK平台、Elasticsearch介绍、Elasticsearch集群安装、ES 插件的安装与使用
一.分布式ELK平台 ELK的介绍: ELK 是什么? Sina.饿了么.携程.华为.美团.freewheel.畅捷通 .新浪微博.大讲台.魅族.IBM...... 这些公司都在使用 ELK!ELK! ...
Elasticsearch介绍和安装与使用
转载:https://blog.csdn.net/weixin_42633131/article/details/82902812 1.Elasticsearch介绍和安装 1.1.简介1.1.1.E ...
Elasticsearch介绍和安装
Elasticsearch介绍和安装软件包: 链接:https://pan.baidu.com/s/1O_C0JQGfF8sC_OtcCCLNoQ 提取码:3iai 1.1.简介 1.1.1.Ela ...
12章搜索框架ElasticSearch介绍和整合SpringBoot 4节课
1.搜索引擎知识和搜索框架elasticsearch基本介绍简介:通过京东电商介绍什么是搜索引擎,和开源搜索框架ElasticSearch6.x新特性介绍前言:介绍ES的主要特点和使用场 ...
Elasticsearch 介绍及应用
Elasticsearch简单介绍 Elasticsearch (ES)是一个基于Lucene构建的开源.分布式.RESTful 接口全文搜索引擎.Elasticsearch 还是一个分布式文档数据库 ...
ElasticSearch介绍和基本用法(一)
ElasticSearch 引言 1.在海量数据中执行搜索功能时,如果使用MySQL, 效率太低. 2.如果关键字输入的不准确,一样可以搜索到想要的数据. 3.将搜索关键字,以红色的字体展示. 介绍: ...

随机推荐

从零学习Fluter(六):Flutter仿boss直聘v1.0重构
今天继续学习flutter,觉得这个优秀的东西,许多方面还需要完善,作为一个后来者,要多向别人学习.俗话说,“学无先后,达者为师”.今天呢,我又重新把flutter_boss这个项目代码从头到脚看了 ...
Vue.js05：vue内联样式
对象就是无序键值对的集合 <!DOCTYPE html> <html lang="en"> <head> <meta charset=&q ...
使用bootstrap的dropdown部件时报错：error：Bootstrap dropdown require Popper.js
前言:前端小白一枚,刚注册博客,先发个学习过程中新碰到小问题试试水吧~ 摘要:最近在学习bootstrap,偶然碰到了一个小问题,bootstrap网站也没有做过多的解释,今天分享给大家. 问题描述: ...
docker 发布方式尝试
docker 发布方式尝试目前有个小项目, 尝试用docker的方式来发布, 项目只有一个节点, 使用 kubenate 有点小题大做, 所以采用docker-compose来发布. 发布过程 GI ...
Python开发文件操作
阅读目录 1.读写文件 open()将会返回一个file对象,基本语法: open(filename,mode) filename:是一个包含了访问的文件名称的路径字符串 mode:决定了打开文件的模 ...
正则表达式，提取html标签的属性值
/** * 提取HTML标签的属性值 * @param source HTML标签内容 * "<a title=中国体育报 href=''>aaa</a><a ...
android等待对话框
等待对话框,这里有两种方式来实现: ProgressDialog方式 progressDialog初始化 private void initProgressDialog() { progressDia ...
upstream timed out (110: Connection timed out) while reading response header from upstream, client:
遇到的问题之前没配置下面这段,访问时候偶尔会出现 504 gateway timeout,由于偶尔出现,所以不太好排查 proxy_connect_timeout 300s;proxy_read_t ...
vue nextTick使用
Vue nextTick使用 vue生命周期原因是在created()钩子函数执行的时候DOM 其实并未进行任何渲染,而此时进行DOM操作无异于徒劳,所以此处一定要将DOM操作的js代码放进Vue. ...
IP防护等级简介
IP(INGRESS PROTECTION)防护等级系统是由IEC(INTERNATIONAL ELECTROTECHNICAL COMMISSION)所起草,将电器依其防尘防湿气之特性加以分级 IP ...

elasticsearch 介绍

elasticsearch 介绍的更多相关文章

随机推荐

热门专题