全文搜索引擎Elasticsearch入门实践

感谢阮一峰的网络日志全文搜索引擎 Elasticsearch 入门教程

  1. 安装
    首先需要依赖Java环境。Elasticsearch官网https://www.elastic.co/downloads/elasticsearch

    直接下载压缩包。
    $ wget https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-5.5.1.zip $ unzip elasticsearch-5.5.1.zip $ cd elasticsearch-5.5.1/
    接着,进入解压后的目录,运行下面的命令,启动 Elasticsearch。
    $ ./bin/elasticsearch
    看到控制台如下信息启动成功。
    [2017-08-30T19:37:02,505][INFO ][o.e.h.n.Netty4HttpServerTransport] [3GsuzVd] publish_address {127.0.0.1:9200}, bound_addresses {[fe80::1]:9200}, {[::1]:9200}, {127.0.0.1:9200}
    获取当前Elasticsearch版本信息。
    ➜ elasticsearch-5.5.1 curl localhost:9200 { "name" : "3GsuzVd", "cluster_name" : "elasticsearch", "cluster_uuid" : "qchzr2YSQtCUxLwVmGtYcA", "version" : { "number" : "5.5.1", "build_hash" : "19c13d0", "build_date" : "2017-07-18T20:44:24.823Z", "build_snapshot" : false, "lucene_version" : "6.6.0" }, "tagline" : "You Know, for Search" }

  2. 基本概念
    Elastic 本质上是一个分布式数据库,允许多台服务器协同工作,每台服务器可以运行多个 Elasticsearch 实例。
    单个 Elastic 实例称为一个节点(node)。一组节点构成一个集群(cluster)。
    Elastic 数据管理的顶层单位就叫做 Index(索引),它是单个数据库的同义词,每个 Index (即数据库)的名字必须是小写。
    Type(类型),它是数据库表的同义词。Document(文档),它是数据库行的同义词,使用 JSON 格式表示。

    下面的命令可以查看当前节点的所有 Index。
    $ curl -X GET 'http://localhost:9200/_cat/indices?v'
    下面的命令可以列出每个 Index 所包含的 Type。
    $ curl 'localhost:9200/_mapping?pretty=true'

  3. 新建和删除 Index
    新建 Index,可以直接向 Elastic 服务器发出 PUT 请求。下面的例子是新建一个名叫weather的 Index。
    ➜ elasticsearch-5.5.1 curl -X PUT 'localhost:9200/weather' {"acknowledged":true,"shards_acknowledged":true}%
    然后,我们发出 DELETE 请求,删除这个 Index。
    $ curl -X DELETE 'localhost:9200/weather'
  4. 中文分词设置
    首先,安装中文分词插件,这里使用的是 ik。
    $ ./bin/elasticsearch-plugin install https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v5.5.1/elasticsearch-analysis-ik-5.5.1.zip
    上面代码安装的是5.5.1版的插件,与 Elastic 5.5.1 配合使用,版本不匹配会报错。
    安装完成,重新启动 Elasticsearch,就会自动加载这个新安装的插件。
    然后,新建一个 Index,指定需要分词的字段。这一步根据数据结构而异,下面的命令只针对本文。基本上,凡是需要搜索的中文字段,都要单独设置一下。
    $ curl -X PUT 'localhost:9200/accounts' -d ' { "mappings": { "person": { "properties": { "user": { "type": "text", "analyzer": "ik_max_word", "search_analyzer": "ik_max_word" }, "title": { "type": "text", "analyzer": "ik_max_word", "search_analyzer": "ik_max_word" }, "desc": { "type": "text", "analyzer": "ik_max_word", "search_analyzer": "ik_max_word" } } } } }'
    上面代码中,analyzer是字段文本的分词器,search_analyzer是搜索词的分词器。ik_max_word分词器是插件ik提供的,可以对文本进行最大数量的分词。
  5. 数据操作
    5.1. 新增
    向指定的 /Index/Type 发送 PUT 请求,就可以在 Index 里面新增一条记录。比如,向/accounts/person发送请求,就可以新增一条人员记录。
    $ curl -X PUT 'localhost:9200/accounts/person/1' -d ' { "user": "张三", "title": "工程师", "desc": "数据库管理" }'
    新增记录的时候,也可以不指定 Id,这时要改成 POST 请求。
    $ curl -X POST 'localhost:9200/accounts/person' -d ' { "user": "李四", "title": "工程师", "desc": "系统管理" }'
    5.2. 查询
    向/Index/Type/Id发出 GET 请求,就可以查看这条记录。
    ➜ elasticsearch-5.5.1 curl 'localhost:9200/accounts/person/1?pretty=true' { "_index" : "accounts", "_type" : "person", "_id" : "1", "_version" : 4, "found" : true, "_source" : { "user" : "张三", "title" : "工程师", "desc" : "数据库管理,软件开发" } }
    5.3. 修改
    更新记录就是使用 PUT 请求,重新发送一次数据。
    ➜ elasticsearch-5.5.1 curl -X PUT 'localhost:9200/accounts/person/1' -d ' { "user" : "张三", "title" : "工程师", "desc" : "数据库管理" }' {"_index":"accounts","_type":"person","_id":"1","_version":5,"result":"updated","_shards":{"total":2,"successful":1,"failed":0},"created":false}%
    可以看到,记录的 Id 没变,但是版本(version)从4变成5,操作类型(result)从created变成updated,created字段变成false,因为这次不是新建记录。
    5.4. 删除
    删除记录就是发出 DELETE 请求。
    $ curl -X DELETE 'localhost:9200/accounts/person/1'
  6. 数据查询
    使用 GET 方法,直接请求/Index/Type/_search,就会返回所有记录。
    $ curl 'localhost:9200/accounts/person/_search'
    6.1. 全文搜索
    $ curl 'localhost:9200/accounts/person/_search' -d ' { "query" : { "match" : { "desc" : "软件" }} }'
    Elastic 默认一次返回10条结果,可以通过size字段改变这个设置,from代表起始点,从0开始。
    $ curl 'localhost:9200/accounts/person/_search' -d '
    {
    "query" : { "match" : { "desc" : "管理" }},
    "from": 1,
    "size": 1
    }'
    详情参考上面的引用。

全文搜索引擎Elasticsearch入门实践的更多相关文章

  1. 全文搜索引擎 Elasticsearch 入门

    1. 百科 ElasticSearch是一个基于Lucene的搜索服务器.它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口.Elasticsearch是用Java开发的,并作 ...

  2. 全文搜索引擎 Elasticsearch 入门:集群搭建

    本文主要介绍什么是 ElasticSearch 以及为什么需要它,如何在本机安装部署 ElasticSearch 实例,同时会演示安装 ElasticSearch 插件,以及如何在本地部署多实例集群, ...

  3. 全文搜索引擎 Elasticsearch 入门教程

    全文搜索属于最常见的需求,开源的 Elasticsearch (以下简称 Elastic)是目前全文搜索引擎的首选. 它可以快速地储存.搜索和分析海量数据.维基百科.Stack Overflow.Gi ...

  4. Spring Boot 全文搜索引擎 ElasticSearch

    参考 全文搜索引擎ElasticSearch 还是Solr? - JaJian - 博客园

  5. 3.高并发教程-基础篇-之分布式全文搜索引擎elasticsearch的搭建

    高并发教程-基础篇-之分布式全文搜索引擎elasticsearch的搭建 如果大家看了我的上一篇<2.高并发教程-基础篇-之nginx+mysql实现负载均衡和读写分离>文章,如果能很好的 ...

  6. 全文搜索引擎 Elasticsearch 安装

    全文搜索引擎 Elasticsearch 安装 学习了:http://www.ruanyifeng.com/blog/2017/08/elasticsearch.html 拼音:https://www ...

  7. 搜索引擎ElasticSearch入门

    前言 最近项目上需要用到搜索引擎,由于之前自己没有了解过,所以整理了一下搜索引擎的相关概念知识. 正文 想查数据就免不了搜索,搜索就离不开搜索引擎,百度.谷歌都是一个非常庞大复杂的搜索引擎,他们几乎索 ...

  8. 全文搜索引擎 ElasticSearch 还是 Solr?

    最近项目组安排了一个任务,项目中用到了全文搜索,基于全文搜索 Solr,但是该 Solr 搜索云项目不稳定,经常查询不出来数据,需要手动全量同步,而且是其他团队在维护,依赖性太强,导致 Solr 服务 ...

  9. 分布式全文搜索引擎ElasticSearch

    一 什么是 ElasticSearch Elasticsearch 是一个分布式可扩展的实时搜索和分析引擎,一个建立在全文搜索引擎 Apache Lucene(TM) 基础上的搜索引擎.当然 Elas ...

随机推荐

  1. python常用函数用法整理

    1,zeros函数(同理的还有ones函数) http://www.jb51.net/article/127649.htm 注意: (m,n)是生成m行n列的矩阵,但要生成二维矩阵的时候要用两层括号, ...

  2. windows下使用hbase/opencv/ffmpeg小记

    1.hadoop安装 不同于Ubuntu,win 10下使用hbase需安装hadoop环境,这里有几个坑,首先14年以后,hadoop已不再发布window版本,这里可往官网 http://hado ...

  3. MT【315】勾股数

    (高考压轴题)证明以下命题:(1)对任意正整数$a$都存在正整数$b,c(b<c)$,使得$a^2,b^2,c^2$成等差数列.(2)存在无穷多个互不相似的三角形$\Delta_n$,其边长$a ...

  4. 使用js获取页面参数

    方法一 function GetUrlParam (name) { return decodeURIComponent((new RegExp('[?|&]' + name + '=' + ' ...

  5. 「LibreOJ NOI Round #1」验题

    麻烦的动态DP写了2天 简化题意:给树,求比给定独立集字典序大k的独立集是哪一个 主要思路: k排名都是类似二分的按位确定过程. 字典序比较本质是LCP下一位,故枚举LCP,看多出来了多少个独立集,然 ...

  6. SignarL服务器端发送消息给客户端的几种情况

    一.所有连接的客户端 Clients.All.addContosoChatMessageToPage(name, message); 二.只发送给呼叫的客户端(即触发者) Clients.Caller ...

  7. MYSQL 企业常用架构与调优经验分享

    一.选择Percona Server.MariaDB还是MYSQL  mysql应用源码:http://www.jinhusns.com/Products/Download/?type=xcj 1.M ...

  8. Jumbo frame与MTU

    最近有测试问我Jumbo和MTU分别限制的是什么把我问住了,网上查了一些资料,发现大部分是百科上copy下来的,都没有说到点子上,关键时刻还是同事靠谱,现在根据自己的理解整理一下.   首先了解一下二 ...

  9. 第二十三节: EF性能篇(三)之基于开源组件 Z.EntityFrameWork.Plus.EF6解决EF性能问题

    一. 开篇说明 EF的性能问题一直以来经常被人所吐槽,究其原因在于“复杂的操作在生成SQL阶段耗时长,且执行效率不高”,但并不是没有办法解决,从EF本身举几个简单的优化例子: ①:如果仅是查询数据,并 ...

  10. django分页器

    网站页面的分页效果可以通过分页器实现 分页器的使用 urls.py from django.contrib import admin from django.urls import path from ...