ElasticSearch 中文分词搜索环境搭建

ElasticSearch 是强大的搜索工具，并且是ELK套件的重要组成部分

好记性不如乱笔头，这次是在windows环境下搭建es中文分词搜索测试环境，步骤如下

1、安装jdk1.8，配置好环境变量

2、下载ElasticSearch7.1.1，版本变化比较快，刚才看了下最新版已经是7.2.0，本环境基于7.1.1搭建，下载地址https://www.elastic.co/cn/downloads/elasticsearch，得到一个zip压缩包，解压缩后cmd下运行下面的命令即可启动ES

./bin/elasticsearch.bat

正常启动的话提示符下回输出一些日志记录

浏览器中输入http://localhost:9200/测试服务是否能够正常访问，正常情况会显示下面的概要信息，说明ES搭建成功

3、ElasticSearch 虽然提供了强大Restful接口，但没有一个UI界面操作起来不是很直观，elasticsearch-head很好的解决这个问题，elasticsearch-head是基于node的一个工具，通过连接ES服务提供可视化展示界面，详细参考：

https://github.com/mobz/elasticsearch-head，安装步骤也是很简单，如下

git clone git://github.com/mobz/elasticsearch-head.git

cd elasticsearch-head

npm install

npm run start

服务正常启动后显示界面如下

浏览器中输入http://localhost:9100/可以看到对应UI

4、中文分词插件详细介绍见https://github.com/medcl/elasticsearch-analysis-ik，注意版本不要选错，否则会按照失败，es7.1.1选择对应版本，安装步骤如下：

./bin/elasticsearch-plugin install https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v7.1.1/elasticsearch-analysis-ik-7.1.1.zip

5、测试中文分词检索功能，先建立索引，在postman或者elasticsearch-head中发送如下请求

--创建索引

curl -XPUT http://localhost:9200/news 

--索引中添加数据

curl -XPOST http://localhost:9200/news/_create/1 -H 'Content-Type:application/json' -d'

{"content":"美国留给伊拉克的是个烂摊子吗"}

'

添加的数据如下

添加索引映射

curl -XPOST http://localhost:9200/news/_mapping -H 'Content-Type:application/json' -d'

{

        "properties": {

            "content": {

                "type": "text",

                "analyzer": "ik_max_word",

                "search_analyzer": "ik_smart"

            }

        }

}'

ik_max_word ik_smart两者的区别

ik_max_word: 会将文本做最细粒度的拆分，比如会将“中华人民共和国国歌”拆分为“中华人民共和国,中华人民,中华,华人,人民共和国,人民,人,民,共和国,共和,和,国国,国歌”，会穷尽各种可能的组合，适合 Term Query；

ik_smart: 会做最粗粒度的拆分，比如会将“中华人民共和国国歌”拆分为“中华人民共和国,国歌”，适合 Phrase 查询。

测试示例：

http://localhost:9200/_analyze，通过ik_max_word分词，结果如下

输入

{"text":"中华人民共和国人民大会堂","analyzer":"ik_max_word" }

输出

{

    "tokens": [

        {

            "token": "中华人民共和国",

            "start_offset": 0,

            "end_offset": 7,

            "type": "CN_WORD",

            "position": 0

        },

        {

            "token": "中华人民",

            "start_offset": 0,

            "end_offset": 4,

            "type": "CN_WORD",

            "position": 1

        },

        {

            "token": "中华",

            "start_offset": 0,

            "end_offset": 2,

            "type": "CN_WORD",

            "position": 2

        },

        {

            "token": "华人",

            "start_offset": 1,

            "end_offset": 3,

            "type": "CN_WORD",

            "position": 3

        },

        {

            "token": "人民共和国",

            "start_offset": 2,

            "end_offset": 7,

            "type": "CN_WORD",

            "position": 4

        },

        {

            "token": "人民",

            "start_offset": 2,

            "end_offset": 4,

            "type": "CN_WORD",

            "position": 5

        },

        {

            "token": "共和国",

            "start_offset": 4,

            "end_offset": 7,

            "type": "CN_WORD",

            "position": 6

        },

        {

            "token": "共和",

            "start_offset": 4,

            "end_offset": 6,

            "type": "CN_WORD",

            "position": 7

        },

        {

            "token": "国人",

            "start_offset": 6,

            "end_offset": 8,

            "type": "CN_WORD",

            "position": 8

        },

        {

            "token": "人民大会堂",

            "start_offset": 7,

            "end_offset": 12,

            "type": "CN_WORD",

            "position": 9

        },

        {

            "token": "人民大会",

            "start_offset": 7,

            "end_offset": 11,

            "type": "CN_WORD",

            "position": 10

        },

        {

            "token": "人民",

            "start_offset": 7,

            "end_offset": 9,

            "type": "CN_WORD",

            "position": 11

        },

        {

            "token": "大会堂",

            "start_offset": 9,

            "end_offset": 12,

            "type": "CN_WORD",

            "position": 12

        },

        {

            "token": "大会",

            "start_offset": 9,

            "end_offset": 11,

            "type": "CN_WORD",

            "position": 13

        },

        {

            "token": "会堂",

            "start_offset": 10,

            "end_offset": 12,

            "type": "CN_WORD",

            "position": 14

        }

    ]

}

如果输入

{"text":"中华人民共和国人民大会堂","analyzer":"ik_smart" }

输出

{

    "tokens": [

        {

            "token": "中华人民共和国",

            "start_offset": 0,

            "end_offset": 7,

            "type": "CN_WORD",

            "position": 0

        },

        {

            "token": "人民大会堂",

            "start_offset": 7,

            "end_offset": 12,

            "type": "CN_WORD",

            "position": 1

        }

    ]

}

根据分词检索输入语法，请求url：http://localhost:9200/news/_search

输入：

{

    "query" : { "match" : { "content" : "中华人民共和国国歌" }},

    "highlight" : {

        "pre_tags" : ["<tag1>", "<tag2>"],

        "post_tags" : ["</tag1>", "</tag2>"],

        "fields" : {

            "content" : {}

        }

    }

}

输出：

{

    "took": 11,

    "timed_out": false,

    "_shards": {

        "total": 5,

        "successful": 5,

        "skipped": 0,

        "failed": 0

    },

    "hits": {

        "total": {

            "value": 2,

            "relation": "eq"

        },

        "max_score": 1.6810182,

        "hits": [

            {

                "_index": "news",

                "_type": "_doc",

                "_id": "6",

                "_score": 1.6810182,

                "_source": {

                    "content": "中华民族国歌"

                },

                "highlight": {

                    "content": [

                        "<tag1>中华</tag1>民族<tag1>国歌</tag1>"

                    ]

                }

            },

            {

                "_index": "news",

                "_type": "_doc",

                "_id": "5",

                "_score": 0.9426802,

                "_source": {

                    "content": "人民公社"

                },

                "highlight": {

                    "content": [

                        "<tag1>人民</tag1>公社"

                    ]

                }

            }

        ]

    }

}

运行效果如下

ElasticSearch 中文分词搜索环境搭建的更多相关文章

分布式搜索ElasticSearch单机与服务器环境搭建
从上方插件官网中下载适合的dist包,然后解压.进入bin目录,可以看到一堆sh脚本.在bin目录下创建一个test.sh: bin=/home/csonezp/Dev/elasticsearch-j ...
Elasticsearch简单使用和环境搭建
Elasticsearch简单使用和环境搭建 1 Elasticsearch简介 Elasticsearch是一个可用于构建搜索应用的成品软件,它最早由Shay Bannon创建并于2010年2月发布 ...
Sphinx + Coreseek 实现中文分词搜索
Sphinx + Coreseek 实现中文分词搜索 Sphinx Coreseek 实现中文分词搜索全文检索 1 全文检索 vs 数据库 2 中文检索 vs 汉化检索 3 自建全文搜索与使用Goo ...
elasticsearch 中文分词（elasticsearch-analysis-ik）安装
elasticsearch 中文分词(elasticsearch-analysis-ik)安装下载最新的发布版本 https://github.com/medcl/elasticsearch-ana ...
Elasticsearch 中文分词(elasticsearch-analysis-ik) 安装
由于elasticsearch基于lucene,所以天然地就多了许多lucene上的中文分词的支持,比如 IK, Paoding, MMSEG4J等lucene中文分词原理上都能在elasticsea ...
Elasticsearch中文搜索环境搭建
Elasticsearch是一个建立在全文搜索引擎 Apache Lucene™ 基础上的搜索引擎,功能强大,最近刚好要研究搜索这一块,简要记录备日后查阅安装Java JDK,由于Lucene是用J ...
elasticsearch中文分词+全文搜索demo
本文假设你已经搭建好elasticsearch服务器,并在上面装了kibana和IK中文分词组件 elasticsearch+kibana+ik的安装,之前的文章有介绍,可参考. mapping介绍: ...
Elasticsearch快速入门和环境搭建
内容概述什么是Elasticsearch,为什么要使用它? 基础概念简介节点(node) 索引(index) 类型映射(mapping) 文档(doc) 本地环境搭建,创建第一个index 常用R ...
ElasticSearch中文分词（IK）
ElasticSearch常用的很受欢迎的是IK,这里稍微介绍下安装过程及测试过程. 1.ElasticSearch官方分词自带的中文分词器很弱,可以体检下: [zsz@VS-zsz ~]$ c ...

随机推荐

让istio中的jaeger跑起来
现在的水平,仅止于让它跑起来.:) 同样的环境,microk8s+istio. 步骤如下: 一,使用kubectl get pod -n istio-system查看所有istio的POD运行正常. ...
redis常用操作（测试必备）
连接redis redis的安装及基础配置,参考:https://www.cnblogs.com/UncleYong/p/9882843.html redis中,数据是key-value方式存储,ke ...
mybatis框架-resultMap的自动映射级别-partial 和full的探讨
现在我们做一个小实验,输出一下上一个案例中没有匹配的属性,注意哦,现在user类中是有内部嵌套的复杂数据类型的运行结果: 注意到:现在居然连userPassword都打印不出来了,原因就是user类 ...
【myBatis】Error evaluating expression ‘’. Return value () was not iterable.
被遍历的foreach不是数组或者集合
three.js 居中-模型
api: 代码: <!DOCTYPE html> <html lang="en"> <head> <title>three.js w ...
请简要描述margin重复问题，及解决方式
两个相邻的盒子垂直方向上的margin会发生重叠,取较大的那个值,而不是相加. 解决: 父级设置padding代替margin 父级设置overflow:hidden 当前元素设置透明的边框使用绝对 ...
selenium--页面元素相关的操作
获取元素的标签和元素大小 from selenium import webdriver import unittest class Test_BasicInfo(unittest.TestCase): ...
使用golang写一个redis-cli
使用golang写一个redis-cli 0. redis通信协议 redis的客户端(redis-cli)和服务端(redis-server)的通信是建立在tcp连接之上, 两者之间数据传输的编码解 ...
loj2245 [NOI2014]魔法森林 LCT
[NOI2014]魔法森林链接 loj 思路 a排序,b做动态最小生成树. 把边拆成点就可以了. uoj98.也许lct复杂度写假了..越卡常,越慢代码 #include <bits/std ...
vue+Element 表格编辑
先上效果 <template> <div> <el-table :data="tableData" style="width: 100%&q ...

ElasticSearch 中文分词搜索环境搭建

ElasticSearch 中文分词搜索环境搭建的更多相关文章

随机推荐

热门专题