es分词器

1、默认的分词器

standard

standard tokenizer：以单词边界进行切分
standard token filter：什么都不做
lowercase token filter：将所有字母转换为小写
stop token filer（默认被禁用）：移除停用词，比如a the it等等

2、修改分词器的设置

启用english停用词token filter

PUT /my_index
{
　　"settings": {
　　　　"analysis": {
　　　　　　"analyzer": {
　　　　　　　　"es_std": {
　　　　　　　　　　"type": "standard",
　　　　　　　　　　"stopwords": "_english_"
　　　　　　　　}
　　　　　　}
　　　　}
　　}
}

GET /my_index/_analyze
{
　　"analyzer": "standard",
　　"text": "a dog is in the house"
}

GET /my_index/_analyze
{
　　"analyzer": "es_std",
　　"text":"a dog is in the house"
}

3、定制化自己的分词器

PUT /my_index
{
　　"settings": {
　　　　"analysis": {
　　　　　　"char_filter": {
　　　　　　　　"&_to_and": {
　　　　　　　　　　"type": "mapping",
　　　　　　　　　　"mappings": ["&=> and"]
　　　　　　　　}
　　　　　　},
　　　　　　"filter": {
　　　　　　　　"my_stopwords": {
　　　　　　　　　　　　"type": "stop",
　　　　　　　　　　　　"stopwords": ["the", "a"]
　　　　　　　　}
　　　　　　},
　　　　　　"analyzer": {
　　　　　　　　"my_analyzer": {
　　　　　　　　　　"type": "custom",
　　　　　　　　　　"char_filter": ["html_strip", "&_to_and"],
　　　　　　　　　　"tokenizer": "standard",
　　　　　　　　　　"filter": ["lowercase", "my_stopwords"]
　　　　　　　　}
　　　　　　}
　　　　}
　　}
}

GET /my_index/_analyze
{
　　"text": "tom&jerry are a friend in the house, <a>, HAHA!!",
　　"analyzer": "my_analyzer"
}

PUT /my_index/_mapping/my_type
{
　　"properties": {
　　　　"content": {
　　　　　　"type": "text",
　　　　　　"analyzer": "my_analyzer"
　　　　}
　　}
}

es分词器的更多相关文章

es 分词器介绍
按照单词切分,不做处理 GET _analyze { "analyzer": "standard", "text": "2 run ...
ElasticSearch 分词器，了解一下
这篇文章主要来介绍下什么是 Analysis ,什么是分词器,以及 ElasticSearch 自带的分词器是怎么工作的,最后会介绍下中文分词是怎么做的. 首先来说下什么是 Analysis: 什么是 ...
Elasticsearch简介、倒排索引、文档基本操作、分词器
lucene.Solr.Elasticsearch 1.倒排序索引 2.Lucene是类库 3.solr基于lucene 4.ES基于lucene 一.Elasticsearch 核心术语特点: 1 ...
ES 09 - 定制Elasticsearch的分词器 (自定义分词策略)
目录 1 索引的分析 1.1 分析器的组成 1.2 倒排索引的核心原理-normalization 2 ES的默认分词器 3 修改分词器 4 定制分词器 4.1 向索引中添加自定义的分词器 4.2 测 ...
ES系列一、CentOS7安装ES 6.3.1、集成IK分词器
Elasticsearch 6.3.1 地址: wget https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-6.3. ...
安装ik分词器以及版本和ES版本的兼容性
一.查看自己ES的版本号与之对应的IK分词器版本 https://github.com/medcl/elasticsearch-analysis-ik/blob/master/README.md 二. ...
es的分词器analyzer
analyzer 分词器使用的两个情形: 1,Index time analysis. 创建或者更新文档时,会对文档进行分词2,Search time analysis. 查询时,对查询语句 ...
es 修改拼音分词器源码实现汉字/拼音/简拼混合搜索时同音字不匹配
[版权声明]:本文章由danvid发布于http://danvid.cnblogs.com/,如需转载或部分使用请注明出处在业务中经常会用到拼音匹配查询,大家都会用到拼音分词器,但是拼音分词器匹配的 ...
es 5.0 拼音分词器 mac
安装方法和ik中文分词器一样, 先下载: https://github.com/medcl/elasticsearch-analysis-pinyin 执行: mvn package; 打包成功以后, ...

随机推荐

Ubuntu安装redis缓存数据库
参考:http://blog.csdn.net/xiangwanpeng/article/details/54586087 1.在下载目录下 sudo wget http://download.red ...
Android APK代码混淆与资源混淆详解,你确定不看?
APK的混淆分为资源混淆与代码混淆.一般大部分都使用两者结合.尤其是目前主流的应用. 其中的优点: 防止被恶意破解逆向分析减少apk体积,也是瘦身的方法代码可阅读性降低其中的缺点: 调试不方便( ...
cookie是如何保存到客户端，又是如何发送到服务端
Cookie相关的Http头有两个Http头部和Cookie有关:Set-Cookie和Cookie. Set-Cookie由服务器发送,它包含在响应请求的头部中.它用于在客户端创 ...
[Python] 00 - Books
A.I. & Optimization Advanced Machine Learning, Data Mining, and Online Advertising Services Ref: ...
采用镜像的方法安装python第三方库
转自:https://blog.csdn.net/s740556472/article/details/68557330 pip install --index https://pypi.mirror ...
Linux内核 GPIO操作部分API
内核中关于GPIO的操作API主要集中在<linux/of_gpio.h>和<linux/gpio.h>中,前者主要是GPIO直接与设备树相关的操作,在Linux 设备树操作A ...
如何用Baas快速在腾讯云上开发小程序-系列4：实现客户侧商品列表、商品详情页程序
版权声明:本文由贺嘉原创文章,转载请注明出处: 文章原文链接:https://www.qcloud.com/community/article/431172001487671163 来源:腾云阁 h ...
nuxt项目中vue报错The client-side rendered virtual ...
报错: 翻译过来是: [Vue警告]:客户端呈现的虚拟DOM树与服务器呈现的内容不匹配.这可能是由不正确的HTML标记引起的,例如在其中嵌套块级元素或丢失.Bailing水化和执行完整的客户端渲染. ...
python列表操作方法
系统的列表操作方法不加赘述,这里增添一些列表操作技巧: 1.利用sum函数把多元列表变成一元: >>> texts_filtered_stopwords [['writing', ' ...
CentOS 7.4下使用yum安装MySQL5.7.20 最简单的 (引用)
引用 https://blog.csdn.net/z13615480737/article/details/78906598 CentOS7默认数据库是mariadb, 但是好多用的都是mysql ...

es分词器

es分词器的更多相关文章

随机推荐

热门专题