首页
Python
Java
IOS
Andorid
NodeJS
JavaScript
HTML5
ElasticSearch ik近义词
2024-11-08
使用 Elasticsearch ik分词实现同义词搜索(转)
1.首先需要安装好Elasticsearch 和elasticsearch-analysis-ik分词器 2.配置ik同义词 Elasticsearch 自带一个名为 synonym 的同义词 filter.为了能让 IK 和 synonym 同时工作,我们需要定义新的 analyzer,用 IK 做 tokenizer,synonym 做 filter.听上去很复杂,实际上要做的只是加一段配置. 打开 /config/elasticsearch.yml 文件,加入以下配置: index: an
安装elasticsearch及中文IK和近义词配置
安装elasticsearch及中文IK和近义词配置 安装java环境 java环境是elasticsearch安装必须的 yum install java-1.8.0-openjdk 安装elasticsearch 其实es的安装非常简单了 https://www.elastic.co/downloads/elasticsearch cd /tmp wget https://download.elastic.co/elasticsearch/elasticsearch/elasticsearc
安装elasticsearch-1.7.1及中文IK和近义词配置
安装elasticsearch及中文IK和近义词配置 https://www.cnblogs.com/yjf512/p/4789239.html 安装elasticsearch及中文IK和近义词配置 安装java环境 java环境是elasticsearch安装必须的 yum install java-1.8.0-openjdk 安装elasticsearch 其实es的安装非常简单了 https://www.elastic.co/downloads/elasticsearch cd /tmp
python 近义词库包 synonyms 的使用
最近接触到nlp的一些东西,需要找出中文词语的近义词,也接触到了一个synonyms 的库, 分词,去停用词,word2vector 等 一些列nlp 的操作,还可以输出中文词语的近义词 https://github.com/huyingxi/Synonyms/ 以上链接为synonyms库包的介绍
基于WordNet的英文同义词、近义词相似度评估及代码实现
源码地址:https://github.com/XBWer/WordSimilarity 1.确定要解决的问题及意义 在基于代码片段的分类过程中,由于程序员对数据变量名的选取可能具有一定的规范性,在某一特定业务处理逻辑代码中,可能多个变量名之间具有关联性或相似性(如“trade”(商品交易)类中,可能存在“business”,“transaction”,“deal”等同义词),在某些情况下,它们以不同的词语表达了相同的含义.因此,为了能够对代码片段做出更加科学的类别判断,更好地识别这些同义词,我
【中文同义词近义词】词向量 vs 同义词近义词库
方案一:利用预训练好的词向量模型 优点: (1)能把词进行语义上的向量化(2)能得到词与词的相似度 缺点: (1)词向量的效果和语料库的大小和质量有较大的关系(2)用most_similar() 得到往往不是“同义词”,而是“共现词” from gensim.models.keyedvectors import KeyedVectors wv = KeyedVectors.load_word2vec_format('model/w2v_chisim_300d.bin', binary=True)
【HICP Gauss】数据库 数据库管理(存储过程 函数 对象 近义词 触发器 事务类型)-9
存储过程存储过程在大新数据库系统中,一组为了完成特定功能的SQL语句集 存储在SQL数据库中 优势: SQL进行封装 调用方便 存储过程会进行编译 提升用户执行SQL语句集的速度 系统管理员 通过执行某一存储过程的权限进行限制 ,能实现对相应数据的访问权限的限制 保障数据安全 # 创建存储过程 create or replace procedure if not exists schema.procedure_name IS|AS begin ,"
Elasticsearch实现搜索推荐词
本篇介绍的是基于Elasticsearch实现搜索推荐词,其中需要用到Elasticsearch的pinyin插件以及ik分词插件,代码的实现这里提供了java跟C#的版本方便大家参考. 1.实现的结果 ①当搜索[qiy]的时候,能匹配企业.祈愿等 ②当搜索[qi业]的时候,只能匹配的到企业,如果没有企业,将使用模糊查询,匹配祈愿. ③当搜索[q业]的时候结果同②. ④当搜索[企y]或[企ye]的时候结果同②. ④当搜索[qy]的时候,能匹配企业.祈愿等. 2.实现的逻辑 中文匹配前缀==>全拼
Elasticsearch IK分词器
Elasticsearch-IK分词器 一.简介 因为Elasticsearch中默认的标准分词器(analyze)对中文分词不是很友好,会将中文词语拆分成一个一个中文的汉字,所以引入中文分词器-IK. 使用默认 二.安装IK分词器 1.先下载ik分词器 https://github.com/medcl/elasticsearch-analysis-ik/releases 注意 一定要下载和Elastic版本相同的IK分词器 2.我们将ik分词器上传到我们的es的plugins/ik目录下,ik
Elasticsearch之停用词
前提 什么是倒排索引? Elasticsearch之分词器的作用 Elasticsearch之分词器的工作流程 Elasticsearch的停用词 1.有些词在文本中出现的频率非常高,但是对文本所携带的信息基本不产生影响. 2.英文 a.an.the.of 3.中文 的.了.着.是 .标点符号等 4.文本经过分词之后,停用词通常被过滤掉,不会被进行索引. 5.在检索的时候,用户的查询中如果含有停用词,检索系统也会将其过滤掉(因为用户输入的查询字符串也要进行分词处理). 6.排除停用词可以加快建立
ElasticSearch IK热词自动热更新原理与Golang实现
热更新概述 ik分词器本身可以从配置文件加载扩张词库,也可以从远程HTTP服务器加载. 从本地加载,则需要重启ES生效,影响比较大.所以,一般我们都会把词库放在远程服务器上.这里主要有2种方式: 借助Nginx,在其某个目录结构下放一个dic.txt,我们只要更新这个文件,不需要重启ES也能达到热更新的目的.优点是简单,无需开发,缺点就是不够灵活. 自己开发一个HTTP接口,返回词库.注意:一行代表一个词,http body中,自己追加\n换行. 这里主要介绍第2种接口方式. 热更新原理 查看
ElasticSearch ik分词安装
1.下载对应版本的ES ik分词 https://github.com/medcl/elasticsearch-analysis-ik/releases 2.解压elasticsearch-analysis-ik-master.zip unzip elasticsearch-analysis-ik-master.zip 3.进入elasticsearch-analysis-ik-master,编译源码 cd elasticsearch-analysis-ik-master mvn clean
Elasticsearch IK+pinyin
如何在Elasticsearch中安装中文分词器(IK+pinyin) 如果直接使用Elasticsearch的朋友在处理中文内容的搜索时,肯定会遇到很尴尬的问题——中文词语被分成了一个一个的汉字,当用Kibana作图的时候,按照term来分组,结果一个汉字被分成了一组. 这是因为使用了Elasticsearch中默认的标准分词器,这个分词器在处理中文的时候会把中文单词切分成一个一个的汉字,因此引入中文的分词器就能解决这个问题. 本篇文章按照下面的内容进行描述: 分词器的作用 安装IK 简单
【热更新IK词典】ElasticSearch IK 自动热更新原理与实现
一.热更新原理 elasticsearch开启加载外部词典功功能后,会每60s间隔进行刷新字典.具体原理代码如下所示: public void loadDic(HttpServletRequest req,HttpServletResponse response){ String eTag =req.getParameter("If-None-Match"); try { OutputStream out= response.getOutputStream(); List<Str
Windows10安装Elasticsearch IK分词插件
安装插件 cmd切换到Elasticsearch安装目录下 C:\Users\Administrator>D: D:\>cd D:\Program Files\Elastic\ElasticSearch\6.8.4\bin 安装的插件需要跟Elasticsearch的版本匹配,也就是说我要装的是6.8.4版本的ik分词插件. 访问下载页面:Releases · medcl/elasticsearch-analysis-ik 找到6.8.4的下载链接,执行以下命令 elasticsearch-p
elasticsearch对无意义的词进行屏蔽——停用词
介绍 在使用elasticsearch进行搜索业务的时候,发现一篇和搜索关键字完全不匹配的文章排在最前面.打开它发现原来是这篇文章含有非常多的"的"这个无意义的词.而我的搜索关键字假设为"历史上的 今天",它可能就被ik_max_word分词后,刚好就有"的"这个词.所以会造成一篇含有很多"的"的文章,即使跟搜索关键字无关,也可能得分很高,排在前面. 那么我们需要做的就是如何对这些无意义的词——停用词进行屏蔽. 操作 其实这个
elasticsearch ik分词
elasticsearch 默认并不支持中文分词,默认将每个中文字切分为一个词,这明显不符合我们的业务要求.这里就需要用到ik分词插件. 本文主要囊括了以下几部分,ik插件安装.ik用法介绍.自定义词典使用 ik插件安装 查找并下载对应elasticsearch版本的ik,解压 编写Dockerfile 运行测试 $docker-compose up -d 新增ik插件功能配置实际上非常简单,仅需将解压后的elasticsearch-analysis-ik文件放置到es/plugins路径下即可
elasticsearch ik中文分词器的使用详解
(基于es5.4)先喵几眼github,按照步骤安装好分词器 link:https://github.com/medcl/elasticsearch-analysis-ik 复习一下常用的操作 .查看集群健康状况 GET /_cat/health?v&pretty .查看my_index的mapping和setting的相关信息 GET /my_index?pretty .查看所有的index GET /_cat/indices?v&pretty .删除 my_index_new DELE
jar hell & elasticsearch ik 版本问题
想给es 安装一个ik 的插件, 我的es 是 2.4.0, 下载了一个版本是 1.9.5, [2016-10-09 16:56:26,248][INFO ][node ] [node-2] initializing ... [2016-10-09 16:56:27,309][ERROR][bootstrap ] Exception java.lang.IllegalArgumentException: Plugin [analysis-ik] is incompatible with Elas
Elasticsearch的停用词(stopwords)
1.问题 在使用搜索引擎(Elasticsearch或Solr)作为应用的后台搜索平台的时候,会遇到停用词(stopwords)的问题. 在信息检索中,停用词是为节省存储空间和提高搜索效率,处理文本时自动过滤掉某些字或词,这些字或词即被称为Stop Words(停用词).停用词大致分为两类.一类是语言中的功能词,这些词极其普遍而无实际含义,比如“the”.“is“.“which“.“on”等.另一类是词汇词,比如'want'等,这些词应用广泛,但搜索引擎无法保证能够给出真正相关的搜索结果,难以缩
热门专题
origin2017风向玫瑰图数据来源
oracle快捷键格式化sql
gitlab http图片无法显示
html 在展示的某个值中添加onclick链接
uni delete 传参数组
rabbitmq无法访问15672
git拉取把本地覆盖了
logisim8指令
输入一个数,输出比它小的最大质数
不存在叫‘GenomeInfoDbData’这个名字的程辑包
mysql角色的概念
睡眠定时器的工作模式及特点
python3 telnet客户端函数
sqlite获取当前日期函数 localtime
uniapp H5 微信 openid
SetFont 覆盖 4000
ssm的项目怎么启动
docker容器开启rsyslog
sql server创建加密视图怎么解密
隐藏ListView的进度条