solr添加中文IK分词器,以及配置自定义词库 - 相关文章

【solr添加中文IK分词器,以及配置自定义词库】的更多相关文章

solr添加中文IK分词器,以及配置自定义词库

Solr是一个基于Lucene的Java搜索引擎服务器.Solr 提供了层面搜索.命中醒目显示并且支持多种输出格式(包括 XML/XSLT 和 JSON 格式).它易于安装和配置,而且附带了一个基于HTTP 的管理界面.Solr已经在众多大型的网站中使用,较为成熟和稳定.Solr 包装并扩展了Lucene,所以Solr的基本上沿用了Lucene的相关术语.更重要的是,Solr 创建的索引与 Lucene搜索引擎库完全兼容.通过对Solr 进行适当的配置,某些情况下可能需要进行编码,Solr 可以…

Solr4.4入门，介绍Solr的安装、IK分词器的配置及高亮查询结果(转)

一.Windows下安装solr-4.4.0 1. 下载solr.4.4 2. 下载绿色版tomcat6.0.18 3. 解压下载的solr到d:\study\solr,将dist目录下的solr4.4.0.war包复制到tomcat的webapps下 4. 在web.xml中配置solr.home为解压的 solr中的d:\study\solr\example\solr <env-entry> <env-entry-name>solr/home</env-entry…

如何开发自己的搜索帝国之安装ik分词器

Elasticsearch默认提供的分词器,会把每个汉字分开,而不是我们想要的根据关键词来分词,我是中国人不能简单的分成一个个字,我们更希望 “中国人”,“中国”,“我”这样的分词,这样我们就需要安装中文分词插件,ik就是实现这个功能的. elasticsearch-analysis-ik 是一款中文的分词插件,支持自定义词库. 现在开始安装ik分词器,安装之前,先说明一些变化: 之前可以在node节点上配置index默认的分词器,如果是多节点,那么在每个节点上都配置就行了.这个有点不灵活,…

Elasticsearch教程（二），IK分词器安装

elasticsearch-analysis-ik 是一款中文的分词插件,支持自定义词库,也有默认的词库. 开始安装. 1.下载下载地址为:https://github.com/medcl/elasticsearch-analysis-ik 或者从官网地址搜索:https://www.elastic.co 搜索IK即可. 本博客下面也提供了elasticsearch-analysis-ik.zip的下载链接. 2.解压. 把下载的 elasticsearch-analysis-ik.zip解…

[Linux]Linux下安装和配置solr/tomcat/IK分词器详细实例二.

为了更好的排版, 所以将IK分词器的安装重启了一篇博文, 大家可以接上solr的安装一同查看.[Linux]Linux下安装和配置solr/tomcat/IK分词器详细实例一: http://www.cnblogs.com/wang-meng/p/5814798.html 8, 打开浏览器查看solr可视化界面到了这里solr就配置好了, 可是我们的IK 分词器还没有配置呢, 如果不配IK分词器的话它是怎样分词的呢? 我们就来先看一下: 每个字都分成了一个词, 这当然不是我们想要的结果…

三、Solr多核心及分词器（IK）配置

多核心的概念多核心说白了就是多索引库.也可以理解为多个"数据库表" 说一下使用multicore的真实场景,比若说,产品搜索和会员信息搜索,不使用多核也没问题,这样带来的问题是 indexs文件很多,而且产品的索引文件和会员信息的索引文件混在一起,备份也是个问题. 如果使用了多核,那就很轻松了,产品和会员就可使用不同的URL进行提交了,业务上也很清晰,生成的索引文件也不会混在一起,也容易备份. 每个索引库通过相对独立的url访问. 多核心的配置还记得solr home吗,既然配置多…

Solr多核心及分词器（IK）配置

Solr多核心及分词器(IK)配置多核心的概念多核心说白了就是多索引库.也可以理解为多个"数据库表" 说一下使用multicore的真实场景,比若说,产品搜索和会员信息搜索,不使用多核也没问题,这样带来的问题是 indexs文件很多,而且产品的索引文件和会员信息的索引文件混在一起,备份也是个问题. 如果使用了多核,那就很轻松了,产品和会员就可使用不同的URL进行提交了,业务上也很清晰,生成的索引文件也不会混在一起,也容易备份. 每个索引库通过相对独立的url访问. 多核心的配置…

[Linux]Linux下安装和配置solr/tomcat/IK分词器详细实例一.

在这里一下讲解着三个的安装和配置, 是因为solr需要使用tomcat和IK分词器, 这里会通过图文教程的形式来详解它们的安装和使用.注: 本文属于原创文章, 如若转载,请注明出处, 谢谢.关于设置IK分词器的文章 IK分词器: Linux下IK分词器的安装及配置 1, 解压tar文件首先我们在根目录下建立一个solr目录(使用命令: mkdir /solr): 然后查看目录是否生成成功: 解压solr/tomcat/IK 到solr文件夹下: 因为IK压缩包是zip格式的, 这里的解压方…

Solr和IK分词器的整合

IK分词器相对于mmseg4J来说词典内容更加丰富,但是没有mmseg4J灵活,后者可以自定义自己的词语库.IK分词器的配置过程和mmseg4J一样简单,其过程如下: 1.引入IKAnalyzer.jar包到solr应用程序的WEB-INF/lib/目录下 2.打开solr的home/conf目录下的schema文件,在<types></types>内加入如下代码: <fieldType name="text_zh" class="solr.Te…

ElasticSearch7.3学习(十五)----中文分词器(IK Analyzer)及自定义词库

1. 中文分词器 1.1 默认分词器先来看看ElasticSearch中默认的standard 分词器,对英文比较友好,但是对于中文来说就是按照字符拆分,不是那么友好. GET /_analyze { "analyzer": "standard", "text": "中华人民共和国" } 我们想要的效果是什么:"中华人民共和国"作为一整个词语. 得到的结果是: { "tokens" :…