一．配置solr

1.配置

注意：要是想放到其它路径下，可以修改此路径下的web.xml配置文件

修改内容如下：

<env-entry>

<env-entry-name>solr/home</env-entry-name>

<env-entry-value>你的core的上级路径</env-entry-value>

<env-entry-type>java.lang.String</env-entry-type>

</env-entry>

2.点击tomcat的bin目录下的startup.bat启动

3.在浏览器上输入http://你的ip:8080/solr/index.html#/ 查看

4.选择test-core，执行查看

二．配置HanLP分词器

1. 配置配置文件

从下载的HanLP中获取hanlp.properties配置文件，放置到下面的路径中。

2. 导入HanLP词典

从下载的HanLP中拷贝data到下图目录下，该data包含Hanlp中提供的词库和模型。

3. 导入jar包

把HanLP中的hanlp-1.5.0.jar和hanlp-1.5.0.sources.jar放到tomcat的该目录下

4. 修改hanlp.properties中的，改成data的上级目录

一、配置HanLP分词器

1.配置分词器

在使用该分词器的core中的managed-schema文件中添加

<tokenizer class="com.hankcs.lucene.HanLPTokenizerFactory"

enableIndexMode="true" enablePlaceRecognize="true" enableOrganizationRecognize="true" customDictionaryPath="E:\search11\data\dictionary\custom\自定义词典.txt"/>

</analyzer>

<tokenizer class="com.hankcs.lucene.HanLPTokenizerFactory"

enableIndexMode="false" enablePlaceRecognize="true" enableOrganizationRecognize="true" customDictionaryPath="E:\search11\data\dictionary\custom\自定义词典.txt"/>

<filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt"

ignoreCase="true" expand="true"/>

</analyzer>

</fieldType>

2.修改使用该分词器的字段

3.结果

三．配置Tika文档提取器

1. 首先在core中添加tika文档搜索

<!-- All the main content goes into "text"... if you need to return

the extracted text or do highlighting, use a stored field. -->

<str name="lowernames">false</str>

<str name="uprefix">ignored_</str>

</lst>

</requestHandler>

2. 配置tika解析文档的分类字段

3. 修改tomcat的server.xml配置

<Connector port="8080" protocol="HTTP/1.1"

connectionTimeout="20000"

redirectPort="8443"

maxHttpHeaderSize ="104857600" maxPostSize="0" />

注意：

maxHttpHeaderSize ：设置最大上传头大小

maxPostSize：解除post提交大小限制

4. 结果

四．配置HTML及相关样式过滤器

<charFilter class="solr.MappingCharFilterFactory"

mapping="mapping-FoldToASCII.txt"/>

</analyzer>

<filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt"

ignoreCase="true" expand="true"/>

</analyzer>

</fieldType>

五．配置MLT文档相识度搜索

1.添加配置

ZSYBS,ZSYWT,ZSYDA,ZSBS,XH,ZSDZT,CZRBS,ZZBM,DQBM,FJFZBS,

SCJBS,ZSYWB,YXQ,YDHS,GDMB,ZSLX,CZSJ,CJSJ</str>

ZSYWT^2.0 ZSYWB^1.0

</str>

<str name="mlt.fl">ZSYWT,ZSYWB</str>

<str name="df">ZSYBS</str>

</lst>

</requestHandler>

2.测试结果

六．配置SolrJ高亮展示

1. 高亮的默认配置

<str name="hl.fl">content features title name</str>

<str name="f.title.hl.alternateField">title</str>

<str name="f.content.hl.alternateField">content</str>

2. 启用高亮

SolrQuery solrQuery = new SolrQuery();

solrQuery.setQuery("ZSYWT:交易电价"); //设置查询关键字

solrQuery.setHighlight(true); //开启高亮

solrQuery.addHighlightField("ZSYWT"); //高亮字段

solrQuery.addHighlightField("ZSYWB"); //高亮字段

solrQuery.setHighlightSimplePre("<font color='red'>"); //高亮单词的前缀

solrQuery.setHighlightSimplePost("</font>"); //高亮单词的后缀

solrQuery.setParam("hl.fl", "ZSYWT");

七．配置搜索关键词自动补全（汉字，拼音）

添加配置

<str name="name">mySuggester</str>

<str name="lookupImpl">FuzzyLookupFactory</str>

<str name="dictionaryImpl">DocumentDictionaryFactory</str>

<str name="field">ZSYWT_PINYIN</str>

</lst>

</searchComponent>

<str name="suggest.dictionary">mySuggester</str>

</lst>

<str>suggest</str>

</arr>

</requestHandler>

2.设置搜索字段

<field name="ZSYWT_PINYIN" type="text_cn" indexed="true"

stored="true" multiValued="true"/>

3.测试结果

八．搜索关键词自动纠错

代码实现：

public Collection<List<String>> getAutomaticErrorCorrection(String content)

throws SolrServerException, IOException {

HttpSolrServer server = new HttpSolrServer(url);

SolrQuery params = new SolrQuery();

params.set("qt", "/suggest");

//全部转换为拼音

StringBuilder sb = new StringBuilder();

char[] array = content.toCharArray();

for(int j=0;j<array.length;j++){

if(isChineseByBlockStyle(array[j])){

List<Pinyin> pinyinMidList = HanLP.convertToPinyinList(""+array[j]);

for (Pinyin pinyin : pinyinMidList)

{

sb.append(pinyin.getPinyinWithoutTone());

}

}else{

sb.append(array[j]);

}

params.setQuery(sb.toString());

QueryResponse response = null;

response = server.query(params);

SuggesterResponse suggest = response.getSuggesterResponse();

Collection<List<String>> collection = suggest.getSuggestedTerms().values();

server.close();

return collection;

}

Solr5.5高级应用（基于tomcat9）的更多相关文章

ASP.NET MVC 随想录——探索ASP.NET Identity 身份验证和基于角色的授权，中级篇
在前一篇文章中,我介绍了ASP.NET Identity 基本API的运用并创建了若干用户账号.那么在本篇文章中,我将继续ASP.NET Identity 之旅,向您展示如何运用ASP.NET Ide ...
ASP.NET Identity 身份验证和基于角色的授权
ASP.NET Identity 身份验证和基于角色的授权阅读目录探索身份验证与授权使用ASP.NET Identity 身份验证使用角色进行授权初始化数据,Seeding 数据库小结在 ...
Azure 标准与高级托管磁盘存储的相互转换
托管磁盘提供两种存储选项:高级(基于 SSD)和标准(基于 HDD). 它允许基于性能需求在这两个选项之间轻松切换,并保障最短停机时间. 非托管磁盘不具备此功能. 但可以轻松转换为托管磁盘,以便在这两 ...
Apache Spark 2.2中基于成本的优化器（CBO）（转载）
Apache Spark 2.2最近引入了高级的基于成本的优化器框架用于收集并均衡不同的列数据的统计工作 (例如., 基(cardinality).唯一值的数量.空值.最大最小值.平均/最大长度,等等 ...
ip route rule 路由策略高级路由捆绑网桥
http://lwfs.net/2005/11/28/10/ #!/bin/bash IP0= IP1= GW0= GW1= NET0= NET1= DEV0=eth0 DEV1=eth1 # com ...
OpenGL的学习资源
OpenGL是3D图形接口工业标准,使用上非常简单,所有API不过上百个函数,但理解OpenGL就没那么简单,本文总结OpenGL的学习资源,包括官方资料.网上教程.示例程序等. Wikipedia: ...
Python学习手册（1入门知识-数据类型）
UNIX env查找技巧在一些UNIX系统上,可以用这样一种方法避免硬编码Python解释器的路径,在文件的特定的第一行注释中写上这样一句话. #! usr/bin/env/ python...sc ...
Android开发工具之Dash
作为一名死coder,每天最常见的动作就是查看各种API文档,你一定也有过同时打开N个窗口(HTML.PDF.CHM),不停的在编辑器与文档之间切换的感受吧?怎么说呢,其实我很讨厌这种枯燥无味的动作, ...
Dash
作为一名死coder,每天最常见的动作就是查看各种API文档,你一定也有过同时打开N个窗口(HTML.PDF.CHM),不停的在编辑器与文档之间切换的感受吧?怎么说呢,其实我很讨厌这种枯燥无味的动作, ...

随机推荐

IntelliJ IDEA中用Git插件操作
mysql 开发进阶篇系列 21 磁盘I/O问题(RAID)
一.概述作为应用系统的持久化层,不管数据库采取了什么样的Cache机制,数据库最终总是要将数据储存到可以长久保存的I/O设备磁盘上.但磁盘的存取速度显然要比cpu,ram的速度慢很多.因此,对于比较 ...
谷歌浏览器提示Adobe flash player不是最新版本的解决方法
版权声明:本文为博主原创文章,未经博主允许不得转载. 参考资料 https://jingyan.baidu.com/article/a3a3f811c3d5058da2eb8a39.html 如果电脑 ...
Linux常用命令英文全称与中文解释
man: Manual 意思是手册,可以用这个命令查询其他命令的用法. pwd:Print working directory 意思是密码. su:Swith user 切换用户,切换到root用户 ...
Unity3D中利用Action实现自己的消息管理（订阅/发布）类
引言一般的软件开发过程中,为了方便对项目进行管理.维护和扩展,通常会采用一种MVC框架,以将显示逻辑.业务逻辑和数据进行分离. 这在传统企业软件的开发中很常见,但我在使用Unity做游戏开发的时候却 ...
curl模拟post json或post xml文件
转自: https://www.cnblogs.com/xiaochina/p/9750851.html 问题描述: Linux用命令模拟接口,对接口判断!post文件xml/json 问题解决: c ...
Python机器学习笔记：常用评估指标的用法
在机器学习中,性能指标(Metrics)是衡量一个模型好坏的关键,通过衡量模型输出y_predict和y_true之间的某种“距离”得出的. 对学习器的泛化性能进行评估,不仅需要有效可行的试验估计方法 ...
无需操作系统直接运行 Python 代码
Josh Triplett以一个“笑点”开始了他在PyCon 2015上的演讲:移植Python使其无需操作系统运行:他和他的英特尔同事让解释器能够在GRUB引导程序.BIOS或EFI系统上运行.连演 ...
SpringBoot(6) SpringBoot配置全局异常
1.全局异常 @ControllerAdvice 如果是返回json数据则用 RestControllerAdvice,就可以不加 @ResponseBody //捕获全局异常,处理所有不可知的异常 ...
Java网络编程的基本网络概念
前言自己网络这方面的知识很是薄弱,每次面试被问到这部分都会卡壳,所以很尴尬,然后最近也是有些时间了,就赶紧把自己的不足补充一下.虽然最近也在看设计模式,但是总看设计模式也容易烦,所以就并行学习,看看 ...

Solr5.5高级应用（基于tomcat9）

一．配置solr

1.配置

2.点击tomcat的bin目录下的startup.bat启动

3.在浏览器上输入http://你的ip:8080/solr/index.html#/ 查看

4.选择test-core，执行查看

二．配置HanLP分词器

1. 配置配置文件

2. 导入HanLP词典

3. 导入jar包

4. 修改hanlp.properties中的，改成data的上级目录

一、配置HanLP分词器

1.配置分词器

2.修改使用该分词器的字段

3.结果

三．配置Tika文档提取器

1. 首先在core中添加tika文档搜索

2. 配置tika解析文档的分类字段

3. 修改tomcat的server.xml配置

4. 结果

四．配置HTML及相关样式过滤器

五．配置MLT文档相识度搜索

1.添加配置

2.测试结果

六．配置SolrJ高亮展示

1. 高亮的默认配置

2. 启用高亮

七．配置搜索关键词自动补全（汉字，拼音）

添加配置

2.设置搜索字段

3.测试结果

八．搜索关键词自动纠错

代码实现：

Solr5.5高级应用（基于tomcat9）的更多相关文章

随机推荐

热门专题