solr配置分词器

一、solr4.10 + mmseg4j-2.2.0分词器

1、solr的安装部署：http://www.cnblogs.com/honger/p/5876289.html，注意不同的版本安装方式可能不同。

solr与mmseg4j对应的版本，不要弄错，否则会出错。

mmseg4j-solr-2.0.0.jar 要求 lucene/solr >= 4.3.0。在 lucene/solr [4.3.0, 4.7.1] 测试过兼容可用。
mmseg4j-solr-2.1.0.jar 要求 lucene/solr 4.8.x
mmseg4j-solr-2.2.0.jar 要求 lucene/solr [4.9, 4.10.x]
mmseg4j-solr-2.3.0.jar 要求 lucene/solr [5.0, ]

地址：https://github.com/chenlb/mmseg4j-solr，往下拉找到下载，点击即可

2、下载好后，解压，将解压出来的两个jar包使用拷贝到tomcat的solr工程的lib下面，将mmseg4j-core-1.10.0.jar里的data文件夹里的以*.dic结尾的文件拷贝到solrhome的dic文件夹下，这个dic文件夹是自己创建的。

3、修改solrhome/collection2/conf/schma.xml,添加以下代码（collection2是你创建的core对象，以你自己创建的为准，代码中dicPath这个属性指的是你的dic文件目录，这里使用的是相对路径，相对于solrhome）

<fieldtype name="textComplex" class="solr.TextField" positionIncrementGap="100">

    <analyzer>

        <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex" dicPath="dic"/>

    </analyzer>

</fieldtype>

<fieldtype name="textMaxWord" class="solr.TextField" positionIncrementGap="100">

    <analyzer>

        <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="max-word" />

    </analyzer>

</fieldtype>

<fieldtype name="textSimple" class="solr.TextField" positionIncrementGap="100">

    <analyzer>

        <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="simple" dicPath="dic" />

    </analyzer>

</fieldtype>

4、启动tomcat

二、第二种方式solr-4.10.0 + IKAnalyzer分词器

IKAnalyzer分词器目前只能支持到solr5以下，以上的已经不支持了

1、IKAnalyzer分词器的下载：http://pan.baidu.com/s/1cBUw5g

2、IKAnalyzer解压后的目录结构，将其中的jar包拷贝到solr/WEB-INF/lib下，再将

IKAnalyzer.cfg.xml、ext_stopword.dic mydict.dic copy到 Tomcat的

webapps/solr/WEB-INF/classes下

3、修改你想要增加字段域的那个core下的schema.xml,我的是collection1添加以下代码

<fieldType name="text_ik" class="solr.TextField">

  <analyzer class="org.wltea.analyzer.lucene.IKAnalyzer"/>

</fieldType>

<field name="item_title" type="text_ik" indexed="true" stored="true"/>

4、启动tomcat

solrjTest.java参考文档地址：http://mirrors.cnnic.cn/apache/lucene/solr/ref-guide/apache-solr-ref-guide-6.2.pdf，可用ctrl+s将它下载下来。

import org.apache.solr.client.solrj.SolrClient;

import org.apache.solr.client.solrj.SolrQuery;

import org.apache.solr.client.solrj.impl.HttpSolrClient;

import org.apache.solr.client.solrj.response.QueryResponse;

import org.apache.solr.common.SolrDocument;

import org.apache.solr.common.SolrDocumentList;

import org.apache.solr.common.SolrInputDocument;

import org.junit.Test;

public class SolrTest {

    @Test

    public void create() throws Exception {

        String urlString = "http://192.168.243.128:8080/solr";

        SolrClient solr = new HttpSolrClient.Builder(urlString).build();

        //集群

        /*String zkHostString = "zkServerA:2181,zkServerB:2181,zkServerC:2181/solr";

        SolrClient solr = new CloudSolrClient.Builder().withZkHost(zkHostString).build();*/

        SolrInputDocument document = new SolrInputDocument();

        document.addField("id", "552199");

        document.addField("name", "Gouda cheese wheel");

        document.addField("price", "49.99");

        solr.add(document);

        // Remember to commit your changes!

        solr.commit();

    }

    @Test

    public void delete() throws Exception {

        String urlString = "http://192.168.243.128:8080/solr";

        SolrClient solr = new HttpSolrClient.Builder(urlString).build();

        solr.deleteById("552199");

        solr.deleteByQuery("id:100");

        solr.commit();

    }

    @Test

    public void query() throws Exception {

        String urlString = "http://192.168.243.128:8080/solr";

        SolrClient solr = new HttpSolrClient.Builder(urlString).build();

        SolrQuery query = new SolrQuery();

        query.setQuery("*:*");

        query.setStart(20);

        query.setRows(50);

        //增加高亮域

        query.setHighlight(true);

        query.addHighlightField("item_title");

        query.setHighlightSimplePre("<em style=\"color:red\">");

        query.setHighlightSimplePost("</em>");

        query.addHighlightField("item_title");

        QueryResponse queryResponse = solr.query(query);

        SolrDocumentList solrDocumentList = queryResponse.getResults();

        for (SolrDocument solrDocument : solrDocumentList) {

            System.out.println("------------------------------------");

            System.out.println(solrDocument.get("id"));

            System.out.println(solrDocument.get("item_title"));

            System.out.println(solrDocument.get("item_category_name"));

            System.out.println(solrDocument.get("item_sell_point"));

            System.out.println(solrDocument.get("item_price"));

            System.out.println("------------------------------------");

        }

    }

}

solr配置分词器的更多相关文章

Solr7.3.0入门教程，部署Solr到Tomcat，配置Solr中文分词器
solr 基本介绍 Apache Solr (读音: SOLer) 是一个开源的搜索服务器.Solr 使用 Java 语言开发,主要基于 HTTP 和 Apache Lucene 实现.Apache ...
CentOS 配置solr中文分词器
第一步:使用IK-Analyzer.把分析器的文件夹上传到服务器. 第二步:需要把分析器的jar包添加到solr工程中. [root@bogon IK Analyzer 2012FF_hf1]# cp ...
Solr IK分词器配置
下载地址:https://search.maven.org/search?q=com.github.magese 分词器配置: 参考:https://www.cnblogs.com/mengjinlu ...
lucene&solr学习——分词器
下图是语汇单元的生成过程: 从一个Reader字符流开始,创建基于Reader的Tokenizer分词器,经过三个TokenFilter生成语汇单元Tokens. 要看分词器的分析效果,只需要看Tok ...
solr 中文分词器IKAnalyzer和拼音分词器pinyin
solr分词过程: Solr Admin中,选择Analysis,在FieldType中,选择text_en 左边框输入 “冬天到了天气冷了小明不想上学去了”,点击右边的按钮,发现对每个字都进行分词. ...
solr IK分词器
1.把IK文件夹上传到服务器tmp文件夹 2.把需要的jar导入到solr项目中 # cp IKAnalyzer2012FF_u1.jar /usr/local/solr/tomcat/webapps ...
Solr(四)Solr实现简单的类似百度搜索高亮功能-1.配置Ik分词器
配置Ik分词器一效果图二实现此功能需要添加分词器,在这里使用比较主流的IK分词器. 1 没有配置IK分词器,用solr自带的text分词它会把一句话分成单个的字. 2 配置IK分词器,的话它会 ...
Solr6.5配置中文分词器
Solr作为搜索应用服务器,我们在使用过程中,不可避免的要使用中文搜索.以下介绍solr自带的中文分词器和第三方分词器IKAnalyzer. 注:下面操作在Linux下执行,所添加的配置在windo ...
solr 中文分词 IKAnalyzer
solr中文分词器ik, 推荐资料:http://iamyida.iteye.com/blog/2220474?utm_source=tuicool&utm_medium=referral 使 ...

随机推荐

浅谈Java中的命名规范
现代软件架构的复杂性需要协同开发完成,如何高效地协同呢? 答案是:制定一整套统一的规范. 无规矩不成方圆,无规范难以协同,比如,制订交通法规表面上是要限制行车权,实际上是保障公众的人身安全,试想如果没 ...
python自动化测试之mysql5.0版本数据库查询数据时出现乱码问题分析
1.确保数据库编码是utf8编码.若不是,请将my.ini的client,mysql,mysqld三个字段下面添加default-character-set = utf8,这样可以永久改变在新建数据库 ...
纯异步nodejs文件夹(目录)复制
思路: 1.callback 驱动 2.递归所有需要复制文件 3.在一定阀值下并发复制文件 4.运行需要安装 async.js npm install async 代码如下: var asyn ...
java获取系统类型与版本
System的properties中有很多系统属性: System.out.println(System.getProperty("os.name")); System.out.p ...
java - Builder模式实例化对象
Builder 优雅的链式调用来实现实例化对象 1. 首先在实体类中,构造一个Builder内部类,由Builder来完成Person的属性赋值,并最终执行build来完成Person的实例化 pa ...
eclipse下jdbc数据源与连接池的配置及功能简介
今天在做四则运算网页版的时候遇到了一个困惑,由于需要把每个产生的式子存进数据库,所以就需要很多次重复的加载驱动,建立连接等操作,这样一方面写程序不方便,加大了程序量,另一方面,还有导致数据库的性能急 ...
JS中的闭包详细解析大全（面试避必考题）
JS中闭包的介绍闭包的概念闭包就是能够读取其他函数内部变量的函数. 一.变量的作用域要理解闭包,首先必须理解Javascript特殊的变量作用域. 变量的作用域无非就是两种:全局变量和局部变 ...
Mybatisの常见面试题
Mybatis -面试问题最近准备系统的学一下Mybatis,之前只有粗略的看了下,选了十个常见的面试题 1. #{}和${}的区别是什么? #{}是预编译处理,${}是字符串替换. Mybatis ...
python学习 -女神或者男神把微信消息撤回后好慌，有了这个妈妈再也不担心你看不到女神或者男神撤回的消息了（超详解）
简介有时候在忙工作,女朋友发了一个消息,就撤回了,但是人天生的都有一颗好奇心,而且在当今这个时代找个女朋友不容易,一个程序猿找一个女朋友更是不容易的.人家好不容易跟你,你还不得把人家当老佛爷侍候着, ...
基于C#的机器学习--旅行推销员问题
我们有一个必须在n个城市之间旅行的推销员.他不在乎什么顺序.他最先或最后访问的城市除外.他唯一关心的是他会去拜访每一个人,每个城市只有一次,最后一站是他得家. 每个城市都是一个节点,每个节点通过一条边 ...

solr配置分词器

solr配置分词器的更多相关文章

随机推荐

热门专题