利用IK分词器，自定义分词规则

IK分词源码下载地址：https://code.google.com/p/ik-analyzer/downloads/list

lucene源码下载地址：http://www.eu.apache.org/dist/lucene/java/

下载IK分词源码后，运行出现错误提示：

Analyzer cannot be resolved to a type

	TokenStream cannot be resolved to a type

	OffsetAttribute cannot be resolved to a type

	OffsetAttribute cannot be resolved to a type

	CharTermAttribute cannot be resolved to a type

	CharTermAttribute cannot be resolved to a type

	TypeAttribute cannot be resolved to a type

	TypeAttribute cannot be resolved to a type

解决办法：

在项目project -->clean 下即可

自定义分词规则步骤：

里面的例子：

import java.io.IOException;

import java.util.HashMap;

import java.util.Map;

import java.util.Map.Entry;

import org.apache.lucene.analysis.Analyzer;

import org.apache.lucene.analysis.TokenStream;

import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;

import org.apache.lucene.analysis.tokenattributes.OffsetAttribute;

import org.apache.lucene.analysis.tokenattributes.TypeAttribute;

import org.wltea.analyzer.lucene.IKAnalyzer;

public static void main(String[] args) {

		String testString = "张柏芝士蛋糕房 ZHANG'S CAKE SHOP，网友们Hold不住了：宋祖英语培训班、周渝民政服务中心、容祖儿童医院、吴奇隆胸医院、苏永康复中心、梁朝伟哥专卖、陈冠希望小学、吴彦祖传中医坊、林书豪华酒店";

		iktest1(testString);

	}

	// 实现普通分词

	public  static Map<String, Object>  iktest1(String testString){

		Map<String, Object> resultsMap = new HashMap<String, Object>();

		Analyzer ikAnalyzer = new IKAnalyzer(true);

		  TokenStream ts = null;

		  try {

			   ts = ikAnalyzer.tokenStream("myik", testString);

			  //词元位置属性

			  OffsetAttribute offset = ts.addAttribute(OffsetAttribute.class);

			  //词文本属性

			  CharTermAttribute term = ts.addAttribute(CharTermAttribute.class);

			  //词文本属性

			  TypeAttribute type = ts.addAttribute(TypeAttribute.class);

			  ts.reset();

				while (ts.incrementToken()){

					resultsMap.put("获得分词", term.toString());

					for (Object obj : resultsMap.entrySet()) {

			            Entry entry = (Entry) obj;

			            String key = (String) entry.getKey();

			            String value = (String) entry.getValue();

			            System.out.println(key + ":" + value);

			        }

					//System.out.println(resultsMap);

					//  System.out.println(offset.startOffset() + " - " + offset.endOffset() + " : " + term.toString() + " | " + type.type());

				}

			  ts.end();

		} catch (IOException e) {

			e.printStackTrace();

		} finally{

			if (ts != null){

				try {

					ts.close();

				} catch (IOException e) {

					e.printStackTrace();

				}

			}

		}

		  return resultsMap;

	}

	//实现只能分词2

	public static void testik02(){

	}

分词结果：

获得分词:张柏芝
获得分词:士
获得分词:蛋糕
获得分词:房
获得分词:zhang
获得分词:s
获得分词:cake
获得分词:shop
获得分词:网友
获得分词:们
获得分词:hold
获得分词:不
获得分词:住了
获得分词:宋祖英
获得分词:语
获得分词:培训班
获得分词:周渝民
获得分词:政
获得分词:服务中心
获得分词:容祖儿
获得分词:童
获得分词:医院
获得分词:吴奇隆
获得分词:胸
获得分词:医院
获得分词:苏永康
获得分词:复
获得分词:中心
获得分词:梁朝伟
获得分词:哥
获得分词:专卖
获得分词:陈冠希
获得分词:望
获得分词:小学
获得分词:吴彦祖
获得分词:传
获得分词:中医
获得分词:坊
获得分词:林
获得分词:书
获得分词:豪华酒店

这样分词不是很智能，分词需要我们自己设置。

存在的问题还需要定义歧义字典。但是ik不支持歧义字典

利用IK分词器，自定义分词规则的更多相关文章

ES 09 - 定制Elasticsearch的分词器 (自定义分词策略)
目录 1 索引的分析 1.1 分析器的组成 1.2 倒排索引的核心原理-normalization 2 ES的默认分词器 3 修改分词器 4 定制分词器 4.1 向索引中添加自定义的分词器 4.2 测 ...
【ELK】【docker】【elasticsearch】2.使用elasticSearch+kibana+logstash+ik分词器+pinyin分词器+繁简体转化分词器 6.5.4 启动 ELK+logstash概念描述
官网地址:https://www.elastic.co/guide/en/elasticsearch/reference/current/docker.html#docker-cli-run-prod ...
用lucene4.10.2分词器进行分词
import java.util.Iterator; import java.util.LinkedList; import java.util.List; import org.apache.luc ...
thinkPHP5.0验证器自定义验证规则
自定义验证规则 protected $rule = [ 'views' => 'require|number|checkviews:0',//checkviews为自定义验证规则,0是传过去的规 ...
es的分词器analyzer
analyzer 分词器使用的两个情形: 1,Index time analysis. 创建或者更新文档时,会对文档进行分词2,Search time analysis. 查询时,对查询语句 ...
如何在Elasticsearch中安装中文分词器(IK+pinyin)
如果直接使用Elasticsearch的朋友在处理中文内容的搜索时,肯定会遇到很尴尬的问题--中文词语被分成了一个一个的汉字,当用Kibana作图的时候,按照term来分组,结果一个汉字被分成了一组. ...
Lucene 03 - 什么是分词器 + 使用IK中文分词器
目录 1 分词器概述 1.1 分词器简介 1.2 分词器的使用 1.3 中文分词器 1.3.1 中文分词器简介 1.3.2 Lucene提供的中文分词器 1.3.3 第三方中文分词器 2 IK分词器的 ...
Kafka：ZK+Kafka+Spark Streaming集群环境搭建（十九）ES6.2.2 安装Ik中文分词器
注: elasticsearch 版本6.2.2 1)集群模式,则每个节点都需要安装ik分词,安装插件完毕后需要重启服务,创建mapping前如果有机器未安装分词,则可能该索引可能为RED,需要删除后 ...
solr配置相关：约束文件及引入ik分词器
schema.xml: solr约束文件 Solr中会提前对文档中的字段进行定义,并且在schema.xml中对这些字段的属性进行约束,例如:字段数据类型.字段是否索引.是否存储.是否分词等等 < ...
Lucene介绍及简单入门案例（集成ik分词器）
介绍 Lucene是apache软件基金会4 jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包,但它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和 ...

随机推荐

delphi 文件的操作：重命名、复制、移动、删除
Delphi 文件的操作:重命名.复制.移动.删除第一种方法: RenameFile('Oldname', 'Newname'); CopyFile(PChar('Oldname'), PChar(' ...
NOIp2018集训test-10-21 (联考六day1)
今天被高一狂踩,两个手抖,t1一个1写成2,t3一个+=写成=,所谓失之毫厘谬以千里,直接丢了50分. 完全背包看到背包体积如此之大物品体积如此之小容易很想到贪心,肯定要先加很多很多的性价比最高的最 ...
Rubber Ducky简介
USB Rubber Ducky是一款模仿人工键盘输入的设备,外形和U盘一样,模拟键盘输入速度可达到1000个字符每分钟,并且适合任何操作系统,包括安卓等移动OS,它使用的是它特定的脚本语言,用记事本 ...
fatal error C1047: 对象或库文件“.\x64\Release\Des.obj”是使用比创建其他对象所用编译器旧的编译器创建的；请重新生成旧的对象和库
问题描述: 在把一个32位的dll编译成64位的时候提示上面的错误解决办法: >属性->常规->项目默认值->全程序优化将这里的默认项 "使用链接时间代码生成& ...
我看Spring MVC系列（一）
1.Spring MVC是什么: Spring MVC:Spring框架提供了构建Web应用程序的全功能MVC模块. 2.Spring helloWorld应用(基于Spring 4.2) 1.添加S ...
error C3867: “std::basic_string<char,std::char_traits<char>,std::allocator<char>>::c_str”: 函数调用缺少参数列表；请使用“&std::basic_string<char,std::char_traits<char>,std::allocator<char>>::c_str”创建指向成员的指针
这个问题找了很多没有找到满意的答案.仔细看了一下,是使用了c_str的问题. 我直接把使用string.c_str的地方使用char*代替即解决问题.
webstorm vue eslint 自动修正配置
原文:https://medium.com/@netczuk/even-faster-code-formatting-using-eslint-22b80d061461 https://stackov ...
python中的模块以及包导入
python中的导入关键字:import 以及from import 1.import import一般用于导入包以及模块. 不过有个小问题: (1)当导入的是模块的时候是可以直接可以使用模块内的函 ...
【HDUOJ】1257 最少拦截系统
题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=1257 题意:经典题. 题解:最长上升子序列. 代码: #include <iostream> ...
swagger2 注解说明 ( @ApiImplicitParams )
@Api:用在请求的类上,表示对类的说明 tags="说明该类的作用,可以在UI界面上看到的注解" value="该参数没什么意义,在UI界面上也看到,所以不需要配置&q ...

利用IK分词器，自定义分词规则

利用IK分词器，自定义分词规则的更多相关文章

随机推荐

热门专题