IKanalyzer分词器分词并且统计词频

<dependency>

   <groupId>com.janeluo</groupId>

   <artifactId>ikanalyzer</artifactId>

   <version>2012_u6</version>

</dependency>

首先引入 ikanalyzer相关jar包

/**

 * @Description:

 * @Author: lizhang

 * @CreateDate: 2018/7/31 22:35

 * @UpdateDate: 2018/7/31 22:35

 * @Version: 1.0

 */

import org.wltea.analyzer.core.IKSegmenter;

import org.wltea.analyzer.core.Lexeme;

import java.io.IOException;

import java.io.StringReader;

import java.util.*;

public class Test {

    /**

     * 对语句进行分词

     * @param text 语句

     * @return 分词后的集合

     * @throws IOException

     */

    private static Map segment(String text) throws IOException {

        Map<String,Integer> map = new HashMap<String,Integer>();

        StringReader re = new StringReader(text);
　　　

        IKSegmenter ik = new IKSegmenter(re, false);//true 使用smart分词，false使用最小颗粒分词

Lexeme lex; while ((lex = ik.next()) != null) { if(lex.getLexemeText().length()>1){ if(map.containsKey(lex.getLexemeText())){ map.put(lex.getLexemeText(),map.get(lex.getLexemeText())+1); }else{ map.put(lex.getLexemeText(),1); } } } return map; } public static void main(String[] args) throws IOException { Map<String,Integer> map = segment("中国，中国，我爱你"); System.out.println(map.toString()); } }

输出结果：

分词Utl:

IKanalyzer分词器分词并且统计词频的更多相关文章

Atitit..状态机与词法分析通用分词器分词引擎的设计与实现 attilax总结
Atitit..状态机与词法分析通用分词器分词引擎的设计与实现 attilax总结 1. 状态机理论参考1 2. 词法分析理论1 3. 词法分析实例2 4. ---code fsm 状态机通用 ...
Atitit. camel分词器分词引擎 camel拆分的实现设计
Atitit. camel分词器分词引擎 camel拆分的实现设计 1. camel分词器1 1.1. 实现的界定符号大写字母小写字母数字1 1.2. 特殊处理对于JSONObject 多个大写 ...
如何使用Pig集成分词器来统计新闻词频？
散仙在上篇文章中,介绍过如何使用Pig来进行词频统计,整个流程呢,也是非常简单,只有短短5行代码搞定,这是由于Pig的内置函数TOKENIZE这个UDF封装了单词分割的核心流程,当然,我们的需求是各种 ...
2.IKAnalyzer 中文分词器配置和使用
一.配置 IKAnalyzer 中文分词器配置,简单,超简单. IKAnalyzer 中文分词器下载,注意版本问题,貌似出现向下不兼容的问题,solr的客户端界面Logging会提示错误. 给出我配置 ...
ElasticSearch最全分词器比较及使用方法
介绍:ElasticSearch 是一个基于 Lucene 的搜索服务器.它提供了一个分布式多用户能力的全文搜索引擎,基于 RESTful web 接口.Elasticsearch 是用 Java 开 ...
Elastic Search中normalization和分词器
为key_words提供更加完整的倒排索引. 如:时态转化(like | liked),单复数转化(man | men),全写简写(china | cn),同义词(small | little)等. ...
Apache Lucene(全文检索引擎)—分词器
目录返回目录:http://www.cnblogs.com/hanyinglong/p/5464604.html 本项目Demo已上传GitHub,欢迎大家fork下载学习:https://gith ...
Lucene第二篇【抽取工具类、索引库优化、分词器、高亮、摘要、排序、多条件搜索】
对Lucene代码优化我们再次看回我们上一篇快速入门写过的代码,我来截取一些有代表性的: 以下代码在把数据填充到索引库,和从索引库查询数据的时候,都出现了.是重复代码! Directory dire ...
Lucene.net(4.8.0) 学习问题记录五: JIEba分词和Lucene的结合，以及对分词器的思考
前言:目前自己在做使用Lucene.net和PanGu分词实现全文检索的工作,不过自己是把别人做好的项目进行迁移.因为项目整体要迁移到ASP.NET Core 2.0版本,而Lucene使用的版本是3 ...

随机推荐

docker面试整理
为什么要使用docker https://www.cnblogs.com/AshOfTime/p/10755479.html docker的使用场景 docker和虚拟机比较的优势 https: ...
将docker镜像上传到docker hub
Spring 简单使用IoC与DI——XML配置
目录 Spring简介导入jar包 Spring配置文件 Spring的IoC IoC简介快速使用IoC Spring创建对象的三种方式使用构造方法使用实例工厂使用静态静态工厂 Spring ...
使用Crowd集成Confluence与JIRA
一. 独立安装Crowd,步骤1-步骤13的内容二. 设置Confluence使用Crowd进行认证.步骤14-18的内容三. 设置JIRA使用Crowd进行认证,并使用Confluence的组织机构 ...
oracle：TNS:监听程序无法分发客户机连接
挂上vpn的时候,PL/SQL连接到oracle的时候,显示ORA-12518:监听程序无法分发客户机连接.如下图: 一.[问题描述] 最近,在系统高峰期的时候,会提示如上的错误,致使无法连接到服务器 ...
Shell命令-文件及目录操作之mkdir、mv
文件及目录操作 - mkdir.mv 1.mkdir:创建目录 mkdir命令的功能说明 mkdir命令用于创建目录,默认情况下,要创建的目录已存在,会提示文件存在,不会继续创建目录. mkdir命令 ...
Shell命令-文件及目录操作之pwd、rm
文件及目录操作 - pwd.rm 1.pwd:显示当前所在位置信息 pwd命令的功能说明 pwd命令用于显示当前工作目录的绝对路径,以便在各个目录间来回切换. pwd命令的语法格式 pwd [OPTI ...
CKEditor 4.5 filetools, XHR.withCredentials = true,
var editor = CKEDITOR.replace( 'editor1', { extraPlugins: 'uploadimage,filetools', imageUploadUrl: ' ...
python中的编码问题
遇到的问题: (1)ValueError: source code string cannot contain null bytes 发现文件的编码被改成了UTF-16BE,使用pycharm设置项目 ...
xadmin后台导入 excel 功能拓展
新建 excel 文件在 xadmin 的 plugins 下添加一个 excel.py # _*_ coding:utf-8 _*_ __author__ = "yangtuo" ...

IKanalyzer分词器分词并且统计词频

IKanalyzer分词器分词并且统计词频的更多相关文章

随机推荐

热门专题