IKanalyzer分词器分词并且统计词频

<dependency>

   <groupId>com.janeluo</groupId>

   <artifactId>ikanalyzer</artifactId>

   <version>2012_u6</version>

</dependency>

首先引入 ikanalyzer相关jar包

/**

 * @Description:

 * @Author: lizhang

 * @CreateDate: 2018/7/31 22:35

 * @UpdateDate: 2018/7/31 22:35

 * @Version: 1.0

 */

import org.wltea.analyzer.core.IKSegmenter;

import org.wltea.analyzer.core.Lexeme;

import java.io.IOException;

import java.io.StringReader;

import java.util.*;

public class Test {

    /**

     * 对语句进行分词

     * @param text 语句

     * @return 分词后的集合

     * @throws IOException

     */

    private static Map segment(String text) throws IOException {

        Map<String,Integer> map = new HashMap<String,Integer>();

        StringReader re = new StringReader(text);
　　　

        IKSegmenter ik = new IKSegmenter(re, false);//true 使用smart分词，false使用最小颗粒分词

Lexeme lex; while ((lex = ik.next()) != null) { if(lex.getLexemeText().length()>1){ if(map.containsKey(lex.getLexemeText())){ map.put(lex.getLexemeText(),map.get(lex.getLexemeText())+1); }else{ map.put(lex.getLexemeText(),1); } } } return map; } public static void main(String[] args) throws IOException { Map<String,Integer> map = segment("中国，中国，我爱你"); System.out.println(map.toString()); } }

输出结果：

分词Utl:

IKanalyzer分词器分词并且统计词频的更多相关文章

Atitit..状态机与词法分析通用分词器分词引擎的设计与实现 attilax总结
Atitit..状态机与词法分析通用分词器分词引擎的设计与实现 attilax总结 1. 状态机理论参考1 2. 词法分析理论1 3. 词法分析实例2 4. ---code fsm 状态机通用 ...
Atitit. camel分词器分词引擎 camel拆分的实现设计
Atitit. camel分词器分词引擎 camel拆分的实现设计 1. camel分词器1 1.1. 实现的界定符号大写字母小写字母数字1 1.2. 特殊处理对于JSONObject 多个大写 ...
如何使用Pig集成分词器来统计新闻词频？
散仙在上篇文章中,介绍过如何使用Pig来进行词频统计,整个流程呢,也是非常简单,只有短短5行代码搞定,这是由于Pig的内置函数TOKENIZE这个UDF封装了单词分割的核心流程,当然,我们的需求是各种 ...
2.IKAnalyzer 中文分词器配置和使用
一.配置 IKAnalyzer 中文分词器配置,简单,超简单. IKAnalyzer 中文分词器下载,注意版本问题,貌似出现向下不兼容的问题,solr的客户端界面Logging会提示错误. 给出我配置 ...
ElasticSearch最全分词器比较及使用方法
介绍:ElasticSearch 是一个基于 Lucene 的搜索服务器.它提供了一个分布式多用户能力的全文搜索引擎,基于 RESTful web 接口.Elasticsearch 是用 Java 开 ...
Elastic Search中normalization和分词器
为key_words提供更加完整的倒排索引. 如:时态转化(like | liked),单复数转化(man | men),全写简写(china | cn),同义词(small | little)等. ...
Apache Lucene(全文检索引擎)—分词器
目录返回目录:http://www.cnblogs.com/hanyinglong/p/5464604.html 本项目Demo已上传GitHub,欢迎大家fork下载学习:https://gith ...
Lucene第二篇【抽取工具类、索引库优化、分词器、高亮、摘要、排序、多条件搜索】
对Lucene代码优化我们再次看回我们上一篇快速入门写过的代码,我来截取一些有代表性的: 以下代码在把数据填充到索引库,和从索引库查询数据的时候,都出现了.是重复代码! Directory dire ...
Lucene.net(4.8.0) 学习问题记录五: JIEba分词和Lucene的结合，以及对分词器的思考
前言:目前自己在做使用Lucene.net和PanGu分词实现全文检索的工作,不过自己是把别人做好的项目进行迁移.因为项目整体要迁移到ASP.NET Core 2.0版本,而Lucene使用的版本是3 ...

随机推荐

Mysql共享锁、排他锁、悲观锁、乐观锁及其使用场景
一.相关名词 |--表级锁(锁定整个表) |--页级锁(锁定一页) |--行级锁(锁定一行) |--共享锁(S锁,MyISAM 叫做读锁) |--排他锁(X锁,MyISAM 叫做写锁) |--悲观锁( ...
robot中简单的使用键盘按键，和对象无关
参考链接: https://blog.csdn.net/smallsmallmouse/article/details/78689675 1.在python中的代码 from selenium imp ...
Linux内核入门到放弃-无持久存储的文件系统-《深入Linux内核架构》笔记
proc文件系统 proc文件系统是一种虚拟的文件系统,其信息不能从块设备读取.只有在读取文件内容时,才动态生成相应的信息. /proc的内容内存管理系统进程的特征数据文件系统设备驱动程序系 ...
redis 初步认识四（redis锁，防并发）
using System; namespace ConsoleAppRedis { class Program { static void Main(string[] args) { //第一种,无登 ...
【原创】讲讲亿级PV的负载均衡架构
引言本来没想写这个题材的,为了某某童鞋能够更好的茁壮成长,临时写一篇负载均衡的.负载均衡,大家可能听过什么3层负载均衡.4层负载均衡.7层负载均衡什么的?那这是怎么分的呢,ok,是根据osi七层网络 ...
使用React全家桶搭建一个后台管理系统
引子学生时代为了掌握某个知识点会不断地做习题,做总结,步入岗位之后何尝不是一样呢?做业务就如同做习题,如果‘课后’适当地进行总结,必然更快地提升自己的水平. 由于公司采用的react+node的技术 ...
Golang常见误区(一)
1.左大括号一般不能单独一行在其他大多数语言中,{ 的位置你自行决定.Go 比较特别,遵守分号注入规则(automatic semicolon injection):编译器会在每行代码尾部特定分隔符 ...
Linux使用百度云
导读百度云没有Linux客户端,于是有大神用Go语言写出来一个叫BaiduPCS-Go的命令行盘客户端,可以通过终端操作百度云盘,在Linux上实现上传下载.但是因为是命令行版本的,对没有命令行使用 ...
(hdu) 4857 逃生（拓扑排序+优先队列）
题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=4857 Problem Description 糟糕的事情发生啦,现在大家都忙着逃命.但是逃命的通道很窄 ...
控制结构(5): 必经之地（using）
// 上一篇:局部化(localization) // 下一篇:最近最少使用(LRU) 基于语言提供的基本控制结构,更好地组织和表达程序,需要良好的控制结构. 前情回顾上一周,我们谈到了分支/卫语句 ...

IKanalyzer分词器分词并且统计词频

IKanalyzer分词器分词并且统计词频的更多相关文章

随机推荐

热门专题