HanLP的分词统计

HanLP的分词效果
鄙人研究了HanLP，他的分词效果确实还可以，而且速度也比较快，10的数据是9000毫秒

@SneakyThrows
@Override
public LinkedHashMap<String, Integer> hotWordsCount(String text) {
    // 存放结果的集合
    LinkedHashMap<String, Integer> linkedHashMap = new LinkedHashMap<>();
    // 获取停用词词库的路径
    String stopWordPath = ClassUtils.getDefaultClassLoader().getResource("static/dictionary/stopwords.txt").getPath();
    // 读取停用词表
    BufferedReader br = new BufferedReader(new FileReader(stopWordPath));
    //调用HanLP.segment()对句子进行分词处理
    List<Term> terms = HanLP.segment(text);
    // 使用readLine方法，一次读一行，读取待处理文本
    ArrayList<String> stopWordList = new ArrayList();
    String stopWord;
    while ((stopWord = br.readLine()) != null) {
        stopWordList.add(stopWord);
    }
    for (Term term : terms) {
        // 判断是否为数字,如果是数字直接选择跳过
        if (Pattern.compile("[0-9]*").matcher(term.word).matches()) {
            continue;
        }
        if (term.word.equals("\n")) {
            continue;
        }
        if (term.word.equals("\r")) {
            continue;
        }
        // 如果有停用词
        if (stopWordList.contains(term.word.trim())) {
            continue;
        }
        if (stopWordList.contains(term.word.replace(" ", ""))) {
            continue;
        }
        if (term.word.contains("/")) {
            continue;
        }
        // 判断长度
        if (term.word.length() >= 2) {
            // 说明是第一次
            if (linkedHashMap.get(term.word) == null) {
                linkedHashMap.put(term.word, 1);
            } else {
                linkedHashMap.put(term.word, linkedHashMap.get(term.word) + 1);
            }
        }
    }
    return linkedHashMap;
}

HanLP的分词统计的更多相关文章

R(八): R分词统计-老九门
分析文本内容基本的步骤:提取文本中的词语 -> 统计词语频率 -> 词频属性可视化.词频:能反映词语在文本中的重要性,一般越重要的词语,在文本中出现的次数就会越多.词云:让词语的频率属性可 ...
lucene6+HanLP中文分词
1.前言前一阵把博客换了个模版,模版提供了一个搜索按钮,这让我想起一直以来都想折腾的全文搜索技术,于是就用lucene6.2.1加上HanLP的分词插件做了这么一个模块CSearch.效果看这里:h ...
菜鸟如何使用hanlp做分词的过程记录
菜鸟如何使用hanlp做分词的过程记录最近在学习hanlp的内容,准备在节后看看有没有时间整理一波hanlp分享下,应该还是会像之前分享DKHadoop一样的方式吧.把整个学习的过程中截图在配文字的 ...
全文检索Solr集成HanLP中文分词
以前发布过HanLP的Lucene插件,后来很多人跟我说其实Solr更流行(反正我是觉得既然Solr是Lucene的子项目,那么稍微改改配置就能支持Solr),于是就抽空做了个Solr插件出来,开源在 ...
Elasticsearch：hanlp 中文分词器
HanLP 中文分词器是一个开源的分词器,是专为Elasticsearch而设计的.它是基于HanLP,并提供了HanLP中大部分的分词方式.它的源码位于: https://github.com/Ke ...
全文检索Solr集成HanLP中文分词【转】
以前发布过HanLP的Lucene插件,后来很多人跟我说其实Solr更流行(反正我是觉得既然Solr是Lucene的子项目,那么稍微改改配置就能支持Solr),于是就抽空做了个Solr插件出来,开源在 ...
HanLP中文分词Lucene插件
基于HanLP,支持包括Solr(7.x)在内的任何基于Lucene(7.x)的系统. Maven <dependency> <groupId>com.hankcs.nlp&l ...
jieba库分词统计
代码在github网站,https://github.com/chaigee/chaigee,中的z3.py文件 py.txt为团队中文简介文件代码运行后词频统计使用xlwt库将数据发送到excel ...
仿分词统计的MapReduce 程序。
HDFS 数据格式 : 举例单条数据:02-26 08:01:56 [qtp512249001-42] INFO async-statistics - class com.spring.aop.S ...

随机推荐

Poi Excel 设置列宽计算公式
int width = 40;sheet.setColumnWidth(0,252*width+323); 作者:彼岸舞时间:2020\07\27 内容关于:工作中用到的小技术本文来源于网络,只做 ...
AWD攻防技战法
round1 弱口令 cat /etc/passwd 查看用户信息修改用户密码(passwd username) 通过ssh弱口令批量getshell (通过msf的auxiliary/sca ...
ubuntu nodejs+npm 前端环境部署
起因安装node.js / npm (npm:6.9.0 / nodejs:v10.21.0) 软连接的添加和删除 node.js 介绍 Node.js是一个Javascript运行环境(runti ...
SSM框架中添加写日志功能
前提:要导入log4j的jar包在web.xml中输入:  <context-param> <param-name>log4jConfigL ...
Mybatis如何执行Select语句，你真的知道吗？
持续原创输出,点击上方蓝字关注我吧作者:不才陈某博客:https://chenjiabing666.github.io 前言本篇文章是Myabtis源码分析的第三篇,前两篇分别介绍了Mybati ...
adb安装apk包提示protocol failure问题
截图来自CSDN,待验证
C/C++ 宏操作小技巧
Abstract 之前写了一个非常mini的log库(也不算库把,自己瞎jb写的),里面几乎都是宏的实现.这里打算趁热打铁,把自己知道的几下子都贴出来,后续如果有新的收获会更新这个博文. 文笔拙劣,主 ...
Linux打包压缩解压工具
第1章 Linux 打包压缩解压工具一.压缩.解压工具 compress/uncompress gzip/gunzip bzip2/bunzip2/ bzcat xz/unxz/ xzcat ...
[LeetCode]66. 加一（数组）
###题目给定一个由整数组成的非空数组所表示的非负整数,在该数的基础上加一. 最高位数字存放在数组的首位, 数组中每个元素只存储单个数字. 你可以假设除了整数 0 之外,这个整数不会以零开头. 示例 ...
mariadb 数据库集群配置
mariadb集群配置(主从和多主) mariadb主从主从多用于网站架构,因为主从的同步机制是异步的,数据的同步有一定延迟,也就是说有可能会造成数据的丢失,但是性能比较好,因此网站大多数用的是 ...

HanLP的分词统计

HanLP的分词统计的更多相关文章

随机推荐

热门专题