ansj分词器使用记录

//最简单实例

String ruiec = “分词测试123456100名”;

            //剔除指定的分词

                s.insertStopWords("100名");

                //剔除标点符号(w)

                s.insertStopNatures("w");

                //删除指定字

                s.insertStopRegexes("请.*?");

 String result1=ToAnalysis.parse(ruiec).recognition(s).toStringWithOutNature().replaceAll(","," ");

System.out.println(result1);

以上是使用ansj分词器的最简单实例。

import org.ansj.app.keyword.KeyWordComputer;

import org.ansj.app.keyword.Keyword;

import org.ansj.domain.Result;

import org.ansj.domain.Term;

import org.ansj.recognition.impl.StopRecognition;

import org.ansj.splitWord.analysis.ToAnalysis;

import java.util.*;

/**

 * Created by Liu

 */

public class SplitWordsByAnsj {

    public Keyword spiltword(String word) {

        KeyWordComputer<?> kwc = new KeyWordComputer(5);

        StopRecognition s = new StopRecognition();

                List<Keyword> result=kwc.computeArticleTfidf(word);

                 return result.get(0);

    }

    public static void main(String[] args) {

        String word = "政务云是指通过云计算技术，统筹机房、计算、应用支撑、信息资源等，发挥云计算的虚拟化、高可靠性、高通用性、高可扩展性，使其数据处理快速、按需、弹性服务，为政府行业提供基础设施、支撑软件、应用系统、信息资源、运行保障和信息安全等综合服务平台。";

        SplitWordsByAnsj ansj= new SplitWordsByAnsj();

        System.out.println(ansj.spiltword(word).toString());//词组

        System.out.println(ansj.spiltword(word).getScore());//词组的权重

    }

}

以上是将一个句子分为几个词组，并展示出词组在句子中所占的权重，根据权重大小输出

KeyWordComputer<?> kwc = new KeyWordComputer(5)可以设置

输出词组的个数

public class SplitWordsByAnsj {

    public Keyword spiltword(String title,String content) {

        KeyWordComputer<?> kwc = new KeyWordComputer(5);

        StopRecognition s = new StopRecognition();

                //List<Keyword> result=kwc.computeArticleTfidf(word);

                List<Keyword> result1=kwc.computeArticleTfidf(title, content);

                 return result1.get(0);

    }

    public static void main(String[] args) {

        String title ="政务云是云计算技术";

        String content = "政务云（Government Cloud）是指通过云计算技术，统筹机房、计算、应用支撑、信息资源等，发挥云计算的虚拟化、高可靠性、高通用性、高可扩展性，使其数据处理快速、按需、弹性服务，为政府行业提供基础设施、支撑软件、应用系统、信息资源、运行保障和信息安全等综合服务平台。";

        SplitWordsByAnsj ansj= new SplitWordsByAnsj();

        System.out.println(ansj.spiltword(title,content).toString());//词组

        System.out.println(ansj.spiltword(title,content).getScore());//词组的权重

    }

}

以上是根据标题将内容分为与标题相关的词组，即关键词

数据包

ansj分词器使用记录的更多相关文章

elasticsearch使用ansj分词器
目前elasticsearch的版本已经更新到7.0以上了,不过由于客户需要5.2.2版本的elasticsearch,所以还是需要安装的,并且安装上ansj分词器.在部署ES的时候,采用容器的方式进 ...
Lucene.net(4.8.0)+PanGu分词器问题记录一:分词器Analyzer的构造和内部成员ReuseStategy
前言:目前自己在做使用Lucene.net和PanGu分词实现全文检索的工作,不过自己是把别人做好的项目进行迁移.因为项目整体要迁移到ASP.NET Core 2.0版本,而Lucene使用的版本是3 ...
elasticsearch安装ansj分词器
1.概述 elasticsearch用于搜索引擎,需要设置一些分词器来优化索引.常用的有ik_max_word: 会将文本做最细粒度的拆分.ik_smart: 会做最粗粒度的拆分.ansj等. ...
安装ansj分词器
项目地址:https://github.com/4onni/elasticsearch-analysis-ansj https://github.com/laigood/elasticsearch-a ...
ElasticSearch最全分词器比较及使用方法
介绍:ElasticSearch 是一个基于 Lucene 的搜索服务器.它提供了一个分布式多用户能力的全文搜索引擎,基于 RESTful web 接口.Elasticsearch 是用 Java 开 ...
11大Java开源中文分词器的使用方法和分词效果对比，当前几个主要的Lucene中文分词器的比较
本文的目标有两个: 1.学会使用11大Java开源中文分词器 2.对比分析11大Java开源中文分词器的分词效果本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码,至于效果哪个好,那 ...
11大Java开源中文分词器的使用方法和分词效果对比
本文的目标有两个: 1.学会使用11大Java开源中文分词器 2.对比分析11大Java开源中文分词器的分词效果本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码,至于效果哪个好,那 ...
ES-自然语言处理之中文分词器
前言中文分词是中文文本处理的一个基础步骤,也是中文人机自然语言交互的基础模块.不同于英文的是,中文句子中没有词的界限,因此在进行中文自然语言处理时,通常需要先进行分词,分词效果将直接影响词性.句法树 ...
如何使用Pig集成分词器来统计新闻词频？
散仙在上篇文章中,介绍过如何使用Pig来进行词频统计,整个流程呢,也是非常简单,只有短短5行代码搞定,这是由于Pig的内置函数TOKENIZE这个UDF封装了单词分割的核心流程,当然,我们的需求是各种 ...

随机推荐

三十二：数据库之SQLAlchemy.query函数可查询的数据和聚合函数
准备工作 from sqlalchemy import create_engine, Column, Integer, String, Floatfrom sqlalchemy.ext.declara ...
Elastic search中使用nested类型的内嵌对象
在大数据的应用环境中,往往使用反范式设计来提高读写性能. 假设我们有个类似简书的系统,系统里有文章,用户也可以对文章进行赞赏.在关系型数据库中,如果按照数据库范式设计,需要两张表:一张文章表和一张赞赏 ...
转·带你用实例理解C语言回调函数
原文出处:https://segmentfault.com/a/1190000008293902?utm_source=tag-newest 前言: 如不懂函数指针,请先查阅关于函数指针内容的资料(h ...
tomcat7远程代码执行 ImageMagick 命令执行漏洞
tomcat7远程代码执行 windows / linux ::$DATA ImageMagick 命令执行漏洞(CVE-2016–3714) base64编码
浅谈spring配置定时任务的几种方式
网上看到好多关于定时任务的讲解,以前只简单使用过注解方式,今天项目中看到基于配置的方式实现定时任务,自己做个总结,作为备忘录吧. 基于注解方式的定时任务首先spring-mvc.xml的配置文件中添 ...
CentOS8Linux中配置网易云网络yum源安装软件
在CentOS8Linux中配置网易云网络yum源安装软件前提是你的操作系统是CentOS-Linux 你已经配置好了本地yum源,并且你的网络是可用的. 本地yum源配置请参考:https://w ...
百度之星 2019 预赛三 A 最短路 1
题目链接分析异或运算满足「三角不等式」. $\forall a, b, c \in \mathbb{Z}_{\ge 0}$,有 $a \xor b \le (a \xor c) + (c \xor ...
Python 把较长的一行代码分成多行的技巧
概述:在写代码过程中,经常遇到一行代码很长的情况.为了让代码显得整齐干净,就需要把一行代码分成多行来写,Python中有三种小技巧可以实现该功能: 1.用反斜杠\链接多行代码示例: ...
抖音很火的存钱计划，让python告诉你总共可以存到多少钱！
抖音上有个很火的存钱计划,说是第一天存1块钱,第二天存2块钱,第三天存3块钱.....依此类推存365天,总共可以存到多少钱,我们现在用python告诉你怎么做: #定个初始存入金额 money = ...
对Elastic集群内部配置TLS加密通信及身份验证
1.介绍官方宣布从6.8和7.1开始,免费提供多项安全功能.其中包括tls加密通信,基于角色访问控制等功能. 可以使用企业CA证书来完成这一步骤,但是一般情况下,我们可以通过elasticsearc ...

ansj分词器使用记录

ansj分词器使用记录的更多相关文章

随机推荐

热门专题