Java——word分词·自定义词库

word：

https://github.com/ysc/word

word-1.3.1.jar　　需要JDK8
word-1.2.jar　　c语言给解析成了“语言”，自定义词库必须为UTF-8

　　　　　　　　程序一旦运行，停不下来！百度上百的主要是这个word分词，除了作者的微示例，没有别的例子，感觉全是作者自吹自擂出来的，不好用。

import java.util.List;

import org.apdplat.word.WordSegmenter;

import org.apdplat.word.dictionary.DictionaryFactory;

import org.apdplat.word.segmentation.Word;

import org.apdplat.word.util.WordConfTools;

public class WordCut {

    public static void main(String[] args) {

        分词("这节课我们讲授c语言里的结构体");

    }

    public static void 分词(String strSentence) {

        String strPath = System.getProperty("user.dir");

        WordConfTools.set("dic.path", "classpath:key.txt, " + strPath);

        DictionaryFactory.reload();// 更改词典路径之后，重新加载词典

        List<Word> words = WordSegmenter.segWithStopWords(strSentence);

        for (Word w : words) {

            System.out.print(w + "_");

        }

    }

}

工程文件夹下新建文件

key.txt

c语言

C语言

结构体

结果：

这_节_课_我_们_讲_授_c语言_里_的_结构体_

Java——word分词·自定义词库的更多相关文章

【自定义IK词典】Elasticsearch之中文分词器插件es-ik的自定义词库
Elasticsearch之中文分词器插件es-ik 针对一些特殊的词语在分词的时候也需要能够识别有人会问,那么,例如: 如果我想根据自己的本家姓氏来查询,如zhouls,姓氏“周”. 如 ...
ElasticSearch7.3学习(十五)----中文分词器(IK Analyzer)及自定义词库
1. 中文分词器 1.1 默认分词器先来看看ElasticSearch中默认的standard 分词器,对英文比较友好,但是对于中文来说就是按照字符拆分,不是那么友好. GET /_analyze ...
31.IK分词器配置文件讲解以及自定义词库
主要知识点: 知道IK默认的配置文件信息自定义词库一.ik配置文件 ik配置文件地址:es/plugins/ik/config目录 IKAnalyzer.cfg.xml:用 ...
30.IK分词器配置文件讲解以及自定义词库
主要知识点: 知道IK默认的配置文件信息自定义词库一.ik配置文件 ik配置文件地址:es/plugins/ik/config目录 IKAnalyzer.cfg.xml:用 ...
paip.禁用IKAnalyzer 的默认词库.仅仅使用自定义词库.
paip.禁用IKAnalyzer 的默认词库.仅仅使用自定义词库. 作者Attilax 艾龙, EMAIL:1466519819@qq.com 来源:attilax的专栏地址:http:// ...
paip..禁用mmseg 的默认词库. . 仅仅使用自定义词库from数据库.
paip..禁用mmseg 的默认词库. . 仅仅使用自定义词库from数据库. mmseg默认词库只能是文件格式...不好维护..要是不个词库放的个数据库里面走好维护兰.. 要实现2个目标..: 1 ...
Java——ikanalyzer分词·只用自定义词库
需要包:IKAnalyzer2012_FF_hf1.jarlucene-core-5.5.4.jar需要文件: IKAnalyzer.cfg.xmlext.dicstopword.dic 整理好的下载 ...
solr添加中文IK分词器,以及配置自定义词库
Solr是一个基于Lucene的Java搜索引擎服务器.Solr 提供了层面搜索.命中醒目显示并且支持多种输出格式(包括 XML/XSLT 和 JSON 格式).它易于安装和配置,而且附带了一个基于H ...
项目集成自动分词系统ansj，实现自定义词库
一,分词系统地址:https://github.com/NLPchina/ansj_seg 二,为什么选择ansj? 1.项目需求: 我们平台要做手机售后的舆情分析,即对购买手机的用户的评论进行分析. ...

随机推荐

vsphere和vmware快照的不足之处
当快照创建时虚拟机执行一个读操作,hypervisor会检查快照VMDK,查看是否有被读取的区块存在.如果有,则从快照中为虚拟机提供这个区块,如果没有,虚拟机还需要去读取基础VMDK.如果只有一个快照 ...
SimpleEntity
项目地址 : https://github.com/kelin-xycs/SimpleEntity SimpleEntity 一个用 C# 实现的简单的持久层 Entity 实现 . 这是一个 ...
webpack 4 学习资料
webpack 4 学习资料资料网址 webpack 中文版 https://webpack.docschina.org/configuration/ webpack 4 教程 https://s ...
node api 之：fs
fs.readFile() 函数会缓存整个文件. 为了最小化内存占用,尽可能优先使用 fs.createReadStream().
通过阅读python subprocess源码尝试实现非阻塞读取stdout以及非阻塞wait
http://blog.chinaunix.net/uid-23504396-id-4661783.html 执行subprocess的时候,执行不是问题最麻烦的是获取进程执行后的回显来确认是否正确执 ...
thinkphp5 怎么获取当前的模块，控制器和方法名
//当前模块url地址 $request= Request::instance(); $module_name=$request->module(); $controller_name=$req ...
C#3.0：新特性
1.自动属性下面两种写法作用相同 1 public int Age { get; set;} 1 2 3 4 5 6 private int age; public int Age { get { ...
SourceInsight宏插件1(非常好用，强力推荐)
对于一直使用sourceinsight编辑C/C++代码的工程师们,sourceinsight是一个非常好用的编辑工具可以任意定位,跳转,回退,本人一直使用该工具做C/C++开发,sourceinsi ...
MySQL分析数据运行状态利器【SHOW PROCESSLIST】
这个博文,将只是简单的记录一下,我们的数据库操作和使用中,加索引加不上去,分析的过程,其实比较简单,就是看有没有连接进程还在操作表.有的话,将其停掉(不影响业务的场景下). 今天的主角是: SHOW ...
php代码覆盖率执行
我们做平台项目时,我会为整个项目核心架构拆分成三部分:前段(pc展示.mobile展示).网关.中间层中间层业务逻辑开发人员怎么保证自己的业务逻辑是严谨的,每个测试用例都run codecover呢 ...

Java——word分词·自定义词库

Java——word分词·自定义词库的更多相关文章

随机推荐

热门专题