Classifier4J的中文支持

Classifier4J是一个轻量级的分类工具，支持贝叶斯分类、向量空间模型、信息摘要等。然而它却不支持中文，异常信息大致如下：

Exception in thread "main" java.util.NoSuchElementException

	at java.util.HashMap$HashIterator.nextEntry(HashMap.java:813)

	at java.util.HashMap$ValueIterator.next(HashMap.java:839)

	at java.util.Collections.max(Collections.java:657)

主要原因在于Classifier4J自带的DefaultTokenizer使用正则表达式“\W”进行分词，这种方式对英文还好，因为英文有着天然的分隔符，然而对中文则是不适用的。因而我们需要自己实现Classifier4J对中文的支持，分词工具选用庖丁分词。在包 net.sf.classifier4J中加入以下类：

package net.sf.classifier4J;

import java.io.IOException;

import java.io.StringReader;

import java.util.Vector;

import org.apache.lucene.analysis.Analyzer;

import org.apache.lucene.analysis.TokenStream;

import org.apache.lucene.analysis.tokenattributes.TermAttribute;

import net.paoding.analysis.analyzer.PaodingAnalyzer;

/**

 * @author hongyu

 */

public class PaodingTokenizer implements ITokenizer {

	private Analyzer paoding;

	public PaodingTokenizer() {

		paoding = new PaodingAnalyzer();

	}

	@Override

	public String[] tokenize(String input) {

		if(input != null) {

			StringReader inputReader = new StringReader(input);

			TokenStream ts = paoding.tokenStream("", inputReader);

			TermAttribute termAtt = (TermAttribute)ts.getAttribute(TermAttribute.class);

			Vector<String> tokens = new Vector<String>();

			try {

				while(ts.incrementToken()) {

					tokens.add(termAtt.term());

				}

				return tokens.toArray(new String[0]);

			} catch (IOException e) {

				return new String[0];

			}

		} else {

			return new String[0];

		}

	}

}

net.sf.classifier4J.Utilities的第二个构造方法修改如下：

    public static Map getWordFrequency(String input, boolean caseSensitive) {

        //return getWordFrequency(input, caseSensitive, new DefaultTokenizer(), new DefaultStopWordsProvider());

    	return getWordFrequency(input, caseSensitive, new PaodingTokenizer(), new DefaultStopWordsProvider());

    }

net.sf.classifier4J.vector.VectorClassifier中第一个构造方法第一行做如下修改：

        //tokenizer = new DefaultTokenizer();

    	tokenizer = new PaodingTokenizer();

另外还有一些其他小的bug：

1，为了能够正确处理查询字符串出现在首部的情况，SimpleClassifier最后一个方法修改如下：

    public double classify(String input) {

        if ((input != null) && (input.indexOf(searchWord) >= 0)) {

            return 1;

        } else {

            return 0;

        }

    }

2，为了能够正确的对中文信息提取摘要，Utilities的getSentences方法修改如下：

    public static String[] getSentences(String input) {

        if (input == null) {

            return new String[0];

        } else {

            // split on a ".", a "!", a "?" followed by a space or EOL

            //return input.split("(\\.|!|\\?)+(\\s|\\z)");

            return input.split("(\\。|\\.|!|\\?)+(\\s|\\z)?");

        }

    }

3，中文句子一般以句号结尾，因而SimpleSummariser中第122行修改为：

result.append("。");

以下是几个简单的测试类：

1，基本分类器：

public class BasicUsage {

	public static void main(String args[]) throws Exception {

		SimpleClassifier classifier = new SimpleClassifier();

		classifier.setSearchWord("中华");

		String sentence = "中华人民共和国";

		System.out.println("The string '" + sentence +

				"' contains the word '中华': " + classifier.isMatch(sentence));

		System.out.println("The match rate is: " + classifier.classify(sentence));

	}

}

运行结果：

The string '中华人民共和国' contains the word '中华': true

The match rate is: 1.0

2，贝叶斯分类器：

public class Bayesian {

	public static void main(String args[]) throws Exception {

		IWordsDataSource wds = new SimpleWordsDataSource();

		IClassifier classifier = new BayesianClassifier(wds);

		System.out.println( "Matches = " + classifier.classify("中华人民共和国") );

	}

}

运行结果：

Matches = 0.5

3，信息摘要：

public class Summariser {

	public static void main(String args[]) {

		String input = "中华人民共和国简称中国，位于欧亚大陆东部，太平洋西岸。中国具有五千年的文明史，是世界四大文明古国之一。";

		ISummariser summariser = new SimpleSummariser();

		String result = summariser.summarise(input, 1);

		System.out.println(result);

	}

}

运行结果：

中华人民共和国简称中国，位于欧亚大陆东部，太平洋西岸。

4，向量空间模型：

public class Vector {

	public static void main(String args[]) throws Exception {

		TermVectorStorage storage = new HashMapTermVectorStorage();

		VectorClassifier vc = new VectorClassifier(storage);

		vc.teachMatch("草本","含羞草");

		double result = vc.classify("草本", "含羞草");

		System.out.println(result);

	}

}

运行结果：

0.9999999999999998

最后，Classifier4J只定义了英文中的停用词，对于中文而言，庖丁分词的词典中已经包含了停用词。

Classifier4J的中文支持的更多相关文章

CentOS安装中文支持
部分文档突然成乱码了. 解决方法: 1.安装中文支持包 # yum groupinstall "Chinese Support" 2 修改# /etc/sysconfig/i18n ...
linux环境下安装sphinx中文支持分词搜索(coreseek+mmseg)
linux环境下安装sphinx中文支持分词搜索(coreseek+mmseg) 2013-11-10 16:51:14 分类: 系统运维为什么要写这篇文章? 答:通过常规的三大步(./confi ...
移动开发之浅析cocos2d-x的中文支持问题
题记:这阵子一直在学习cocos2d-x,其跨平台的特性确实让人舒爽,引擎的框架概念也很成熟,虽然相应的第三方工具略显单薄,但也无愧是一件移动开发的利器啊,有兴趣的朋友有时间就多了解吧. 使用引擎的过 ...
Jupyter Notebook PDF输出的中文支持
Jupyter Notebook是什么 Jupyter Notebook是ipython Notebook 的升级.Jupyter能够将实时代码,公式,可视化图表以Cell的方式组织在一起,形成一个对 ...
inux 安装中文支持包及中文字符集配置 +i18n
由于某些原因系统安装时未安装中文支持,导致后续应用出现中文方块乱码现象, 解决方法很简单,当然不是重装,只需以下三步即可搞定. .安装中文包: yum -y groupinstall chinese- ...
linux 安装中文支持包及中文字符集配置
由于某些原因系统安装时未安装中文支持,导致后续应用出现中文方块乱码现象,解决方法很简单,当然不是重装,只需以下三步即可搞定. 1.安装中文包: #yum -y groupinstall chinese ...
OpenReports中文支持方案
此文章在<OpenReports中文支持完全解决方案.doc>的基础上做优化,并贴出代码.已测试通过. 一.主要解决的问题 1 页面显示支持中文 2 与服务器或数据库的交互支持中文 3 查 ...
解决Boost.Regex对中文支持不好的问题
解决Boost.Regex对中文支持不好的问题 - k.m.Cao - 博客频道 - CSDN.NET 解决Boost.Regex对中文支持不好的问题 k.m.Caov0.1 问题的提出: Boo ...
centos安装中文支持（转）
安装中文支持包. yum install fonts-chineseyum install fonts-ISO8859-2 -------- 一.安装中文支持方法1.在安装光盘中找到一下包进行安装.r ...

随机推荐

一个基于PDO的数据库操作类(新) 一个PDO事务实例
<?php /* * 作者:胡睿 * 日期:2011/03/19 * 电邮:hooray0905@foxmail.com * * 20110319 * 常用数据库操作,如:增删改查,获取单条记录 ...
文件IO
在unix世界中视一切为文件,无论最基本的文本文件还是网络设备或是u盘,在内核看来它们的本质都是一样的.大多数文件IO操作只需要用到5个函数:open . read . write . lseek 以 ...
【django】django深入学习笔记
官网教程 DjangoBook Models 模型一个类代表一个模型类中的属性对应了对应数据表的数据 *makemirgations命令生成数据库脚本(还未同步过数据库,第一次要用到) - > ...
[转] gc tips(1)
所有应用软件都需要管理内存,一个应用软件的内存管理系统包括了如下准则:什么时候派发内存,要派发多少内存,什么时候把东西放到回收站,以及什么时候清空回收站.MMgc是Flash Player几乎所有内存 ...
《Unix网络编程》卷2 读书笔记第1章-简介
1. 概述 2. 进程.线程与信息共享 Unix进程间的信息共享有多种方式:注意下图中内核的位置左边的两个进程共享存留于文件系统中某个文件上的某些信息.为访问这些信息,每个进程都得穿越内核. 中 ...
Java中String为什么是final
final概念: 如果一个类被声明为final,意味着它不能再派生出新的子类,不能作为父亲被继承.因此,一个类不能既被声明为abstract,又被声明为final. 将变量或方法声明为final,可以 ...
PL/SQL 下邮件发送程序
对DBA而言,尽管在os级别下发送邮件是轻而易举的事情,然而很多时候我们也需要在PL/SQL中来发送邮件,比如监控job的执行状况等.本文根据网友(源作者未考证)的代码将其改装并封装到了package ...
Yii 显示错误信息(Fatal Error,Warning)在页面上
Yii由于设计上对于一些php奇怪问题的顾虑,并没有像cake,kohana一样把php错误信息打印在页面上. 遇到错误时,只是显示白页,这让没有经验的programmer会一头雾水. 实际上通常vh ...
DevExpress 14.2.3源码编译 z
一.准备 1.准备一台Windows 8.1机器,安装VS2013 2.准备一台Windows 8.1机器,安装VS2010 XP的系统肯定不行,因为有不少的运行库不支持 Windows ...
Android圆形图片--ImageView
[ RoundImageView.java ] package com.dxd.roundimageview; import android.content.Context; import andro ...

Classifier4J的中文支持

Classifier4J的中文支持的更多相关文章

随机推荐

热门专题