基于weka的文本分类实现

weka介绍

参见

1)百度百科：http://baike.baidu.com/link?url=V9GKiFxiAoFkaUvPULJ7gK_xoEDnSfUNR1woed0YTmo20Wjo0wYo7uff4mq_wg3WzKhTZx4Ok0JFgtiYY19U4q

2)weka官网: http://www.cs.waikato.ac.nz/ml/weka/

简单文本分类实现：

此处文本为已处理好的文本向量空间模型，关于文本特征提取主要是基于TF-IDF算法对已分词文档进行特征抽取，然后基于已提取特征将所有文档表示为向量空间模型。

偷个小懒，就用weka自带的*.arff格式文档来做实现。

weka对于文本分类提供两种方式，一种是批量式文本分类，即将所有数据一次性放入内存进行分类处理，这种情况对内存有所要求；为适应大量数据的分类实现，另一种增量式

文本分类，允许分批次导入数据至内存进行分类，这样就避免了因数据集过大而内存不足的问题。具体实现如下：

1）采用增量式朴素贝叶斯算法进行分类

注：weka中所有增量式分类器都实现了UpdateableClassifier接口，该接口位于weka.classifiers包中。

 /**

      * train a classifier using trainSet,then evaluate the classifier on testSet

      * 分类分为两种：增量、批量

      * 此处为增量式分类：适用于训练集太大而内存有限的情况

      * 加载数据集（训练集or测试集），使用ArffLoader

      * @param trainSet:训练集路径

      * @param testSet:测试集路径

      * @return classifier

      *

      */

     private Classifier trainClassifierIncremental(String trainSet,String testSet){

         ArffLoader loader=new ArffLoader();

         Instances instances = null;

         NaiveBayesUpdateable naiveBayesUpdateable=null;

         try {

             //load data

             loader.setFile(new File(trainSet));

             instances=loader.getStructure();

     //        instances.setClassIndex(classIndex);  // 指定分类属性索引

             instances.setClassIndex(instances.numAttributes()-1); //默认最后一个属性为分类属性

             // train NaiveBayes ：incremental classifier

             naiveBayesUpdateable=new NaiveBayesUpdateable();

             naiveBayesUpdateable.buildClassifier(instances);

             Instance current;

             while((current=loader.getNextInstance(instances))!=null){

                 naiveBayesUpdateable.updateClassifier(current);

             }

             //evaluate classifier

             Instances testInstances=new Instances(new FileReader(testSet));

             testInstances.setClassIndex(testInstances.numAttributes()-1);

             Evaluation eval=new Evaluation(instances);

             eval.evaluateModel(naiveBayesUpdateable, testInstances);

             System.out.println(eval.toMatrixString());

             System.out.println(eval.toSummaryString());

             System.out.println(eval.toClassDetailsString());

         } catch (Exception e) {

             e.printStackTrace();

         }

         return naiveBayesUpdateable;

     }

增量式分类实现

其中，Evaluation类，是weka提供的对分类器分类效率进行评估的模块，通过该模块的调用，可观察分类器的各种性能，如召回率、准确率、F值等等。ArffLoader用来加载指

定路径的数据集，注意该数据集应为.arff格式。

2）采用决策树算法（J48）进行批量式分类

 /**

      * train a classifier using trainSet,then evaluate the classifier on testSet

      * 分类分为两种：增量、批量

      * 此处为批量式分类：适用于训练集能够在内存中存放的情况

      * 加载数据集（训练集or测试集），使用ArffLoader

      * @param trainSet:训练集路径

      * @param testSet:测试集路径

      * @return classifier

      *

      */

     private Classifier trainClassifierBatch(String trainSet,String testSet){

         ArffLoader loader=new ArffLoader();

         Instances instances = null;

         J48 tree=null;

         try {

             //load data

             loader.setFile(new File(trainSet));

 //            instances=loader.getStructure();

             instances=loader.getDataSet();

     //        instances.setClassIndex(classIndex);  // 指定分类属性索引

             instances.setClassIndex(instances.numAttributes()-1); //默认最后一个属性为分类属性

             // train NaiveBayes ：incremental classifier

             tree=new J48();

             tree.buildClassifier(instances);

             //evaluate classifier

             Instances testInstances=new Instances(new FileReader(testSet));

             testInstances.setClassIndex(testInstances.numAttributes()-1);

             Evaluation eval=new Evaluation(instances);

             eval.evaluateModel(tree, testInstances);

             System.out.println(eval.toMatrixString());

             System.out.println(eval.toSummaryString());

             System.out.println(eval.toClassDetailsString());

         } catch (Exception e) {

             e.printStackTrace();

         }

         return tree;

     }

批量式分类实现

3）关于分类器的评估

weka对于分类器的评估，除了上述明确划分训练集和测试集，然后以测试集来评估分类性能的方式，还提供了交叉验证方式，该方式适用于数据集只有一个（即没有明确划分出训练集和测试集）的情况，weka在Evaluation类中提供了一个crossValidateModel方法来实现交叉验证，该方法要求提供一个未训练的分类器，数据集，交叉验证折数，一个随机化种子。

 public void crossValidate(String dataSet){

         try {

             // load data

             Instances instances=new Instances(new FileReader(dataSet));

             //evaluate

             Evaluation eval=new Evaluation(instances);

             J48 tree=new J48();

             eval.crossValidateModel(tree, instances, 10, new Random(1));

             System.out.println(eval.toMatrixString());

             System.out.println(eval.toSummaryString());

             System.out.println(eval.toClassDetailsString());

         } catch (FileNotFoundException e) {

             System.out.println("dataSet not found...");

             e.printStackTrace();

         } catch (IOException e) {

             e.printStackTrace();

         } catch (Exception e) {

             e.printStackTrace();

         }

     }

交叉验证实现

此处实现采用10折交叉验证，随机化种子选取1.

4）对未分类实例进行分类

 /**

      * 利用已训练的分类模型对未分类数据集进行分类

      * @param dataSet:未分类数据集

      * @param cls：已训练好的分类模型

      * @param labeledSet：分类后数据存放路径

      */

     public void classifyInstances(String dataSet,Classifier cls,String labeledSet){

         try {

             // load unlabeled data and set class attribute

             Instances unlabeled=new Instances(new FileReader(dataSet));

             unlabeled.setClassIndex(unlabeled.numAttributes()-1);

             // create copy

             Instances labeled = new Instances(unlabeled);

             // label instances

             for (int i = 0; i < unlabeled.numInstances(); i++) {

                 double clsLabel = cls.classifyInstance(unlabeled.instance(i));

                 labeled.instance(i).setClassValue(clsLabel);

             }

             // save newly labeled data

             DataSink.write(labeledSet, labeled);

         } catch (FileNotFoundException e) {

             System.out.println("DataSet,File Not Found...");

             e.printStackTrace();

         } catch (IOException e) {

             e.printStackTrace();

         } catch (Exception e) {

             e.printStackTrace();

         }

     }

未分类实例分类实现

基于weka的文本分类实现的更多相关文章

tensorflow实现基于LSTM的文本分类方法
tensorflow实现基于LSTM的文本分类方法作者:u010223750 引言学习一段时间的tensor flow之后,想找个项目试试手,然后想起了之前在看Theano教程中的一个文本分类的实 ...
一文详解如何用 TensorFlow 实现基于 LSTM 的文本分类（附源码）
雷锋网按:本文作者陆池,原文载于作者个人博客,雷锋网已获授权. 引言学习一段时间的tensor flow之后,想找个项目试试手,然后想起了之前在看Theano教程中的一个文本分类的实例,这个星期就用 ...
基于SVMLight的文本分类
支持向量机(Support Vector Machine)是Cortes和Vapnik于1995年首先提出的,它在解决小样本 .非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等 ...
基于tensorflow的文本分类总结（数据集是复旦中文语料）
代码已上传到github:https://github.com/taishan1994/tensorflow-text-classification 往期精彩: 利用TfidfVectorizer进行 ...
Python 基于 NLP 的文本分类
这是前一段时间在做的事情,有些python库需要python3.5以上,所以mac请先升级 brew安装以下就好,然后Preference(comm+',')->Project: Text-Cl ...
NLP第9章 NLP 中用到的机器学习算法——基于统计学（文本分类和文本聚类）
基于Text-CNN模型的中文文本分类实战流川枫发表于AI星球订阅
Text-CNN 1.文本分类转眼学生生涯就结束了,在家待就业期间正好有一段空闲期,可以对曾经感兴趣的一些知识点进行总结. 本文介绍NLP中文本分类任务中核心流程进行了系统的介绍,文末给出一个基于T ...
基于Text-CNN模型的中文文本分类实战
Text-CNN 1.文本分类转眼学生生涯就结束了,在家待就业期间正好有一段空闲期,可以对曾经感兴趣的一些知识点进行总结. 本文介绍NLP中文本分类任务中核心流程进行了系统的介绍,文末给出一个基于T ...
使用libsvm实现文本分类
@Hcy(黄灿奕) 文本分类,首先它是分类问题,应该对应着分类过程的两个重要的步骤,一个是使用训练数据集训练分类器,另一个就是使用测试数据集来评价分类器的分类精度.然而,作为文本分类,它还具有文本这样 ...

随机推荐

MQTT服务器搭建-mosquitto1.4.4安装指南
Mosquitto mosquitto是一款实现了 MQTT v3.1 协议的开源的消息代理服务软件. 其提供了非常轻量级的消息数据传输协议,采用发布/订阅模式进行工作,可用于物联设备.中间件.APP ...
ASP.NET Web API 学习【转】
转自:http://www.cnblogs.com/babycool/p/3922738.html 来看看对于一般前台页面发起的get和post请求,我们在Web API中要如何来处理. 这里我使用J ...
如何有效的使用C#读取文件
如何有效的使用C#读取文件你平时是怎么读取文件的?使用流读取.是的没错,C#给我们提供了非常强大的类库(又一次吹捧了.NET一番),里面封装了几乎所有我们可以想到的和我们没有想到的类,流是读取文件 ...
IIS：日志代码分析
如何看IIS日志代码,打开IIS日志后,你会看见里面有很多访问记录.baiduspider,Googlebot等就是蜘蛛了.蜘蛛爬过后都会留下记录的,状态代码列在下面: 100 - 表示已收到请求的一 ...
make自动生成依赖文件的两种形式
最近编译源文件发现当修改头文件后,make并不会自动把包含此头文件的所有源文件重新编译,而每次都是需要把对应的中间文件清除才能重新编译,非常的麻烦.因此需要make自动对源文件所依赖的头文件进行管理, ...
JavaScript常用小技巧
1.获取访问地址URL的参数 <script type="text/javascript"> var param = ""; var nowUrl ...
子类实例化和Super
在子类的构造函数当中,必须调用父类的构造函数,通过super的参数个数和类型来决定调用父类哪一个构造函数. class Student extends Person{ Student(){ super ...
从头来之【图解针对虚拟机iOS开发环境搭建】
1.下载Mac OSX10.9. 点击下载 2.下载VMware Workstation 10,点击下载,网页中包含序列号.安装VM. 3.VM10-MacOS补丁.用于创建苹果虚拟机. 安装VM就不 ...
java gui 下拉框中项删除按钮
http://www.cnblogs.com/kangls/archive/2013/03/21/2972943.html http://m.blog.csdn.net/blog/ycb1689/74 ...
chrome设置可以跨域访问
右键chrome的快捷方式->属性修改目标属性:添加--args --disable-web-security --user-data-dir=F:\MyChromeDevUserData, ...

基于weka的文本分类实现

基于weka的文本分类实现的更多相关文章

随机推荐

热门专题