Twenty Newsgroups Classification任务之二seq2sparse（5）

接上篇blog，继续分析。接下来要调用代码如下：

// Should document frequency features be processed

       if (shouldPrune || processIdf) {

         docFrequenciesFeatures = TFIDFConverter.calculateDF(new Path(outputDir, tfDirName),

                 outputDir, conf, chunkSize);

       }

首先不看shouldPrune变量，单单看processIdf变量来说，这个变量肯定是true的，所以肯定要执行if里面的部分了，这个是计算DF的函数（单单就单词意思来说）；

打开这个函数可以看到主要进行了两个操作：

startDFCounting(input, wordCountPath, baseConf);

    return createDictionaryChunks(wordCountPath, output, baseConf, chunkSizeInMegabytes);

第一个是什么计数，第二个是产生一个dictionary 块；怎么感觉和前面的 Twenty Newsgroups Classification任务之二seq2sparse（2）一模一样，额，好吧，确实有很多相同的地方，应该说基本是一样的，可以参考前面的来分析；但是有点区别的地方是，首先计数的Job里面的Mapper，TermDocumentCountMapper有这样的一句：

private static final IntWritable TOTAL_COUNT = new IntWritable(-1);

while (it.hasNext()) {

      Vector.Element e = it.next();

      context.write(new IntWritable(e.index()), ONE);

    }

    context.write(TOTAL_COUNT, ONE);

可以看到在最后还写多了一句、这里先明确几个变量，全部的单词个数有93563个，一共的文件个数（或者说vector个数）有18846个；看这个job的详细信息：

这里就再次说明了reduce接受的key的个数比单词数多了一个即93564；

其次，在新建dictionary块的时候也有不同的地方，首先调用的类是TFIDFConverter。但是其操作基本一样，看到下面的代码：

if (key.get() >= 0) {

          freqWriter.append(key, value);

        } else if (key.get() == -1) {

          vectorCount = value.get();

        }

        featureCount = Math.max(key.get(), featureCount);

      }

      featureCount++;

      Long[] counts = {featureCount, vectorCount};

      return new Pair<Long[], List<Path>>(counts, chunkPaths);

这里确实是有多一个key为-1的记录，然后featureCount应该是记录vector的key值，在++之前应该是18846，在++之后就是18847了，所以counts应该为[18847,93564]；这个可以通过设置断点来查看；具体下次分析，还有下面两个Job其实应该是和seq2sparse(3)、（4）类似了，只是分析的数据的vector由单词转换为了数值，其他都一样，这样分析之后，后面两个Job就很简单了，然后就是最后的算法精髓了。然后就这个算法就分析完了吧（感觉看了好久的样子。。。）

分享，快乐，成长

转载请注明出处：http://blog.csdn.net/fansy1990

Twenty Newsgroups Classification任务之二seq2sparse（5）的更多相关文章

Twenty Newsgroups Classification任务之二seq2sparse
seq2sparse对应于mahout中的org.apache.mahout.vectorizer.SparseVectorsFromSequenceFiles,从昨天跑的算法中的任务监控界面可以看到 ...
Twenty Newsgroups Classification任务之二seq2sparse（3）
接上篇,如果想对上篇的问题进行测试其实可以简单的编写下面的代码: package mahout.fansy.test.bayes.write; import java.io.IOException; ...
Twenty Newsgroups Classification任务之二seq2sparse（2）
接上篇,SequenceFileTokenizerMapper的输出文件在/home/mahout/mahout-work-mahout0/20news-vectors/tokenized-docum ...
mahout 运行Twenty Newsgroups Classification实例
按照mahout官网https://cwiki.apache.org/confluence/display/MAHOUT/Twenty+Newsgroups的说法,我只用运行一条命令就可以完成这个算法 ...
Twenty Newsgroups Classification实例任务之TrainNaiveBayesJob(一)
接着上篇blog,继续看log里面的信息如下: + echo 'Training Naive Bayes model' Training Naive Bayes model + ./bin/mahou ...
项目笔记《DeepLung:Deep 3D Dual Path Nets for Automated Pulmonary Nodule Detection and Classification》（二）（上）模型设计
我只讲讲检测部分的模型,后面两样性分类的试验我没有做,这篇论文采用了很多肺结节检测论文都采用的u-net结构,准确地说是具有DPN结构的3D版本的u-net,直接上图. DPN是颜水成老师团队的成果, ...
深度学习数据集Deep Learning Datasets
Datasets These datasets can be used for benchmarking deep learning algorithms: Symbolic Music Datase ...
Open Data for Deep Learning
Open Data for Deep Learning Here you’ll find an organized list of interesting, high-quality datasets ...
深度学习课程笔记（二）Classification： Probility Generative Model
深度学习课程笔记(二)Classification: Probility Generative Model 2017.10.05 相关材料来自:http://speech.ee.ntu.edu.tw ...

随机推荐

js打印
js打印,其实是打印当前页面的内容,是调用系统的js方法,来弹出打印设置窗口,用法很简单. window.print()就行,有的考虑到浏览器兼容性问题,会用到document.execComm ...
jquery Deferred使用经验
这周做了个小活动(http://aoqi.100bt.com/zt-2016duanzi/index.html),刚开始时候没看好需求,逻辑都写一块了最后各种坑要填补,从中也获取了些经验和教训,下面 ...
webBrowser中操作网页元素全攻略
原文 webBrowser中操作网页元素全攻略 1.获取非input控件的值: webBrowser1.Document.All["控件ID"].InnerText; 或webBr ...
linux c: core dump
1. core dump文件系统设置 http://www.cnblogs.com/no7dw/archive/2013/02/18/2915819.html 编译时需要输入-g才会生成coredum ...
MEAN栈开发
Nodejs之MEAN栈开发(二)----视图与模型 2016-06-02 08:30 by stoneniqiu, 92 阅读, 2 评论, 收藏, 编辑上一节做了对Express做了简单的介绍, ...
浅谈sqlldr
1.安装oracle sqlldr 2.配置sqlldr环境 3java代码的实现在windows下面sqlldr: sqlldr = “cmd /c start D:/oracle/produ ...
Ubuntu_文件夹名字转化成英文
打开终端命令行输入: export LANG=en_US xdg-user-dirs-gtk-update 之后重启,就看到中文的文件夹变成英文的了想要换回中文的输入: export LANG=zh ...
Python标准库：内置函数dict(iterable, **kwarg)
本函数是从可迭代对象来创建新字典.比方一个元组组成的列表,或者一个字典对象. 样例: #dict() #以键对方式构造字典 d1 = dict(one = 1, two = 2, a = 3) pri ...
android.graphics.Color
该类定义的都是些static常量和函数,这些函数都是为了创建和转化成int型的color.颜色是由int型的数表示,由4个字节组成,分别是A R G B,这个int型的值是确定的,透明度的值只能存 ...
【deep learning学习笔记】注释yusugomori的LR代码 --- 模型测试
测试部分代码: void test_lr() { srand(0); double learning_rate = 0.1; double n_epochs = 500; int train_N = ...

Twenty Newsgroups Classification任务之二seq2sparse（5）

Twenty Newsgroups Classification任务之二seq2sparse（5）的更多相关文章

随机推荐

热门专题