Mahout文本向量化

在文本聚类之前，首先要做的是文本的向量化。该过程涉及到分词，特征抽取，权重计算等等。Mahout 提供了文本向量化工具。由于Mahout 向量化算法要处理的文件是Hadoop SequenceFile ，需要将普通的文本文件转成SequenceFile格式，然后在向量化。

一、序列化

API

SequenceFilesFromDirectory.main(args);
--input (-i)	文件存放路径
-output (-o)	输出文件路径
--overwrite (-ow)	是否清空输出目录
--charset (-c)	默认UTF-8

示例

String [] arg ={"-i","forclusters","-o","se","-ow"};

SequenceFilesFromDirectory.main(arg);

二、向量化

API

SparseVectorsFromSequenceFiles.main(args);
--minSupport (-s)	词的最小支持度
--analyzerName (-a)	Lucene分词器类权限命名
--chunkSize (-chunk)	块大小
--output (-o)	输出目录
--input (-i)	输入目录
--minDF (-md)	文档的最小DF值
--maxDFPercent (-x)	最大DF频率
--weight (-wt)	权重，TFIDF,或TF
--minLLR (-ml) (Optional)	最小log-Likelihood
--numReducers (-nr)	reduce个数
--maxNGramSize (-ng)	最大n-gram数
--overwrite (-ow)	是否覆盖outPut下的文件
--sequentialAccessVector(-seq) (Optional)	是否输出为sequentialAccessVector
--namedVector(-nv) (Optional)	是否输出为namedVector
--logNormalize(-lnorm) (Optional)	输出结果向量取log
--stopWordsFile (-sw)	停用词词典文件路径

示例

String [] args ={"-i",”/seq”,

"-o",”/vec”

"-a","org.apache.lucene.analysis.cn.smart

.SmartChineseAnalyzer",

"-md",4),

"-ow","-ng",4),

"-wt",”TFIDF”,

"-nr",4),

"-sw",”/stopwprds.txt”

};

SparseVectorsFromSequenceFiles.main(args);

输出结果

名称	Key类型	Value类型	说明
tokenized-documents	文档名(org.apache.hadoop.io.Text)	词数组(org.apache.mahout. common.StringTuple)	分词后的的文本，每条记录代表一篇文档
dictionary.file-0	单词(org.apache.hadoop.io.Text)	单词id (org.apache.hadoop. io.IntWritable)	文本集的特征词词典
wordcount	单词(org.apache.hadoop.io.Text)	词频 (org.apache.hadoop. io.LongWritable)	特征词词频统计
tf-vectors	文档名(org.apache.hadoop.io.Text)	文档的tf向量(org.apache.mahout. math.VectorWritable)	每篇文档的Tf向量
df-count	单词id (org.apache.hadoop.io.IntWritable)	单词的文档频率(org.apache. hadoop.io.LongWritable)	每个单词的文档频率，即包含这个单词的文档个数
frequency.file-0	单词id (org.apache.hadoop.io.IntWritable)	单词的文档频率(org.apache. hadoop.io.LongWritable)	仍是文档频率，只是对df-count中的文件进行分块
tfidf-vectors	文档名(org.apache.hadoop.io.Text)	文档的tfidf向量(org.apache.mahout.math.VectorWritable)	每篇文档的Tfidf向量

Mahout文本向量化的更多相关文章

自然语言处理--中文文本向量化counterVectorizer()
1.载入文档 #!/usr/bin/python # -*- coding: utf-8 -*- import pandas as pd import re import jieba from skl ...
文本向量化及词袋模型 - NLP学习（3-1）
分词(Tokenization) - NLP学习(1) N-grams模型.停顿词(stopwords)和标准化处理 - NLP学习(2) 之前我们都了解了如何对文本进行处理:(1)如用NLTK文 ...
NLP 第7章文本向量化
基于sklearn进行文本向量化
sklearn中,计数向量化用CountVectorizer,tfidf向量化用TfidfVectorizer: import pickle from sklearn.feature_extracti ...
Mahout canopy聚类
Canopy 聚类一.Canopy算法流程 Canopy 算法,流程简单,容易实现,一下是算法 (1)设样本集合为S,确定两个阈值t1和t2,且t1>t2. (2)任取一个样本点p,作为一个C ...
Mahout 系列之--canopy 算法
Canopy 算法,流程简单,容易实现,一下是算法 (1)设样本集合为S,确定两个阈值t1和t2,且t1>t2. (2)任取一个样本点p属于S,作为一个Canopy,记为C,从S中移除p. (3 ...
基于KNN的newsgroup 18828文本分类器的Python实现
还是同前一篇作为学习入门. 1. KNN算法描述: step1: 文本向量化表示,计算特征词的TF-IDF值 step2: 新文本到达后,根据特征词确定文本的向量 step3 : 在训练文本集中选出与 ...
LSTM实现中文文本情感分析
1. 背景介绍文本情感分析是在文本分析领域的典型任务,实用价值很高.本模型是第一个上手实现的深度学习模型,目的是对深度学习做一个初步的了解,并入门深度学习在文本分析领域的应用.在进行模型的上手实现之 ...
4. 文本相似度计算-CNN-DSSM算法
1. 文本相似度计算-文本向量化 2. 文本相似度计算-距离的度量 3. 文本相似度计算-DSSM算法 4. 文本相似度计算-CNN-DSSM算法 1. 前言之前介绍了DSSM算法,它主要是用了DN ...

随机推荐

搜索引擎solr和elasticsearch
刚开始接触搜索引擎,网上收集了一些资料,在这里整理了一下分享给大家. 一.关于搜索引擎搜索引擎(Search Engine)是指根据一定的策略.运用特定的计算机程序从互联网上搜集信息,在对信息进行组 ...
Dynamics CRM2016 关闭错误报告弹框提示
在之前的版本中错误报告的弹框提示是可以在隐私首选项中设置关闭的,如下图所示但是在2016中这个设置没了有人说在右上角的选项中设置,但那个只能是设置个人的无法修改系统级别的.在系统中找了半天还是没有 ...
RxJava（十一）defer操作符实现代码支持链式调用
欢迎转载,转载请标明出处: http://blog.csdn.net/johnny901114/article/details/52597643 本文出自:[余志强的博客] 一.前言现在越来越多An ...
FORM界面批量处理-全选框实现
全选框实现方法多种多样,这里只介绍两种方法一:触发器式,优点程序简单,缺点颜色单调不突出 1. 在数据块和控制块上分别创建check box 2. 设置check box选中与为 ...
[django]urls.py 中重定向
Django 1.5 有时候需要对一个链接直接重定向,比如首页啥的重定向到一个内容页等等,在views.py 中可以设定,如果没有参数啥的在urls.py 中设定更加方面 from django.vi ...
Java中读取Excel功能实现_POI
这里使用apache的poi进行读取excel 1,新建javaproject 项目:TestExcel 2,导入包包下载地址:http://poi.apache.org/download.html ...
OpenCV实时美颜摄像并生成H264视频流
为什么美颜摄像这么简单的功能,OpenCV这个开源项目网上很少有代码呢?对于在windows平台下,生成h264视频流也比价麻烦,没有现成的api可以使用,需要借助MinGw编译libx264,或者f ...
最简单的基于libVLC的例子：最简单的基于libVLC的推流器
===================================================== 最简单的基于libVLC的例子文章列表: 最简单的基于libVLC的例子:最简单的基于lib ...
android下在屏幕适配小总结
为什么要屏幕适配?为此我就不说了,网上处理方法要么让你用几套不同分辨率的图片,要么写几套布局文件,要么就是在xml中写dip(这个还是可以的),前面两种感觉过程工作量太大了,由加载大图片的优化思想同 ...
UNIX环境高级编程——主线程与子线程的退出关系
我们在一个线程中经常会创建另外的新线程,如果主线程退出,会不会影响它所创建的新线程呢?下面就来讨论一下. 1. 主线程等待新线程先结束退出,主线程后退出.正常执行. 示例代码: #include & ...

Mahout文本向量化

一、序列化

二、向量化

Mahout文本向量化的更多相关文章

随机推荐

热门专题