Mahout文本向量化

在文本聚类之前，首先要做的是文本的向量化。该过程涉及到分词，特征抽取，权重计算等等。Mahout 提供了文本向量化工具。由于Mahout 向量化算法要处理的文件是Hadoop SequenceFile ，需要将普通的文本文件转成SequenceFile格式，然后在向量化。

一、序列化

API

SequenceFilesFromDirectory.main(args);
--input (-i)	文件存放路径
-output (-o)	输出文件路径
--overwrite (-ow)	是否清空输出目录
--charset (-c)	默认UTF-8

示例

String [] arg ={"-i","forclusters","-o","se","-ow"};

SequenceFilesFromDirectory.main(arg);

二、向量化

API

SparseVectorsFromSequenceFiles.main(args);
--minSupport (-s)	词的最小支持度
--analyzerName (-a)	Lucene分词器类权限命名
--chunkSize (-chunk)	块大小
--output (-o)	输出目录
--input (-i)	输入目录
--minDF (-md)	文档的最小DF值
--maxDFPercent (-x)	最大DF频率
--weight (-wt)	权重，TFIDF,或TF
--minLLR (-ml) (Optional)	最小log-Likelihood
--numReducers (-nr)	reduce个数
--maxNGramSize (-ng)	最大n-gram数
--overwrite (-ow)	是否覆盖outPut下的文件
--sequentialAccessVector(-seq) (Optional)	是否输出为sequentialAccessVector
--namedVector(-nv) (Optional)	是否输出为namedVector
--logNormalize(-lnorm) (Optional)	输出结果向量取log
--stopWordsFile (-sw)	停用词词典文件路径

示例

String [] args ={"-i",”/seq”,

"-o",”/vec”

"-a","org.apache.lucene.analysis.cn.smart

.SmartChineseAnalyzer",

"-md",4),

"-ow","-ng",4),

"-wt",”TFIDF”,

"-nr",4),

"-sw",”/stopwprds.txt”

};

SparseVectorsFromSequenceFiles.main(args);

输出结果

名称	Key类型	Value类型	说明
tokenized-documents	文档名(org.apache.hadoop.io.Text)	词数组(org.apache.mahout. common.StringTuple)	分词后的的文本，每条记录代表一篇文档
dictionary.file-0	单词(org.apache.hadoop.io.Text)	单词id (org.apache.hadoop. io.IntWritable)	文本集的特征词词典
wordcount	单词(org.apache.hadoop.io.Text)	词频 (org.apache.hadoop. io.LongWritable)	特征词词频统计
tf-vectors	文档名(org.apache.hadoop.io.Text)	文档的tf向量(org.apache.mahout. math.VectorWritable)	每篇文档的Tf向量
df-count	单词id (org.apache.hadoop.io.IntWritable)	单词的文档频率(org.apache. hadoop.io.LongWritable)	每个单词的文档频率，即包含这个单词的文档个数
frequency.file-0	单词id (org.apache.hadoop.io.IntWritable)	单词的文档频率(org.apache. hadoop.io.LongWritable)	仍是文档频率，只是对df-count中的文件进行分块
tfidf-vectors	文档名(org.apache.hadoop.io.Text)	文档的tfidf向量(org.apache.mahout.math.VectorWritable)	每篇文档的Tfidf向量

Mahout文本向量化的更多相关文章

自然语言处理--中文文本向量化counterVectorizer()
1.载入文档 #!/usr/bin/python # -*- coding: utf-8 -*- import pandas as pd import re import jieba from skl ...
文本向量化及词袋模型 - NLP学习（3-1）
分词(Tokenization) - NLP学习(1) N-grams模型.停顿词(stopwords)和标准化处理 - NLP学习(2) 之前我们都了解了如何对文本进行处理:(1)如用NLTK文 ...
NLP 第7章文本向量化
基于sklearn进行文本向量化
sklearn中,计数向量化用CountVectorizer,tfidf向量化用TfidfVectorizer: import pickle from sklearn.feature_extracti ...
Mahout canopy聚类
Canopy 聚类一.Canopy算法流程 Canopy 算法,流程简单,容易实现,一下是算法 (1)设样本集合为S,确定两个阈值t1和t2,且t1>t2. (2)任取一个样本点p,作为一个C ...
Mahout 系列之--canopy 算法
Canopy 算法,流程简单,容易实现,一下是算法 (1)设样本集合为S,确定两个阈值t1和t2,且t1>t2. (2)任取一个样本点p属于S,作为一个Canopy,记为C,从S中移除p. (3 ...
基于KNN的newsgroup 18828文本分类器的Python实现
还是同前一篇作为学习入门. 1. KNN算法描述: step1: 文本向量化表示,计算特征词的TF-IDF值 step2: 新文本到达后,根据特征词确定文本的向量 step3 : 在训练文本集中选出与 ...
LSTM实现中文文本情感分析
1. 背景介绍文本情感分析是在文本分析领域的典型任务,实用价值很高.本模型是第一个上手实现的深度学习模型,目的是对深度学习做一个初步的了解,并入门深度学习在文本分析领域的应用.在进行模型的上手实现之 ...
4. 文本相似度计算-CNN-DSSM算法
1. 文本相似度计算-文本向量化 2. 文本相似度计算-距离的度量 3. 文本相似度计算-DSSM算法 4. 文本相似度计算-CNN-DSSM算法 1. 前言之前介绍了DSSM算法,它主要是用了DN ...

随机推荐

linux系统性能监控--CPU利用率
在对系统的方法化分析中,首要且最基本的工具之一常常是对系统的 CPU利用率进行简单测量. Linux以及大多数基于 UNIX的操作系统都提供了一条命令来显示系统的平均负荷(loadaverage) . ...
多线程（四）实现线程范围内模块之间共享数据及线程间数据独立（Map集合）
多个线程访问共享对象和数据的方式 1.如果每个线程执行的代码相同,可以使用同一个Runnable对象,这个Runnable对象中有那个共享数据,例如,买票系统就可以这么做. 2.如果每个线程执行的代码 ...
Linux下文件的mtime/atime/ctime研究
概述在Linux下,对于某一个文件或文件夹时间的描述有三种:文件修改时间mtime,文件访问时间atime,文件状态改变时间ctime.在Linux下无法获取到文件的创建时间,因为根本就没有保存这个 ...
python 函数运算先于单目运算
>>> def f(): >>> -f() - 初一看,-f()比较陌生的样子,细想,这是合理的
设置 NSZombieEnabled 定位 EXC_BAD_ACCESS 错误
我们做 iOS 程序开发时经常用遇到 EXC_BAD_ACCESS 错误导致 Crash,出现这种错误时一般 Xcode 不会给我们太多的信息来定位错误来源,只是在应用 Delegate 上留下像 T ...
SpriteKit中类似Cocos2D的CCActionSpawn并发方法GroupAction
大熊猫猪·侯佩原创或翻译作品.欢迎转载,转载请注明出处. 如果觉得写的不好请多提意见,如果觉得不错请多多支持点赞.谢谢! hopy ;) 我们知道在Cocos2D中对于并发Action的处理可以使用C ...
Ajax框架,DWR介绍，应用，例子
使用Ajax框架 1. 简化JavaScript的开发难度 2. 解决浏览器的兼容性问题 3. 简化开发流程常用Ajax框架 Prototype 一个纯粹的JavaScript函数库,对Ajax提供 ...
Servlet之Request对象
下面的方法可用在 Servlet 程序中读取 HTTP 头.这些方法通过HttpServletRequest 对象可用. 1 Cookie[] getCookies() 返回一个数组,包含客户端 ...
Android存储之SharedPreferences
Android数据存储之SharedPreferences SharedPreferences对象初始化 SharedPreferences mSharedPreferences = getShare ...
spring源码系列(一)sring源码编译 spring源码下载 spring源码阅读
想对spring框架进行深入的学习一下,看看源代码,提升和沉淀下自己,工欲善其事必先利其器,还是先搭建环境吧. 环境搭建 sping源码之前是svn管理,现在已经迁移到了github中了,新版本基于g ...

Mahout文本向量化

一、序列化

二、向量化

Mahout文本向量化的更多相关文章

随机推荐

热门专题