Mahout文本向量化
在文本聚类之前,首先要做的是文本的向量化。该过程涉及到分词,特征抽取,权重计算等等。Mahout 提供了文本向量化工具。由于Mahout 向量化算法要处理的文件是Hadoop SequenceFile ,需要将普通的文本文件转成SequenceFile格式,然后在向量化。
一、序列化
API
|
SequenceFilesFromDirectory.main(args); |
|
|
--input (-i) |
文件存放路径 |
|
-output (-o) |
输出文件路径 |
|
--overwrite (-ow) |
是否清空输出目录 |
|
--charset (-c) |
默认UTF-8 |
示例
|
String [] arg ={"-i","forclusters","-o","se","-ow"}; SequenceFilesFromDirectory.main(arg); |
二、向量化
API
|
SparseVectorsFromSequenceFiles.main(args); |
|
|
--minSupport (-s) |
词的最小支持度 |
|
--analyzerName (-a) |
Lucene分词器类权限命名 |
|
--chunkSize (-chunk) |
块大小 |
|
--output (-o) |
输出目录 |
|
--input (-i) |
输入目录 |
|
--minDF (-md) |
文档的最小DF值 |
|
--maxDFPercent (-x) |
最大DF频率 |
|
--weight (-wt) |
权重,TFIDF,或TF |
|
--minLLR (-ml) (Optional) |
最小log-Likelihood |
|
--numReducers (-nr) |
reduce个数 |
|
--maxNGramSize (-ng) |
最大n-gram数 |
|
--overwrite (-ow) |
是否覆盖outPut下的文件 |
|
--sequentialAccessVector(-seq) (Optional) |
是否输出为sequentialAccessVector |
|
--namedVector(-nv) (Optional) |
是否输出为namedVector |
|
--logNormalize(-lnorm) (Optional) |
输出结果向量取log |
|
--stopWordsFile (-sw) |
停用词词典文件路径 |
示例
|
String [] args ={"-i",”/seq”, "-o",”/vec” "-a","org.apache.lucene.analysis.cn.smart .SmartChineseAnalyzer", "-md",4), "-ow","-ng",4), "-wt",”TFIDF”, "-nr",4), "-sw",”/stopwprds.txt” }; SparseVectorsFromSequenceFiles.main(args); |
输出结果
|
名称 |
Key类型 |
Value类型 |
说明 |
|
tokenized-documents |
文档名(org.apache.hadoop.io.Text) |
词数组(org.apache.mahout. common.StringTuple) |
分词后的的文本,每条记录代表一篇文档 |
|
dictionary.file-0 |
单词(org.apache.hadoop.io.Text) |
单词id (org.apache.hadoop. io.IntWritable) |
文本集的特征词词典 |
|
wordcount |
单词(org.apache.hadoop.io.Text) |
词频 (org.apache.hadoop. io.LongWritable) |
特征词词频统计 |
|
tf-vectors |
文档名(org.apache.hadoop.io.Text) |
文档的tf向量(org.apache.mahout. math.VectorWritable) |
每篇文档的Tf向量 |
|
df-count |
单词id (org.apache.hadoop.io.IntWritable) |
单词的文档频率(org.apache. hadoop.io.LongWritable) |
每个单词的文档频率,即包含这个单词的文档个数 |
|
frequency.file-0 |
单词id (org.apache.hadoop.io.IntWritable) |
单词的文档频率(org.apache. hadoop.io.LongWritable) |
仍是文档频率,只是对df-count中的文件进行分块 |
|
tfidf-vectors |
文档名(org.apache.hadoop.io.Text) |
文档的tfidf向量(org.apache.mahout.math.VectorWritable) |
每篇文档的Tfidf向量 |
Mahout文本向量化的更多相关文章
- 自然语言处理--中文文本向量化counterVectorizer()
1.载入文档 #!/usr/bin/python # -*- coding: utf-8 -*- import pandas as pd import re import jieba from skl ...
- 文本向量化及词袋模型 - NLP学习(3-1)
分词(Tokenization) - NLP学习(1) N-grams模型.停顿词(stopwords)和标准化处理 - NLP学习(2) 之前我们都了解了如何对文本进行处理:(1)如用NLTK文 ...
- NLP 第7章 文本向量化
- 基于sklearn进行文本向量化
sklearn中,计数向量化用CountVectorizer,tfidf向量化用TfidfVectorizer: import pickle from sklearn.feature_extracti ...
- Mahout canopy聚类
Canopy 聚类 一.Canopy算法流程 Canopy 算法,流程简单,容易实现,一下是算法 (1)设样本集合为S,确定两个阈值t1和t2,且t1>t2. (2)任取一个样本点p,作为一个C ...
- Mahout 系列之--canopy 算法
Canopy 算法,流程简单,容易实现,一下是算法 (1)设样本集合为S,确定两个阈值t1和t2,且t1>t2. (2)任取一个样本点p属于S,作为一个Canopy,记为C,从S中移除p. (3 ...
- 基于KNN的newsgroup 18828文本分类器的Python实现
还是同前一篇作为学习入门. 1. KNN算法描述: step1: 文本向量化表示,计算特征词的TF-IDF值 step2: 新文本到达后,根据特征词确定文本的向量 step3 : 在训练文本集中选出与 ...
- LSTM实现中文文本情感分析
1. 背景介绍 文本情感分析是在文本分析领域的典型任务,实用价值很高.本模型是第一个上手实现的深度学习模型,目的是对深度学习做一个初步的了解,并入门深度学习在文本分析领域的应用.在进行模型的上手实现之 ...
- 4. 文本相似度计算-CNN-DSSM算法
1. 文本相似度计算-文本向量化 2. 文本相似度计算-距离的度量 3. 文本相似度计算-DSSM算法 4. 文本相似度计算-CNN-DSSM算法 1. 前言 之前介绍了DSSM算法,它主要是用了DN ...
随机推荐
- Docker标准化开发测试和生产环境
对于大部分企业来说,搭建 PaaS 既没有那个精力,也没那个必要,用 Docker 做个人的 sandbox 用处又小了点. 可以用 Docker 来标准化开发.测试.生产环境. Docker 占用资 ...
- android MultiDex multiDex原理(一)
android MultiDex 原理(一) Android分包MultiDex原理详解 转载请注明:http://blog.csdn.net/djy1992/article/details/5116 ...
- leetcode 5 Longest Palindromic Substring--最长回文字符串
问题描述 Given a string S, find the longest palindromic substring in S. You may assume that the maximum ...
- 手把手教你做一个Shell命令窗口
这是一个类似于win下面的cmd打开后的窗口,可以跨平台使用,可以在win和linux下面同时使用,主要功能如下: 首先我们需要把这些功能的目录写出来,通过写一个死循环,让其每次回车之后都可以保持同样 ...
- 关于在arm裸板编程时使用printf问题的解决方法
在ARM裸板驱动编程中,是不允许程序直接调用C库程序的.为什么呢?因为此时kernel还没有被加载,所以在封装在kernel层的C库的API是用不了的,那怎么办? 在开发过程中,printf的功能我不 ...
- Ubuntu LTS 系统学习使用体会和实用工具软件汇总 6.04 8.04 10.04 12.04 14.04 16.04
Ubuntu LTS 系统学习体会和工具软件汇总 6.04 8.04 10.04 12.04 14.04 16.04 ubuntu入门必备pdf:http://download.csdn.net/de ...
- weakref 待解决.
暂时不知为何在控制台多执行一次b()后,del a就不会立即销毁Foo实例. >>> class Foo(object): def __init__(self): self.obj ...
- Servlet - Upload、Download、Async、动态注册
Servlet 标签 : Java与Web Upload-上传 随着3.0版本的发布,文件上传终于成为Servlet规范的一项内置特性,不再依赖于像Commons FileUpload之类组件,因此在 ...
- android 图片网络下载github开源框架之Universal-Image-Loader
最近在做妙趣剪纸项目,剪纸应用项目链接.发扬传统文化,大家多多关注. 需要自己搭建服务器,我用的是新浪sae,简直秒杀京东云几条街,把图片放在网上下载,但是图片经常下载要遇到很多问题,包括oom等.所 ...
- Java进阶(四十七)Socket通信
Java进阶(四十七)Socket通信 今天讲解一个 Hello Word 级别的 Java Socket 通信的例子.具体通讯过程如下: 先启动Server端,进入一个死循环以便一直监听某端口是 ...