sklearn之特征提取（文本特征）

1、引言

关于文本的提取有很多方法，本文主要探索下sklearn官方的文本特征提取功能。

2、文本特征提取

文本分析是机器学习算法的主要应用领域。然而，原始数据，符号文字序列不能直接传递给算法，因为它们大多数要求具有固定长度的数字矩阵特征向量，而不是具有可变长度的原始文本文档。

sklearn提供三种方法：

令牌化，对每个可能的词令牌分成字符串并赋予整数形的id，例如通过使用空格和标点符号作为令牌分隔符。

统计，每个词令牌在文档中的出现次数。

标准化，在大多数的文档 / 样本中，可以减少重要的次令牌的出现次数的权重。

总的来说，方法是把文本文档集合转化成特征向量，比如每一行是一个文档，每一列是词id。

由于词的稀疏性，通常使用scipy.sparse 包中的稀疏实现。

3、使用方法

类CountVectorizer介绍

首先类 CountVectorizer 在单个类中实现了 tokenization （词语切分）和 occurrence counting （出现频数统计）:

>>> from sklearn.feature_extraction.text import CountVectorizer

>>> vectorizer = CountVectorizer()

>>> corpus = [

...     'This is the first document.',

...     'This is the second second document.',

...     'And the third one.',

...     'Is this the first document?',

... ]

>>> X = vectorizer.fit_transform(corpus)

#对每一列进行index

>>> vectorizer.get_feature_names() == (

...     ['and', 'document', 'first', 'is', 'one',

...      'second', 'the', 'third', 'this'])

True

>>> X.toarray()

array([[0, 1, 1, 1, 0, 0, 1, 0, 1],

       [0, 1, 0, 1, 0, 2, 1, 0, 1],

       [1, 0, 0, 0, 1, 0, 1, 1, 0],

       [0, 1, 1, 1, 0, 0, 1, 0, 1]]...)

#还可以设置一个或两个词来进行分割，设置两个词的原因是部分语句要连读才有区分度

>>> bigram_vectorizer = CountVectorizer(ngram_range=(1, 2),

...                                     token_pattern=r'\b\w+\b', min_df=1)

>>> analyze = bigram_vectorizer.build_analyzer()

>>> analyze('Bi-grams are cool!') == (

...     ['bi', 'grams', 'are', 'cool', 'bi grams', 'grams are', 'are cool'])

True

TF-idf项加权

在一个大的文本语料库中，一些单词将出现很多次（例如 “the”, “a”, “is” 是英文），因此对文档的实际内容没有什么有意义的信息。如果我们将直接计数数据直接提供给分类器，那么这些频繁词组会掩盖住那些我们关注但很少出现的词。

为了重新计算特征权重，并将其转化为适合分类器使用的浮点值，因此使用 tf-idf 变换是非常常见的。

Tf表示术语频率，而 tf-idf 表示术语频率乘以转制文档频率:

术语频率，一个术语在给定文档中出现的次数乘以 idf 组件，计算为

其中是文档的总数，是包含术语的文档数。然后，所得到的 tf-idf 向量通过欧几里得范数归一化：

它源于一个词权重的信息检索方式(作为搜索引擎结果的评级函数)，同时也在文档分类和聚类中表现良好。

以下部分包含进一步说明和示例，说明如何精确计算 tf-idfs 以及如何在 scikit-learn 中计算 tf-idfs， TfidfTransformer 并 TfidfVectorizer 与定义 idf 的标准教科书符号略有不同

在 TfidfTransformer 和 TfidfVectorizer 中 smooth_idf=False，将 “1” 计数添加到 idf 而不是 idf 的分母:

>>> from sklearn.feature_extraction.text import TfidfTransformer

>>> transformer = TfidfTransformer(smooth_idf=False)

>>> counts = [[3, 0, 1],

...           [2, 0, 0],

...           [3, 0, 0],

...           [4, 0, 0],

...           [3, 2, 0],

...           [3, 0, 2]]

...

>>> tfidf = transformer.fit_transform(counts)

>>> tfidf.toarray()

array([[ 0.81940995,  0.        ,  0.57320793],

       [ 1.        ,  0.        ,  0.        ],

       [ 1.        ,  0.        ,  0.        ],

       [ 1.        ,  0.        ,  0.        ],

       [ 0.47330339,  0.88089948,  0.        ],

       [ 0.58149261,  0.        ,  0.81355169]])

每行都被正则化，使其适应欧几里得标准:

例如，我们可以计算`计数`数组中第一个文档中第一个项的 tf-idf ，如下所示:

现在，如果我们对文档中剩下的2个术语重复这个计算，我们得到:

和原始 tf-idfs 的向量:

然后，应用欧几里德（L2）规范，我们获得文档1的以下 tf-idfs:

通过 拟合 方法调用计算的每个特征的权重存储在模型属性中:

>>> transformer.idf_

array([ 1. ...,  2.25...,  1.84...])

虽然tf-idf标准化通常非常有用，但是可能有一种情况是二元变量显示会提供更好的特征。这可以使用类 CountVectorizer 的 二进制 参数来实现。特别地，一些估计器，诸如伯努利朴素贝叶斯显式的使用离散的布尔随机变量。而且，非常短的文本很可能影响 tf-idf 值，而二进制出现信息更稳定。

通常情况下，调整特征提取参数的最佳方法是使用基于网格搜索的交叉验证，例如通过将特征提取器与分类器进行流水线化。

词语表示的限制

直接看例子

>>> ngram_vectorizer = CountVectorizer(analyzer='char_wb', ngram_range=(2, 2))

>>> counts = ngram_vectorizer.fit_transform(['words', 'wprds'])

>>> ngram_vectorizer.get_feature_names() == (

...     [' w', 'ds', 'or', 'pr', 'rd', 's ', 'wo', 'wp'])

True

>>> counts.toarray().astype(int)

array([[1, 1, 1, 0, 1, 1, 1, 0],

       [1, 1, 0, 1, 1, 1, 0, 1]])

>>> ngram_vectorizer = CountVectorizer(analyzer='char_wb', ngram_range=(5, 5))

>>> ngram_vectorizer.fit_transform(['jumpy fox'])

...

<1x4 sparse matrix of type '<... 'numpy.int64'>'

   with 4 stored elements in Compressed Sparse ... format>

>>> ngram_vectorizer.get_feature_names() == (

...     [' fox ', ' jump', 'jumpy', 'umpy '])

True

>>> ngram_vectorizer = CountVectorizer(analyzer='char', ngram_range=(5, 5))

>>> ngram_vectorizer.fit_transform(['jumpy fox'])

...

<1x5 sparse matrix of type '<... 'numpy.int64'>'

    with 5 stored elements in Compressed Sparse ... format>

>>> ngram_vectorizer.get_feature_names() == (

...     ['jumpy', 'mpy f', 'py fo', 'umpy ', 'y fox'])

True

对比以上几种例子，我们可以知道：

对于使用白色空格进行单词分离的语言，对于语言边界感知变体 char_wb 尤其有趣，因为在这种情况下，它会产生比原始 char 变体显着更少的噪音特征。对于这样的语言，它可以增加使用这些特征训练的分类器的预测精度和收敛速度，同时保持关于拼写错误和词导出的稳健性。

虽然可以通过提取 n-gram 而不是单独的单词来保存一些本地定位信息，但是包含 n-gram 的单词和袋子可以破坏文档的大部分内部结构，因此破坏了该内部结构的大部分含义。

为了处理自然语言理解的更广泛的任务，因此应考虑到句子和段落的地方结构。因此，许多这样的模型将被称为 “结构化输出” 问题，这些问题目前不在 scikit-learn 的范围之内。

sklearn之特征提取（文本特征）的更多相关文章

利用sklearn进行字典&文本的特征提取
写在前面这篇博客主要内容: 应用DictVectorizer实现对类别特征进行数值化.离散化应用CountVectorizer实现对文本特征进行数值化特征提取API sklearn.featur ...
sklearn机器学习-特征提取1
scikit-learn机器学习的特征提取部分较多nlp内容,故学到一半学不下去,看完nltk再来补上 scikit-learn机器学习的特征提取这一章感觉讲的不是特别好,所以会结合着来看首先是Di ...
（6）文本挖掘（三）——文本特征TFIDF权重计算及文本向量空间VSM表示
建立文本数据数学描写叙述的过程分为三个步骤:文本预处理.建立向量空间模型和优化文本向量. 文本预处理主要採用分词.停用词过滤等技术将原始的文本字符串转化为词条串或者特点的符号串.文本预处理之后,每个文 ...
经典文本特征表示方法: TF-IDF
引言在信息检索, 文本挖掘和自然语言处理领域, IF-IDF 这个名字, 从它在 20 世纪 70 年代初被发明, 已名震江湖近半个世纪而不曾衰歇. 它表示的简单性, 应用的有效性, 使得它成为不同 ...
【ZH奶酪】如何用sklearn计算中文文本TF-IDF？
1. 什么是TF-IDF tf-idf(英语:term frequency–inverse document frequency)是一种用于信息检索与文本挖掘的常用加权技术.tf-idf是一种统计方法 ...
机器学习入门-文本特征-使用LDA主题模型构造标签 1.LatentDirichletAllocation(LDA用于构建主题模型) 2.LDA.components(输出各个词向量的权重值)
函数说明 1.LDA(n_topics, max_iters, random_state) 用于构建LDA主题模型,将文本分成不同的主题参数说明:n_topics 表示分为多少个主题, max_i ...
机器学习入门-文本特征-word2vec词向量模型 1.word2vec（进行word2vec映射编码）2.model.wv['sky']输出这个词的向量映射 3.model.wv.index2vec(输出经过映射的词名称)
函数说明: 1. from gensim.model import word2vec 构建模型 word2vec(corpus_token, size=feature_size, min_count ...
使用sklearn做文本特征提取
提取文本的特征,把文本用特征表示出来,是文本分类的前提,使用sklearn做文本的特征提取,需要导入TfidfVectorizer模块. from sklearn.feature_extraction ...
sklearn文本特征提取
http://cloga.info/2014/01/19/sklearn_text_feature_extraction/ 文本特征提取词袋(Bag of Words)表征文本分析是机器学习算法的 ...

随机推荐

滚动字幕标记<marquee></marquee>
<marquee>滚动内容</marquee> 常用属性: Direction : 滚动方向取值 up, down left right width :滚动宽度 heigh ...
django中的request对象
Request 我们知道当URLconf文件匹配到用户输入的路径后,会调用对应的view函数,并将 HttpRequest对象作为第一个参数传入该函数. 我们来看一看这个HttpRequest对 ...
.Net Core微服务系列--配置中心
什么是配置中心简单来说配置中心就是对配置进行管理的一个中心.对于配置这个司空见惯的东西,我们想想为什么对于应用程序需要各种各样的配置来支撑? 我们人类没有办法掌控和预知一切,所以映射到软件系统这个领 ...
Linux常见问题解答--如何修复“tar：Exiting with failure status due to previous errors”
问题: 当我用tar命令来创建一个压缩文件时,总在执行过程中失败,并且抛出一个错误说明"tar:由于前一个错误导致失败退出"("Exiting with failure ...
mysql设置密码登录
参考: https://blog.csdn.net/Light_Breeze/article/details/82070222 https://www.jianshu.com/p/d979df2791 ...
JZOJ5918【NOIP2018模拟10.20】Car
题目最近比较懒,题目描述都直接截图了. 题目大意给你一棵树,还有树上的几条路径,一条路径上的点到路径上其它任意点的代价为111.然后是一堆询问,问从一个点到另一个点的最小代价. 思路一开始做这题 ...
BZOJ3907 网格卡特兰数
题目描述某城市的街道呈网格状,左下角坐标为A(0, 0),右上角坐标为B(n, m),其中n >= m. 现在从A(0, 0)点出发,只能沿着街道向正右方或者正上方行走,且不能经过图示中直线左 ...
js中的对象、原型链机制、构造函数
一.在js中创建对象的方式 //一.字面量或直接量创建对象 var obj1 = { name:"zs", age:12 }; //二.通过new来创建对象 var obj2 = ...
定时运行某个php文件的bat文件
1.bat C:\phpStudy\php54n\php.exe -q D:\WWW\wdysp.zhuwangkj.com\wap\user_ABCD_grade.php pwd=6666sqwdw ...
编写一个函数isMerge，判断一个字符串str是否可以由其他两个字符串part1和part2“组合”而成
编写一个函数isMerge,判断一个字符串str是否可以由其他两个字符串part1和part2“组合”而成.“组合 ”的规则如下: 1). str中的每个字母要么来自于part1,要么来自于part2 ...

sklearn之特征提取（文本特征）

sklearn之特征提取（文本特征）的更多相关文章

随机推荐

热门专题