CountVectorizer()类解析

主要可以参考下面几个链接：

补充一下：CounterVectorizer()类的函数transfome()的用法

它主要是把新的文本转化为特征矩阵，只不过，这些特征是已经确定过的。而这个特征序列是前面的fit_transfome()输入的语料库确定的特征。见例子：

 >>>from sklearn.feature_extraction.text import CountVectorizer

 >>>vec=CountVectrizer()

 >>>vec.transform(['Something completely new.']).toarray()

错误返回，sklearn.exceptions.NotFittedError: CountVectorizer - Vocabulary wasn't fitted.表示没有对应的词汇表，这个文本无法转换。其实就是没有建立vocabulary表，没法对文本按照矩阵索引来统计词的个位数

corpus = [

     'This is the first document.',

    'This is the second second document.',

   'And the third one.',

   'Is this the first document?']

X = vec.fit_transform(corpus)

X.toarray()

　vocabulary列表

>>>vec.get_feature_names()

 ['and', 'document', 'first', 'is', 'one', 'second', 'the', 'third', 'this']

　得到的稀疏矩阵是

array([[0, 1, 1, 1, 0, 0, 1, 0, 1],

       [0, 1, 0, 1, 0, 2, 1, 0, 1],

       [1, 0, 0, 0, 1, 0, 1, 1, 0],

       [0, 1, 1, 1, 0, 0, 1, 0, 1]], dtype=int64)

建立vocabulary后可以用transform（）来对新文本进行矩阵化了

>>>vec.transform(['this is']).toarray()

 array([[0, 0, 0, 1, 0, 0, 0, 0, 1]], dtype=int64)

>>>vec.transform(['too bad']).toarray()

array([[0, 0, 0, 0, 0, 0, 0, 0, 0]], dtype=int64)

简单分析'this is'在vocabulary表里面，则对应词统计数量，形成矩阵。而'too bad'在vocabulary表中没有这两词，所以矩阵都为0.

CountVectorizer()类解析的更多相关文章

Bootstrap 类解析
Bootstrap 类解析元素 Bootstrap 类定义 <div> container 内容容器 <table> table 表格 <table> tabl ...
【Owin 学习系列】2. Owin Startup 类解析
Owin Startup 类解析每个 Owin 程序都有 startup 类,在这个 startup 类里面你可以指定应用程序管道模型中的组件.你可以通过不同的方式来连接你的 startup 类和运 ...
Thrift compiler代码生成类解析
代码生成类解析: Thrift--facebook RPC框架,介绍就不说了,百度,google一大把,使用也不介绍,直接上结构和分析吧. Hello.thrift文件内容如下: namespace ...
SpringBoot入门（三）——入口类解析
本文来自网易云社区上一篇介绍了起步依赖,这篇我们先来看下SpringBoot项目是如何启动的. 入口类再次观察工程的Maven配置文件,可以看到工程的默认打包方式是jar格式的. <pack ...
Spark 资源调度包 stage 类解析
spark 资源调度包 Stage(阶段) 类解析 Stage 概念 Spark 任务会根据 RDD 之间的依赖关系, 形成一个DAG有向无环图, DAG会被提交给DAGScheduler, DAGS ...
【Spring注解驱动开发】AOP核心类解析，这是最全的一篇了！！
写在前面昨天二狗子让我给他讲@EnableAspectJAutoProxy注解,讲到AnnotationAwareAspectJAutoProxyCreator类的源码时,二狗子消化不了了.这不,今 ...
【Python】-【类解析】--【脚本实例】
通过脚本事例,解析下Python中类的几个概念在脚本中的应用脚本如下: ++++++++++++++++++++++++++++++++++++++++ #!/usr/bin/env python# ...
.net HTMLParser详细使用说明　强大的Filter类解析HTML文档如此简单
背景: HTMLParser原本是一个在sourceforge上的一个Java开源项目,使用这个Java类库可以用来线性地或嵌套地解析HTML文本.他的功能强大和开源等特性吸引了大量Web信息提取的 ...
Spring源码情操陶冶-AOP之Advice通知类解析与使用
阅读本文请先稍微浏览下上篇文章Spring源码情操陶冶-AOP之ConfigBeanDefinitionParser解析器,本文则对aop模式的通知类作简单的分析入口根据前文讲解,我们知道通知类的 ...

随机推荐

PHP大小写是否敏感问题的汇总
一.大小写敏感1. 变量名区分大小写view sourceprint? <?php $abc = 'abcd'; echo $abc; //输出 'abcd' e ...
Python selenium的js扩展实现
python写的数据采集,对一般有规律的页面用 urllib2 + BeautifulSoup + 正则就可以搞定. 但是有些页面的内容是通过js生成,或者通过js跳转的,甚至js中还加入几道混淆机制 ...
leetcode941
public class Solution { public bool ValidMountainArray(int[] A) { bool findTop = false; ) { return f ...
redis详解（二）-- 数据类型详解
Redis常用数据类型详解 1,Redis最为常用的数据类型主要有以下: String Hash List Set Sorted set pub/sub Transactions 在具体描述这几种数据 ...
怎么才能将文件流或者图片转化为base64，传到前台展示
图片转化为base64,传到前台展示 public String getBase64(){ String imgStr = ""; try { File file = new Fi ...
curl 请求https内容，返回空
$ch = curl_init(); curl_setopt($ch, CURLOPT_URL,$api); curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);/ ...
input文本框放上图片img 通过padding relative和absolute 的实现
<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...
python中关键字的总结
python中各种关键字的总结:用表格形式,解释关键字符号的作用和案例说明关键字 ...
mysql使用一条sql删除多条数据
使用in delete from course where chour in(55,56,57); course:表名 chour:字段 55,56,57数据
VirtualBox如何扩展虚拟机Ubuntu的硬盘容量？
一.问题描述刚刚在VirtualBox中使用Ubuntu虚拟机中,出现了虚拟硬盘不够用的情况. 乖乖,查了一下磁盘空间,如下所示: df -H 原来是上午安装Ubuntu虚拟机的时候,选择了动态分 ...

CountVectorizer()类解析

CountVectorizer()类解析的更多相关文章

随机推荐

热门专题