Scikit-learn 库的使用

1. 与文本处理相关的库

　　1. 对语料库提取特征词集合

from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer

#下面的语句初始化 TfidfVectorizer 对象，传入参数有 max_df (df比率大于其的单词进行过滤，停用词，特征词的数量）

vectorizer = TfidfVectorizer(max_df=_max_df, stop_words={

                                     'english'}, max_features=_vocab_size)

vectorizer.fit(corpus)

#通过vectorizer.vocabulary_可以访问特征词的字典，键为特征词，值为特征词在词袋子列表中的下标

vocal = vectorizer.vocabulary_

#初始化向量统计对象，使用指定的词袋子。否则会自动将语料库中所有长度大于等于2的单词作为词袋子中的成员

baseline_vectorizer = CountVectorizer(vocabulary=vocab)

#对语料库二维列表进行特征词统计

X_base = baseline_vectorizer.fit_transform(corpus)

2. 稀疏矩阵

　　1. 压缩稀疏矩阵行格式(CSR)

from spicy.sparse.csr import car_matrix

#rating 列表存储稀疏矩阵的值，(user, item) 组成其对应的行列下标

R = car_matrix(rating, (user, item))

　　使用压缩稀疏行矩阵可以快速的对行进行遍历，得到每行的结果。如果需要对列进行遍历，最好先将其转换为CSC矩阵，使用 tocsc() 成员函数。

Scikit-learn 库的使用的更多相关文章

scikit learn 模块调参 pipeline+girdsearch 数据举例：文档分类（python代码）
scikit learn 模块调参 pipeline+girdsearch 数据举例:文档分类数据集 fetch_20newsgroups #-*- coding: UTF-8 -*- import ...
(原创)（三）机器学习笔记之Scikit Learn的线性回归模型初探
一.Scikit Learn中使用estimator三部曲 1. 构造estimator 2. 训练模型:fit 3. 利用模型进行预测:predict 二.模型评价模型训练好后,度量模型拟合效果的 ...
(原创)（四）机器学习笔记之Scikit Learn的Logistic回归初探
目录 5.3 使用LogisticRegressionCV进行正则化的 Logistic Regression 参数调优一.Scikit Learn中有关logistics回归函数的介绍 1. 交叉 ...
Scikit Learn: 在python中机器学习
转自:http://my.oschina.net/u/175377/blog/84420#OSC_h2_23 Scikit Learn: 在python中机器学习 Warning 警告:有些没能理解的 ...
Scikit Learn
Scikit Learn Scikit-Learn简称sklearn,基于 Python 语言的,简单高效的数据挖掘和数据分析工具,建立在 NumPy,SciPy 和 matplotlib 上.
Python第三方库（模块）"scikit learn"以及其他库的安装
scikit-learn是一个用于机器学习的 Python 模块. 其主页:http://scikit-learn.org/stable/. GitHub地址: https://github.com/ ...
Query意图分析：记一次完整的机器学习过程（scikit learn library学习笔记）
所谓学习问题,是指观察由n个样本组成的集合,并根据这些数据来预测未知数据的性质. 学习任务(一个二分类问题): 区分一个普通的互联网检索Query是否具有某个垂直领域的意图.假设现在有一个O2O领域的 ...
机器学习-scikit learn学习笔记
scikit-learn官网:http://scikit-learn.org/stable/ 通常情况下,一个学习问题会包含一组学习样本数据,计算机通过对样本数据的学习,尝试对未知数据进行预测. 学习 ...
Linear Regression with Scikit Learn
Before you read This is a demo or practice about how to use Simple-Linear-Regression in scikit-lear ...
Scikit Learn安装教程
Windows下安装scikit-learn 准备工作 Python (>= 2.6 or >= 3.3), Numpy (>= 1.6.1) Scipy (>= 0.9), ...

随机推荐

nginx如何利用自定义的conf文件启动？
1.进入nginx的安装目录; 2.nginx -s -c conf/my.conf (校验该文件是否有效) nginx -s -c conf/my.conf 命令会卡死,存疑 3.start ...
CentOS中用户不在 sudoers 文件中。此事将被报告。
首先切换为root用户 su root; 然后更改etc/sudoers文件的只读为可读可写可执行. sudo chmod 777 /etc/sudoers 输入visudo命令即可编辑文件,找到ro ...
沈阳网络赛I-Lattice's basics in digital electronics【模拟】
42.93% 1000ms 131072K LATTICE is learning Digital Electronic Technology. He is talented, so he under ...
RSA算法原理与加密解密求私钥等价求求模反元素等价于分解出2个质数 (r*X+1)%[(p-1)(q-1)]=0
Rsapaper.pdf http://people.csail.mit.edu/rivest/Rsapaper.pdf [概述Abstract 1.将字符串按照双方约定的规则转化为小于n的正整数m, ...
人人网张铁安：Feed系统架构分析（转）
原文:http://www.csdn.net/article/2010-07-26/277273 继成功举办首期TUP活动后,日前在北京丽亭华苑酒店鸿运二厅,由CSDN和<程序员> 杂志联 ...
uchome 全局变量
$_SC: Array ( [dbhost] => localhost [dbuser] => root [dbpw] => root [dbcharset] => utf8 ...
关于sed -i 修改selinux 的软链接文件的问题
关于sed -i 修改selinux 的软链接文件的问题 http://blog.csdn.net/kumu_linux/article/details/8598005 因为sed -i /etc/s ...
205-react SyntheticEvent 事件
参看地址:https://reactjs.org/docs/events.html
EasyUI Droppable 可放置
通过 $.fn.droppable.defaults 重写默认的 defaults. 用法通过标记创建可放置(droppable)区域. <div class="easyui-dro ...
GBDT XGBOOST的区别与联系
Xgboost是GB算法的高效实现,xgboost中的基学习器除了可以是CART(gbtree)也可以是线性分类器(gblinear). 传统GBDT以CART作为基分类器,xgboost还支持线性分 ...

Scikit-learn 库的使用

Scikit-learn 库的使用的更多相关文章

随机推荐

热门专题