Sklearn 速查

版权所有，转帖注明出处

章节

Scikit-learn是一个开源Python库，它使用统一的接口实现了一系列机器学习、预处理、交叉验证和可视化算法。

一个基本例子

from sklearn import neighbors, datasets, preprocessing

from sklearn.model_selection import train_test_split

from sklearn.metrics import accuracy_score

iris = datasets.load_iris()

X, y = iris.data[:, :2], iris.target

X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=33)

scaler = preprocessing.StandardScaler().fit(X_train)

X_train = scaler.transform(X_train)

X_test = scaler.transform(X_test)

knn = neighbors.KNeighborsClassifier(n_neighbors=5)

knn.fit(X_train, y_train)

y_pred = knn.predict(X_test)

accuracy_score(y_test, y_pred)

加载数据

数据类型可以是NumPy数组、SciPy稀疏矩阵，或者其他可转换为数组的类型，如panda DataFrame等。

import numpy as np

X = np.random.random((10,5))

y = np.array(['M','M','F','F','M','F','M','M','F','F','F'])

X[X < 0.7] = 0

预处理数据

标准化/Standardization

from sklearn.preprocessing import StandardScaler

scaler = StandardScaler().fit(X_train)

standardized_X = scaler.transform(X_train)

standardized_X_test = scaler.transform(X_test)

归一化/Normalization

from sklearn.preprocessing import Normalizer

scaler = Normalizer().fit(X_train)

normalized_X = scaler.transform(X_train)

normalized_X_test = scaler.transform(X_test)

二值化/Binarization

from sklearn.preprocessing import Binarizer

binarizer = Binarizer(threshold=0.0).fit(X)

binary_X = binarizer.transform(X)

类别特征编码

from sklearn.preprocessing import LabelEncoder

enc = LabelEncoder()

y = enc.fit_transform(y)

缺失值估算

>>>from sklearn.preprocessing import Imputer

>>>imp = Imputer(missing_values=0, strategy='mean', axis=0)

>>>imp.fit_transform(X_train)

生成多项式特征

from sklearn.preprocessing import PolynomialFeatures

poly = PolynomialFeatures(5)

oly.fit_transform(X)

训练与测试数据分组

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X,y,random_state=0)

创建模型

有监督学习模型

线性回归

from sklearn.linear_model import LinearRegression

lr = LinearRegression(normalize=True)

支持向量机(SVM)

from sklearn.svm import SVC

svc = SVC(kernel='linear')

朴素贝叶斯

from sklearn.naive_bayes import GaussianNB

gnb = GaussianNB()

KNN

from sklearn.naive_bayes import GaussianNB

gnb = GaussianNB()

无监督学习模型

主成分分析(PCA)

from sklearn.decomposition import PCA

pca = PCA(n_components=0.95)

k均值/K Means

from sklearn.cluster import KMeans

k_means = KMeans(n_clusters=3, random_state=0)

模型拟合

有监督学习

lr.fit(X, y)

knn.fit(X_train, y_train)

svc.fit(X_train, y_train)

无监督学习

k_means.fit(X_train)

pca_model = pca.fit_transform(X_train)

模型预测

有监督学习

y_pred = svc.predict(np.random.random((2,5)))

y_pred = lr.predict(X_test)

y_pred = knn.predict_proba(X_test))

无监督学习

y_pred = k_means.predict(X_test)

评估模型性能

分类指标

准确度

knn.score(X_test, y_test)

from sklearn.metrics import accuracy_score

accuracy_score(y_test, y_pred)

分类报告

from sklearn.metrics import classification_report

print(classification_report(y_test, y_pred)))

混淆矩阵

from sklearn.metrics import confusion_matrix

print(confusion_matrix(y_test, y_pred)))

回归指标

平均绝对误差

from sklearn.metrics import mean_absolute_error

y_true = [3, -0.5, 2])

mean_absolute_error(y_true, y_pred))

均方差

from sklearn.metrics import mean_squared_error

mean_squared_error(y_test, y_pred))

$R^2$分数

from sklearn.metrics import r2_score

r2_score(y_true, y_pred))

聚类指标

调整兰德系数

from sklearn.metrics import adjusted_rand_score

adjusted_rand_score(y_true, y_pred))

同质性/Homogeneity

from sklearn.metrics import homogeneity_score

homogeneity_score(y_true, y_pred))

调和平均指标/V-measure

from sklearn.metrics import v_measure_score

metrics.v_measure_score(y_true, y_pred))

交叉验证

print(cross_val_score(knn, X_train, y_train, cv=4))

print(cross_val_score(lr, X, y, cv=2))

模型调优

网格搜索

from sklearn.grid_search import GridSearchCV

params = {"n_neighbors": np.arange(1,3), "metric": ["euclidean", "cityblock"]}

grid = GridSearchCV(estimator=knn,param_grid=params)

grid.fit(X_train, y_train)

print(grid.best_score_)

print(grid.best_estimator_.n_neighbors)

随机参数优化

from sklearn.grid_search import RandomizedSearchCV

params = {"n_neighbors": range(1,5), "weights": ["uniform", "distance"]}

rsearch = RandomizedSearchCV(estimator=knn,

   param_distributions=params,

   cv=4,

   n_iter=8,

   random_state=5)

rsearch.fit(X_train, y_train)

print(rsearch.best_score_)

Sklearn 速查的更多相关文章

机器学习算法 Python&R 速查表
sklearn实战-乳腺癌细胞数据挖掘( 博主亲自录制) https://study.163.com/course/introduction.htm?courseId=1005269003&u ...
常用的14种HTTP状态码速查手册
分类 1xx \> Information(信息) // 接收的请求正在处理 2xx \> Success(成功) // 请求正常处理完毕 3xx \> Redirection(重定 ...
jQuery 常用速查
jQuery 速查基础 $("css 选择器") 选择元素,创建jquery对象 $("html字符串") 创建jquery对象 $(callback) $( ...
简明 Git 命令速查表（中文版）
原文引用地址:https://github.com/flyhigher139/Git-Cheat-Sheet/blob/master/Git%20Cheat%20Sheet-Zh.md在Github上 ...
《zw版·Halcon-delphi系列原创教程》 zw版-Halcon常用函数Top100中文速查手册
<zw版·Halcon-delphi系列原创教程> zw版-Halcon常用函数Top100中文速查手册 Halcon函数库非常庞大,v11版有1900多个算子(函数). 这个Top版,对 ...
.htaccess下Flags速查表
Flags是可选参数,当有多个标志同时出现时,彼此间以逗号分隔. 速查表: RewirteRule 标记含义描述 R Redirect 发出一个HTTP重定向 F Forbidden 禁止对URL ...
IL指令速查
名称说明 Add 将两个值相加并将结果推送到计算堆栈上. Add.Ovf 将两个整数相加,执行溢出检查,并且将结果推送到计算堆栈上. Add.Ovf.Un 将两个无符号整数值相加,执行溢出检查,并且 ...
Linux命令速查手册，超详细Linux命令教程
一.常用命令速查 ls cd pwd cat more less tail head cp scp mv mkdir rmdir touch rm ps kill top free clear tre ...
25个有用的和方便的 WordPress 速查手册
如果你是 WordPress 开发人员,下载一些方便的 WordPress 备忘单可以在你需要的时候快速查找.下面这个列表,我们已经列出了25个有用的和方便的 WordPress 速查手册,赶紧收藏吧 ...

随机推荐

论文写作+gnuplot制图
一:论文写作论文写作推荐使用LATEX+TEXStudio+TEXLive 1.CTeX官方网站:http://www.ctex.org/HomePage ,他类似于python环境 2.TeXst ...
keyup事件、keydown事件和input事件的区别
keydown.keyup 属于键盘事件,input 属于文本事件详细说明: keydown:当用户按下键盘上的任意按键时触发,如果按住不放,会重复触发此事件. keyup:当用户释放键盘上的按键时 ...
PHP的错误知识
一.绪 PHP程序的错误发生一般归属于: 语法错误(会阻止脚本的执行) 运行时错误(不会阻止脚本的执行,但会组织脚本做希望它做的任何事情) 逻辑错误(不会阻止脚本执行,也不会显示错误消息) 二.开启错 ...
PAT B1020 月饼
#include<iostream> #include<algorithm> using namespace std; struct mooncake { double sto ...
hdfs的bug纪录， Unexpected block state
今早遇到一个bug,提交 spark job 失败.说 hdfs 在 safe mode状态,不允许创建和删除文件. 然后发现 hdfs 的日志文件不断滚动,几乎每秒钟100M的速度打日志,当时没 ...
jenkins构建python项目时，提示python不是内部或外部命令的解决办法
1.回到 Jenkins 首页,点击 “构建执行状态”或“Build Executor Status” ,右则会列出本机信息. 完美解决!!!
通过注册码破解IntelliJ IDEA
把激活码填入下面的地方即可.如果不知道在哪里,那么就选菜单栏里的help再选Register就会弹出下面的界面激活码网址里面有 lookdiv.com 里面的钥匙就是lookdiv.com
ubuntu18.04 LAMP DVWA
一.基本擦作: sudo apt-get install lamp-server^ sudo chmod 777 /var/www #也有可能是/var/www/html,访问127.0.0.1验证是 ...
Jquery插件---渐隐轮播
//需求:打开网页时,每秒钟自动切换下一张图片内容.也可以用鼠标点导航按钮进行图片切换 //代码如下 <!DOCTYPE html> <html lang="en" ...
SQL注入的原理及分析
注入攻击的本质:将用户输入的数据当做代码执行. 有2个限制条件: 1.用户能够控制输入. 2.原本程序要执行的代码,拼接了用户输入的数据后进行执行. 定义:用户输入的数据被当做SQL语句执行. 以下面 ...

Sklearn 速查

版权所有，转帖注明出处

章节

一个基本例子

加载数据

预处理数据

标准化/Standardization

归一化/Normalization

二值化/Binarization

类别特征编码

缺失值估算

生成多项式特征

训练与测试数据分组

创建模型

有监督学习模型

线性回归

支持向量机(SVM)

朴素贝叶斯

KNN

无监督学习模型

主成分分析(PCA)

k均值/K Means

模型拟合

有监督学习

无监督学习

模型预测

有监督学习

无监督学习

评估模型性能

分类指标

准确度

分类报告

混淆矩阵

回归指标

平均绝对误差

均方差

$R^2$分数

聚类指标

调整兰德系数

同质性/Homogeneity

调和平均指标/V-measure

交叉验证

模型调优

网格搜索

随机参数优化

Sklearn 速查的更多相关文章

随机推荐

热门专题