几种分类器的基本调用方法

本节的目的是基本的使用这些工具，达到熟悉sklearn的流程而已，既不会设计超参数的选择原理（后面会进行介绍），也不会介绍数学原理（应该不会涉及了，打公式超麻烦，而且近期也没有系统的学习机器学习数学原理的计划，下学期可能会重拾cs229，当然如果在上课展示或者实验室任务中用到的特定方法还是很可能用博客记录一下的，笑）。

Logistic & SGDC

'''Logistic & SGDC'''

'''数据预处理'''

import numpy as np

import pandas as pd

column_names = ['Sample code number', 'Clump Trickness', 'Uniformity of Cell Size', 'Uniformity of Cell Shape',

                'Marginal Adhesion', 'Single Epithelial Cell Size', 'Bare Nuclei', 'Bland Chromatin',

                'Normal Nucleoli', 'Mitoses', 'Class']

data = pd.read_csv('C:\Projects\python3_5\Keggle\\breast-cancer-wisconsin.csv', names = column_names)

# print(data.shape) # （699，11）

data = data.replace(to_replace = '?', value = np.nan)  # 原数据缺失值为？，替换为标准缺失值

data = data.dropna(how = 'any')                        # 将含有标准缺失值的行替换掉

print(data.shape, '\r', '-----'*15)

'''训练测试数据分割'''

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(data[column_names[1:10]], data[column_names[10]],

                                                    test_size=0.25, random_state=33)

print(y_train.value_counts())

print(y_test.value_counts())

'''标准化数据并执行分类'''

from sklearn.preprocessing import StandardScaler

from sklearn.linear_model import LogisticRegression, SGDClassifier

# 方差为1，均值为0

ss = StandardScaler()

X_train = ss.fit_transform(X_train)

X_test = ss.fit_transform(X_test)

lr = LogisticRegression()

lr.fit(X_train, y_train)

lr_y_predict = lr.predict(X_test)

sgdc = SGDClassifier()

sgdc.fit(X_train, y_train)

sgdc_y_predict = sgdc.predict(X_test)

'''模型测评'''

from sklearn.metrics import classification_report

print('LR准确率：', lr.score(X_test, y_test))

print(classification_report(y_test, lr_y_predict, target_names=['Benign', 'Malignant']))

print('SGDC准确率：', sgdc.score(X_test, y_test))

print(classification_report(y_test, sgdc_y_predict, target_names=['Benign', 'Malignant']))

# SGDC效果浮动性很大，LR很稳定，一般情况下LR准确度更高

# recall召回率：预测为真的中真的为真的

# precision精确率：真的为真中被预测为真的

SVM

'''SVM'''

'''载入数据'''

from sklearn.datasets import load_digits

digits = load_digits()

print(digits.data.shape)

'''训练测试数据划分'''

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(digits.data, digits.target, test_size=0.25, random_state=33)

print(y_train.shape, '\r', y_test.shape)

#  print(y_test.value_counts()) 失败的原因是这是一个DataFrame方法

'''标准化&分类'''

from sklearn.preprocessing import StandardScaler

from sklearn.svm import LinearSVC  # 基于线性假设的支持向量机SVC

ss = StandardScaler()

X_train = ss.fit_transform(X_train)

X_test = ss.fit_transform(X_test)

lsvc = LinearSVC()

lsvc.fit(X_train, y_train)

y_predict = lsvc.predict(X_test)

'''评估模型'''

from sklearn.metrics import classification_report

print('准确率：', lsvc.score(X_test, y_test))

print(classification_report(y_test, y_predict, target_names=digits.target_names.astype(str)))

朴素贝叶斯

'''朴素贝叶斯'''

'''载入数据集'''

from sklearn.datasets import fetch_20newsgroups

news = fetch_20newsgroups(subset='all')

print(len(news.data))

print(news.data[0])

'''划分数据集'''

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(news.data, news.target, test_size=0.25, random_state=33)

'''文本数据向量化'''

# 不明白原理，需要进一步查询

from sklearn.feature_extraction.text import CountVectorizer

vec = CountVectorizer()

X_train = vec.fit_transform(X_train)

X_test = vec.transform(X_test)

# print('-----'*15)

# print(X_train[0])

'''朴素贝叶斯分类器'''

from sklearn.naive_bayes import MultinomialNB

mnb = MultinomialNB()

mnb.fit(X_train, y_train)

y_predict = mnb.predict(X_test)

'''评估模型'''

from sklearn.metrics import classification_report

print('准确率：', mnb.score(X_test, y_test))

print(classification_report(y_test, y_predict, target_names=news.target_names))

K近邻

'''K近邻'''

'''数据集载入'''

from sklearn.datasets import load_iris

iris = load_iris()

print(iris.data.shape)

print(iris.DESCR)

'''数据集划分'''

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.25, random_state=33)

'''数据集预处理（标准化）'''

from sklearn.preprocessing import StandardScaler

ss = StandardScaler()

X_train = ss.fit_transform(X_train)

X_test = ss.fit_transform(X_test)

'''K近邻分类'''

from sklearn.neighbors import KNeighborsClassifier

knc = KNeighborsClassifier()

knc.fit(X_train, y_train)

y_predict = knc.predict(X_test)

'''评估'''

from sklearn.metrics import classification_report

print(knc.score(X_test, y_test))

print(classification_report(y_test, y_predict, target_names=iris.target_names))

sklearn.feature_extraction.text.CountVectorizer

建立词袋的方法，可以通过binary参数True和False表示是使用0，1还是使用出现次数记录对应单词，

print(vec.get_feature_names())
输出的是一个list，元素是很多字符串，表示特征

print(X_train[0])
输出的是一个稀疏矩阵的第0行（第一个文件），形式如下，

　　(0, 57011) 1
　　(0, 96571) 1
　　(0, 11905) 1
　　: :
　　(0, 88624) 1
　　(0, 54291) 1
　　(0, 137926) 2

　为了直观理解，我们这样，

print(X_train[0][0, 57011])
会输出1，所以这真的是个矩阵（废话），而且稀疏矩阵提取元素是有问题的，

print(X_train[0][57011])
会报错，

print(X_train[0, 57011])
就没问题，

X_train.toarray()
可以转化为np数组

『Kaggle』Sklearn中几种分类器的调用&词袋建立的更多相关文章

python:函数中五花八门的参数形式(茴香豆的『回』字有四种写法)
毫不夸张的说,python语言中关于函数参数的使用,是我见过最为灵活的,随便怎么玩都可以,本文以数学乘法为例,演示几种不同的传参形式: 一.默认参数 def multiply1(x, y): retu ...
『Kaggle』分类任务_决策树&集成模型&DataFrame向量化操作
决策树这节中涉及到了很多pandas中的新的函数用法等,所以我单拿出来详细的理解一下这些pandas处理过程,进一步理解pandas背后的数据处理的手段原理. 决策树程序数据载入 pd.read_c ...
『转载』Matlab中fmincon函数获取乘子
Matlab中fmincon函数获取乘子一.输出结构 [x,fval,exitflag,output,lambda] = fmincon(......) 二.结构说明 lambda结构说 ...
JS 中通过对象关联实现『继承』
JS 中继承其实是种委托,而不是传统面向对象中的复制父类到子类,只是通过原型链将要做的事委托给父类. 下面介绍通过对象关联来实现『继承』的方法: Foo = { // 需要提供一个 init 方法来初 ...
『Python题库 - 简答题』 Python中的基本概念 (121道)
## 『Python题库 - 简答题』 Python中的基本概念 1. Python和Java.PHP.C.C#.C++等其他语言的对比? 2. 简述解释型和编译型编程语言? 3. 代码中要修改不可变 ...
『浅入深出』MySQL 中事务的实现
在关系型数据库中,事务的重要性不言而喻,只要对数据库稍有了解的人都知道事务具有 ACID 四个基本属性,而我们不知道的可能就是数据库是如何实现这四个属性的:在这篇文章中,我们将对事务的实现进行分析,尝 ...
『TensorFlow』通过代码理解gan网络_中
『cs231n』通过代码理解gan网络&tensorflow共享变量机制_上上篇是一个尝试生成minist手写体数据的简单GAN网络,之前有介绍过,图片维度是28*28*1,生成器的上采样使 ...
sklearn 中模型保存的两种方法
一. sklearn中提供了高效的模型持久化模块joblib,将模型保存至硬盘. from sklearn.externals import joblib #lr是一个LogisticRegressi ...
『TensorFlow』分类问题与两种交叉熵
关于categorical cross entropy 和 binary cross entropy的比较,差异一般体现在不同的分类(二分类.多分类等)任务目标,可以参考文章keras中两种交叉熵损失 ...

随机推荐

Maven的scope的值
Maven的依赖范围在pom.xml文件中,有个元素是scope,用来表示依赖的范围.之所以会有依赖范围,是因为Maven在编译.测试和运行项目时会各自使用一套classpath,依赖范围就是用来控 ...
谷歌笔试题--给定一个集合A=[0,1,3,8](该集合中的元素都是在0，9之间的数字，但未必全部包含)，指定任意一个正整数K，请用A中的元素组成一个大于K的最小正整数。
谷歌笔试题--给定一个集合A=[0,1,3,8](该集合中的元素都是在0,9之间的数字,但未必全部包含), 指定任意一个正整数K,请用A中的元素组成一个大于K的最小正整数. Google2009华南地 ...
LabVIEW如何方便地调用DLL文件
转自:http://bbs.elecfans.com/jishu_469502_1_1.html LabVIEW调用DLL文件 LabVIEW支持通过调用DLL文件的方式与其它编程语言混合使用.比 ...
(iOS)关于键盘遮挡textfield问题
记录一下自己经常遇到问题.使用textfield(textview).当输入框位置比较靠下时,弹出的键盘会遮挡输入框,这是就需要动态移动输入框编辑状态时self.view的位置, 自己经常用的方法有两 ...
java项目跑起来报错: 程序报 SLF4J: Failed to load class "org.slf4j.impl.StaticLoggerBinder". 错误
问题: 我用的是ssm框架结合, 利用junit测试的时候抛出 SLF4J: Failed to load class "org.slf4j.impl.StaticLoggerBinder& ...
20145127《java程序设计》第五周学习总结
教材学习内容总结第八章异常处理 1.try catch java中所有错误会被打包成对象,可以进行尝试捕捉代表错误的对象进行处理. Import java.until.Scanner; Publi ...
USACO 1.3 Ski Course Design - 暴力
Ski Course Design Farmer John has N hills on his farm (1 <= N <= 1,000), each with an integer ...
[js] - 关于js的排序sort
js的排序sort并不能一次排序好 function solution(nums){ return nums.sort(sortNumber); } function sortNumber(a, b) ...
echart折线图，柱状图，饼图设置颜色
转载: 之前在做报表的时候用过echart 用完也就完了,而这次在用的时候已经忘了,所以这里简单记录一下,好记性不如烂笔头!!! 1.折线图修改颜色: xAxis: { type: 'category ...
重拾IP路由选择：CCNA学习指南中的IP路由选择
IP路由选择技术是网络技术的核心部分,也是目前研究的热点,其中的动态路由选择协议比如RIPv1,RIPv2,OSPF等,解决了数据在网络中转递的诸多问题. 在TCP/IP协议详解的学习过程中,我 ...

『Kaggle』Sklearn中几种分类器的调用&词袋建立