机器学习之路：python线性回归分类器 LogisticRegression SGDClassifier 进行良恶性肿瘤分类预测

使用python3 学习了线性回归的api

分别使用逻辑斯蒂回归和随机参数估计回归对良恶性肿瘤进行预测

我把数据集下载到了本地，可以来我的git下载源代码和数据集:https://github.com/linyi0604/MachineLearning

 import numpy as np

 import pandas as pd

 from sklearn.cross_validation import train_test_split

 from sklearn.preprocessing import StandardScaler

 from sklearn.linear_model import  LogisticRegression, SGDClassifier

 from sklearn.metrics import classification_report

 '''

 线性分类器

 最基本和常用的机器学习模型

 受限于数据特征与分类目标的线性假设

 逻辑斯蒂回归 计算时间长，模型性能略高

 随机参数估计 计算时间短，模型性能略低

 '''

 '''

 1 数据预处理

 '''

 # 创建特征列表

 column_names = ['Sample code number', 'Clump Thickness', 'Uniformity of Cell Size',

                 'Uniformity of Cell Shape', 'Marginal Adhesion', 'Single Epithelial Cell size',

                 'Bare Nuclei', 'Bland Chromatin', 'Normal Nucleoli', 'Mitoses', 'Class']

 # 使用pandas.read_csv取数据集

 data = pd.read_csv('./data/breast/breast-cancer-wisconsin.data', names=column_names)

 # 将?替换为标准缺失值表示

 data = data.replace(to_replace='?', value=np.nan)

 # 丢失带有缺失值的数据 只要有一个维度有缺失就丢弃

 data = data.dropna(how='any')

 # 输出data数据的数量和维度

 # print(data.shape)

 '''

 2 准备 良恶性肿瘤训练、测试数据部分

 '''

 # 随机采样25%数据用于测试 75%数据用于训练

 x_train, x_test, y_train, y_test = train_test_split(data[column_names[1:10]],

                                                     data[column_names[10]],

                                                     test_size=0.25,

                                                     random_state=33)

 # 查验训练样本和测试样本的数量和类别分布

 # print(y_train.value_counts())

 # print(y_test.value_counts())

 '''

 训练样本共512条 其中344条良性肿瘤  168条恶性肿瘤

 2    344

 4    168

 Name: Class, dtype: int64

 测试数据共171条 其中100条良性肿瘤 71条恶性肿瘤

 2    100

 4     71

 Name: Class, dtype: int64

 '''

 '''

 3 机器学习模型进行预测部分

 '''

 # 数据标准化，保证每个维度特征的方差为1 均值为0 预测结果不会被某些维度过大的特征值主导

 ss = StandardScaler()

 x_train = ss.fit_transform(x_train)     # 对x_train进行标准化

 x_test = ss.transform(x_test)       # 用与x_train相同的规则对x_test进行标准化，不重新建立规则

 # 分别使用 逻辑斯蒂回归 和 随机参数估计 两种方法进行学习预测

 lr = LogisticRegression()   # 初始化逻辑斯蒂回归模型

 sgdc = SGDClassifier()  # 初始化随机参数估计模型

 # 使用 逻辑斯蒂回归 在训练集合上训练

 lr.fit(x_train, y_train)

 # 训练好后 对测试集合进行预测 预测结果保存在 lr_y_predict中

 lr_y_predict = lr.predict(x_test)

 # 使用 随机参数估计 在训练集合上训练

 sgdc.fit(x_train, y_train)

 # 训练好后 对测试集合进行预测 结果保存在 sgdc_y_predict中

 sgdc_y_predict = sgdc.predict(x_test)

 '''

 4 性能分析部分

 '''

 # 逻辑斯蒂回归模型自带评分函数score获得模型在测试集合上的准确率

 print("逻辑斯蒂回归准确率：", lr.score(x_test, y_test))

 # 逻辑斯蒂回归的其他指标

 print("逻辑斯蒂回归的其他指标：\n", classification_report(y_test, lr_y_predict, target_names=["Benign", "Malignant"]))

 # 随机参数估计的性能分析

 print("随机参数估计准确率：", sgdc.score(x_test, y_test))

 # 随机参数估计的其他指标

 print("随机参数估计的其他指标:\n", classification_report(y_test, sgdc_y_predict, target_names=["Benign", "Malignant"]))

 '''

 recall 召回率

 precision 精确率

 fl-score

 support

 逻辑斯蒂回归准确率： 0.9707602339181286

 逻辑斯蒂回归的其他指标：

               precision    recall  f1-score   support

      Benign       0.96      0.99      0.98       100

   Malignant       0.99      0.94      0.96        71

 avg / total       0.97      0.97      0.97       171

 随机参数估计准确率： 0.9649122807017544

 随机参数估计的其他指标:

               precision    recall  f1-score   support

      Benign       0.97      0.97      0.97       100

   Malignant       0.96      0.96      0.96        71

 avg / total       0.96      0.96      0.96       171

 '''

机器学习之路：python线性回归分类器 LogisticRegression SGDClassifier 进行良恶性肿瘤分类预测的更多相关文章

机器学习之路: python 线性回归LinearRegression, 随机参数回归SGDRegressor 预测波士顿房价
python3学习使用api 线性回归,和随机参数回归 git: https://github.com/linyi0604/MachineLearning from sklearn.datasets ...
机器学习之路: python k近邻分类器 KNeighborsClassifier 鸢尾花分类预测
使用python语言学习k近邻分类器的api 欢迎来到我的git查看源代码: https://github.com/linyi0604/MachineLearning from sklearn.da ...
机器学习之路: python 决策树分类DecisionTreeClassifier 预测泰坦尼克号乘客是否幸存
使用python3 学习了决策树分类器的api 涉及到特征的提取,数据类型保留,分类类型抽取出来新的类型需要网上下载数据集,我把他们下载到了本地, 可以到我的git下载代码和数据集: https: ...
机器学习之路--Python
常用数据结构 1.list 列表有序集合 classmates = ['Michael', 'Bob', 'Tracy'] len(classmates) classmates[0] len(cla ...
机器学习之路: python 回归树 DecisionTreeRegressor 预测波士顿房价
python3 学习api的使用 git: https://github.com/linyi0604/MachineLearning 代码: from sklearn.datasets import ...
【Python】机器学习之单变量线性回归利用正规方程找到合适的参数值
[Python]机器学习之单变量线性回归利用正规方程找到合适的参数值本次作业来自吴恩达机器学习. 你是一个餐厅的老板,你想在其他城市开分店,所以你得到了一些数据(数据在本文最下方),数据中包括不同 ...
【Python】机器学习之单变量线性回归利用批量梯度下降找到合适的参数值
[Python]机器学习之单变量线性回归利用批量梯度下降找到合适的参数值本题目来自吴恩达机器学习视频. 题目: 你是一个餐厅的老板,你想在其他城市开分店,所以你得到了一些数据(数据在本文最下方), ...
机器学习算法与Python实践之（七）逻辑回归（Logistic Regression）
http://blog.csdn.net/zouxy09/article/details/20319673 机器学习算法与Python实践之(七)逻辑回归(Logistic Regression) z ...
机器学习算法与Python实践之（三）支持向量机（SVM）进阶
机器学习算法与Python实践之(三)支持向量机(SVM)进阶机器学习算法与Python实践之(三)支持向量机(SVM)进阶 zouxy09@qq.com http://blog.csdn.net/ ...

随机推荐

weblogica 启动managed server 不用每次输入密码
[weblogic@node2 AdminServer]$ pwd /home/weblogic/Oracle/Middleware/Oracle_Home/user_projects/domains ...
洛谷 P4093: bzoj 4553: [HEOI2016/TJOI2016]序列
题目传送门:洛谷P4093. 题意简述: 给定一个长度为 $n$ 的序列 $a$. 同时这个序列还可能发生变化,每一种变化 $(x_i,y_i)$ 对应着 $a_{x_i}$ 可能变成 ...
LINUX vim 修改文件退出
vim 保存退出, 先按ESC ,然后:wq(保存退出)W:write,写入 Q:quit,退出, 也可以直接输入X,代表WQ,也是保存退出或者先按ESC,再按shift+ZZ 也是保存退出正常 ...
QUnit 实践一
项目准备启用Qunit, 先来尝试一下. 不说废话,上代码: <!DOCTYPE HTML> <html> <head> <meta http-equiv=& ...
C#实现控制Windows系统关机、重启和注销的方法
shutdown命令的参数: shutdown.exe -s:关机shutdown.exe -r:关机并重启shutdown.exe -l:注销当前用户 shutdown.exe -s -t 时间:设 ...
wiki confluence安装
注意:安装前请先确认内存至少2G 1.上传 atlassian-confluence-5.9.3-x64.bin 文件,修改权限 chmod 777 atlassian-confluence-5.9 ...
高版本SQL备份在低版本SQL还原问题
问题描述: 高版本SQL备份在低版本SQL还原问题(出现媒体簇的结构不正确) 分析原因: SQL版本兼容问题,SQL SERVER兼容级别是用作向下兼容用,高版本的SQL备份在低版本中不兼容 ...
java解析Xml格式的字符串
最近在工作中,需要调别的接口,接口返回的是一个字符串,而且内容是xml格式的,结果在解析json的时候报错,最终修改了接口的返回方式,以Map返回, 才得以接收到这个xml的字符串,然后通过dom4j ...
Dos.ORM - 目录、介绍
引言: Dos.ORM(原Hxj.Data)于2009年发布.2015年正式开源,该组件已在数百个成熟项目中应用,是目前国内用户量最大.最活跃.最完善的国产ORM.初期开发过程中参考了NBear与My ...
oracle创建job和删除job
https://blog.csdn.net/u010001043/article/details/56479774

机器学习之路：python线性回归分类器 LogisticRegression SGDClassifier 进行良恶性肿瘤分类预测

机器学习之路：python线性回归分类器 LogisticRegression SGDClassifier 进行良恶性肿瘤分类预测的更多相关文章

随机推荐

热门专题