机器学习之路:python线性回归分类器 LogisticRegression SGDClassifier 进行良恶性肿瘤分类预测
使用python3 学习了线性回归的api
分别使用逻辑斯蒂回归 和 随机参数估计回归 对良恶性肿瘤进行预测
我把数据集下载到了本地,可以来我的git下载源代码和数据集:https://github.com/linyi0604/MachineLearning
import numpy as np
import pandas as pd
from sklearn.cross_validation import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression, SGDClassifier
from sklearn.metrics import classification_report '''
线性分类器
最基本和常用的机器学习模型
受限于数据特征与分类目标的线性假设
逻辑斯蒂回归 计算时间长,模型性能略高
随机参数估计 计算时间短,模型性能略低
''' '''
1 数据预处理
'''
# 创建特征列表
column_names = ['Sample code number', 'Clump Thickness', 'Uniformity of Cell Size',
'Uniformity of Cell Shape', 'Marginal Adhesion', 'Single Epithelial Cell size',
'Bare Nuclei', 'Bland Chromatin', 'Normal Nucleoli', 'Mitoses', 'Class']
# 使用pandas.read_csv取数据集
data = pd.read_csv('./data/breast/breast-cancer-wisconsin.data', names=column_names)
# 将?替换为标准缺失值表示
data = data.replace(to_replace='?', value=np.nan)
# 丢失带有缺失值的数据 只要有一个维度有缺失就丢弃
data = data.dropna(how='any')
# 输出data数据的数量和维度
# print(data.shape) '''
2 准备 良恶性肿瘤训练、测试数据部分
'''
# 随机采样25%数据用于测试 75%数据用于训练
x_train, x_test, y_train, y_test = train_test_split(data[column_names[1:10]],
data[column_names[10]],
test_size=0.25,
random_state=33)
# 查验训练样本和测试样本的数量和类别分布
# print(y_train.value_counts())
# print(y_test.value_counts())
'''
训练样本共512条 其中344条良性肿瘤 168条恶性肿瘤
2 344
4 168
Name: Class, dtype: int64
测试数据共171条 其中100条良性肿瘤 71条恶性肿瘤
2 100
4 71
Name: Class, dtype: int64
''' '''
3 机器学习模型进行预测部分
'''
# 数据标准化,保证每个维度特征的方差为1 均值为0 预测结果不会被某些维度过大的特征值主导
ss = StandardScaler()
x_train = ss.fit_transform(x_train) # 对x_train进行标准化
x_test = ss.transform(x_test) # 用与x_train相同的规则对x_test进行标准化,不重新建立规则 # 分别使用 逻辑斯蒂回归 和 随机参数估计 两种方法进行学习预测 lr = LogisticRegression() # 初始化逻辑斯蒂回归模型
sgdc = SGDClassifier() # 初始化随机参数估计模型 # 使用 逻辑斯蒂回归 在训练集合上训练
lr.fit(x_train, y_train)
# 训练好后 对测试集合进行预测 预测结果保存在 lr_y_predict中
lr_y_predict = lr.predict(x_test) # 使用 随机参数估计 在训练集合上训练
sgdc.fit(x_train, y_train)
# 训练好后 对测试集合进行预测 结果保存在 sgdc_y_predict中
sgdc_y_predict = sgdc.predict(x_test) '''
4 性能分析部分
'''
# 逻辑斯蒂回归模型自带评分函数score获得模型在测试集合上的准确率
print("逻辑斯蒂回归准确率:", lr.score(x_test, y_test))
# 逻辑斯蒂回归的其他指标
print("逻辑斯蒂回归的其他指标:\n", classification_report(y_test, lr_y_predict, target_names=["Benign", "Malignant"])) # 随机参数估计的性能分析
print("随机参数估计准确率:", sgdc.score(x_test, y_test))
# 随机参数估计的其他指标
print("随机参数估计的其他指标:\n", classification_report(y_test, sgdc_y_predict, target_names=["Benign", "Malignant"])) '''
recall 召回率
precision 精确率
fl-score
support 逻辑斯蒂回归准确率: 0.9707602339181286
逻辑斯蒂回归的其他指标:
precision recall f1-score support Benign 0.96 0.99 0.98 100
Malignant 0.99 0.94 0.96 71 avg / total 0.97 0.97 0.97 171 随机参数估计准确率: 0.9649122807017544
随机参数估计的其他指标:
precision recall f1-score support Benign 0.97 0.97 0.97 100
Malignant 0.96 0.96 0.96 71 avg / total 0.96 0.96 0.96 171
'''
机器学习之路:python线性回归分类器 LogisticRegression SGDClassifier 进行良恶性肿瘤分类预测的更多相关文章
- 机器学习之路: python 线性回归LinearRegression, 随机参数回归SGDRegressor 预测波士顿房价
python3学习使用api 线性回归,和 随机参数回归 git: https://github.com/linyi0604/MachineLearning from sklearn.datasets ...
- 机器学习之路: python k近邻分类器 KNeighborsClassifier 鸢尾花分类预测
使用python语言 学习k近邻分类器的api 欢迎来到我的git查看源代码: https://github.com/linyi0604/MachineLearning from sklearn.da ...
- 机器学习之路: python 决策树分类DecisionTreeClassifier 预测泰坦尼克号乘客是否幸存
使用python3 学习了决策树分类器的api 涉及到 特征的提取,数据类型保留,分类类型抽取出来新的类型 需要网上下载数据集,我把他们下载到了本地, 可以到我的git下载代码和数据集: https: ...
- 机器学习之路--Python
常用数据结构 1.list 列表 有序集合 classmates = ['Michael', 'Bob', 'Tracy'] len(classmates) classmates[0] len(cla ...
- 机器学习之路: python 回归树 DecisionTreeRegressor 预测波士顿房价
python3 学习api的使用 git: https://github.com/linyi0604/MachineLearning 代码: from sklearn.datasets import ...
- 【Python】机器学习之单变量线性回归 利用正规方程找到合适的参数值
[Python]机器学习之单变量线性回归 利用正规方程找到合适的参数值 本次作业来自吴恩达机器学习. 你是一个餐厅的老板,你想在其他城市开分店,所以你得到了一些数据(数据在本文最下方),数据中包括不同 ...
- 【Python】机器学习之单变量线性回归 利用批量梯度下降找到合适的参数值
[Python]机器学习之单变量线性回归 利用批量梯度下降找到合适的参数值 本题目来自吴恩达机器学习视频. 题目: 你是一个餐厅的老板,你想在其他城市开分店,所以你得到了一些数据(数据在本文最下方), ...
- 机器学习算法与Python实践之(七)逻辑回归(Logistic Regression)
http://blog.csdn.net/zouxy09/article/details/20319673 机器学习算法与Python实践之(七)逻辑回归(Logistic Regression) z ...
- 机器学习算法与Python实践之(三)支持向量机(SVM)进阶
机器学习算法与Python实践之(三)支持向量机(SVM)进阶 机器学习算法与Python实践之(三)支持向量机(SVM)进阶 zouxy09@qq.com http://blog.csdn.net/ ...
随机推荐
- 【CC2530强化实训01】普通延时函数实现按键的长按与短按
[CC2530强化实训01]普通延时函数实现按键的长按与短按 [题目要求] 用一个按键实现长按与短按的功能已经是很多嵌入式产品的常用手法.使用定时器的间隔定时来进行按键按下的时间是通用的做法, ...
- php的几个实用正则表达式
更多内容推荐微信公众号,欢迎关注: 此文章是网上搜索而来: 对于开发人员来说,正则表达式是一个非常有用的功能,它提供了 查找,匹配,替换 句子,单词,或者其他格式的字符串.这篇文章主要介绍了15个超实 ...
- boost::bind的使用
最近在几经波折之后,终于对于boost::bind有点理解了.对于习惯了其他语言的人来说,boost::bind是个挺神奇的东西,它可以将你的方法适配成任何其他的方法.其实这得益于c++的模板以及操作 ...
- required_new spring事务传播行为无效碰到的坑!
在测试事务传播行为的时候,因为用了同一个service中的方法测试,所以不管怎么设置都无效了: 原因是aop动态代理只会拦截一次执行方法,第二个方法是照搬的,只要调用其他service中的事务方法,传 ...
- java后台中处理图片辅助类汇总(上传图片到服务器,从服务器下载图片保存到本地,缩放图片,copy图片,往图片添加水印图片或者文字,生成二维码,删除图片等)
最近工作中处理小程序宝箱活动,需要java画海报,所以把这块都快百度遍了,记录一下处理的方法,百度博客上面也有不少坑! 获取本地图片路径: String bgPath = Thread.current ...
- javascript中用闭包递归遍历树状数组
做公司项目时,要求写一个方法,方法的参数为一个菜单数组集合和一个菜单id,菜单数组的格式为树状json,如下面所示: [{"id":28,"text":&quo ...
- 一步一步搭建11gR2 rac+dg之DG 机器配置(七)【转】
DG 机器配置 转自: 一步一步搭建11gR2 rac+dg之DG 机器配置(七)-lhrbest-ITPUB博客http://blog.itpub.net/26736162/viewspace-12 ...
- Linux压缩打包方法连载之三:bzip2, bzcat 命令
Linux压缩打包方法有多种,本文集中讲解了bzip2, bzcat 命令的使用.案例说明,例如# 与 gzip 同样的,都是在计算压缩比的参数,-9 最佳,-1 最快. AD: 我们遇见Linux压 ...
- Visual Studio 2017 for Mac
Visual Studio 2017 for Mac Last Update: 2017/6/16 我们非常荣幸地宣布 Visual Studio 2017 for Mac 现已推出. Visual ...
- redis tutorail
命令 set get incr expire 秒 ttl -1 不会过期 list : lpush rpush lpop rpop lrange llen se ...