数据挖掘-diabetes数据集分析-糖尿病病情预测_线性回归

# coding: utf-8
# 利用 diabetes数据集来学习线性回归
# diabetes 是一个关于糖尿病的数据集，该数据集包括442个病人的生理数据及一年以后的病情发展情况。
# 数据集中的特征值总共10项, 如下:
# 年龄
# 性别
#体质指数
#血压
#s1,s2,s3,s4,s4,s6 (六种血清的化验数据)
#但请注意，以上的数据是经过特殊处理， 10个数据中的每个都做了均值中心化处理，然后又用标准差乘以个体数量调整了数值范围。验证就会发现任何一列的所有数值平方和为1.
#关于数据集更多的信息: http://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_diabetes.html
# http://scikit-learn.org/stable/datasets/index.html#datasets
import numpy as np
from sklearn import datasets
diabetes=datasets.load_diabetes()
#查看第一列年龄的数据
diabetes.data[0]
#求证：每一列的数值的平方和为1
np.sum( diabetes.data[:,0]**2) #求年龄列
#糖尿病进展的数据
diabetes.target #数值介于 25到346之间
#切分训练集与测试集
#自动切分训练集太小了
#from sklearn.cross_validation import train_test_split
#x_train,x_test,y_train,y_test=train_test_split( diabetes.data,diabetes.target,random_state=14)
#所以换成手工切分
x_train=diabetes.data[:-20]
y_train=diabetes.target[:-20]
x_test=diabetes.data[-20:]
y_test=diabetes.target[-20:]
#什么是回归呢? 回归的目的是预测数值型的目标值。最直接的办法是根据训练数据计算出一个求目标值的计算公式。假如你想预测一个地区的餐馆数量，可能会这么计算：
# num = 0.002 * people + 0.001 * gpd
# 以上就是所谓的回归方程，其中的0.002, 0.001称作回归系数，求这些回归系数的过程就是回归。一旦求出了这些回归系数，再给定输入，做预测就简单了.
# 回归分为线性回归和非线性回归。上面的公式描述的就是线性回归.
#线性回归通过拟合线性模型的回归系数W =（w_1，…，w_p）来减少数据中观察到的结果和实际结果之间的残差平方和，并通过线性逼近进行预测。
#scikit-learn库的线性回归预测模型通过fit(x,y)方法来训xaisaj型，其中x为数据的属性，y为所属的类型.线性模型的回归系数W会保存在它的coef_方法中.
from sklearn import linear_model
linreg=linear_model.LinearRegression() #创建线性回归
#用训练集训练模型
linreg.fit( x_train,y_train)
#调用预测模型的coef_属性,求出每种生理数据的回归系数b, 一共10个结果，分别对应10个生理特征.
linreg.coef_
#在模型上调用predict()函数，传入测试集，得到预测值，
linreg.predict( x_test )
#结果:array([ 197.61846908, 155.43979328, 172.88665147, 111.53537279,
# 164.80054784, 131.06954875, 259.12237761, 100.47935157,
# 117.0601052 , 124.30503555, 218.36632793, 61.19831284,
# 132.25046751, 120.3332925 , 52.54458691, 194.03798088,
# 102.57139702, 123.56604987, 211.0346317 , 52.60335674])
#查看实际目标值
y_test
#array([ 233., 91., 111., 152., 120., 67., 310., 94., 183.,
# 66., 173., 72., 49., 64., 48., 178., 104., 132.,
# 220., 57.])
#如何评价以上的模型优劣呢？我们可以引入方差，方差越接近于1,模型越好.
# 方差: 统计中的方差（样本方差）是各个数据分别与其平均数之差的平方的和的平均数
linreg.score( x_test,y_test)
#对每个特征绘制一个线性回归图表
import matplotlib.pyplot as plt
#matplot显示图例中的中文问题 : https://www.zhihu.com/question/25404709/answer/67672003
import matplotlib.font_manager as fm
#mac中的字体问题请看: https://zhidao.baidu.com/question/161361596.html
myfont = fm.FontProperties(fname='/Library/Fonts/Xingkai.ttc')
plt.figure( figsize=(8,12))
#循环10个特征
for f in range(0,10):
#取出测试集中第f特征列的值, 这样取出来的数组变成一维的了，
xi_test=x_test[:,f]
#取出训练集中第f特征列的值
xi_train=x_train[:,f]
#将一维数组转为二维的
xi_test=xi_test[:,np.newaxis]
xi_train=xi_train[:,np.newaxis]
plt.ylabel(u'病情数值',fontproperties=myfont)
linreg.fit( xi_train,y_train) #根据第f特征列进行训练
y=linreg.predict( xi_test ) #根据上面训练的模型进行预测,得到预测结果y
#加入子图
plt.subplot(5,2,f+1) # 5表示10个图分为5行, 2表示每行2个图, f+1表示图的编号，可以使用这个编号控制这个图
#绘制点代表测试集的数据分布情况
plt.scatter( xi_test,y_test,color='k' )
#绘制线
plt.plot(xi_test,y,color='b',linewidth=3)
plt.savefig('python_糖尿病数据集_预测病情_线性回归_最小平方回归.png')
plt.show()

数据挖掘-diabetes数据集分析-糖尿病病情预测_线性回归_最小平方回归的更多相关文章

[matlab] 21.灰色预测、线性回归分析模型与最小二乘回归 (转载)
灰色预测的主要特点是只需要4个数据,就能解决历史数据少,序列的完整性以及可靠性低的问题,能将无规律的原始数据进行生成得到规律性较强的生成序列,易于检验但缺点是只适合中短期的预测,且只适合指数级增长的 ...
《机器学习_01_线性模型_线性回归_正则化(Lasso,Ridge,ElasticNet)》
一.过拟合建模的目的是让模型学习到数据的一般性规律,但有时候可能会学过头,学到一些噪声数据的特性,虽然模型可以在训练集上取得好的表现,但在测试集上结果往往会变差,这时称模型陷入了过拟合,接下来造一些 ...
Python数据挖掘之决策树DTC数据分析及鸢尾数据集分析
Python数据挖掘之决策树DTC数据分析及鸢尾数据集分析今天主要讲述的内容是关于决策树的知识,主要包括以下内容:1.分类及决策树算法介绍2.鸢尾花卉数据集介绍3.决策树实现鸢尾数据集分析.希望这篇 ...
人工智能大数据,公开的海量数据集下载,ImageNet数据集下载,数据挖掘机器学习数据集下载
人工智能大数据,公开的海量数据集下载,ImageNet数据集下载,数据挖掘机器学习数据集下载 ImageNet挑战赛中超越人类的计算机视觉系统微软亚洲研究院视觉计算组基于深度卷积神经网络(CNN)的计 ...
PASCAL VOC数据集分析（转）
PASCAL VOC数据集分析 PASCAL VOC为图像识别和分类提供了一整套标准化的优秀的数据集,从2005年到2012年每年都会举行一场图像识别challenge. 本文主要分析PASCAL V ...
【数据挖掘】关联分析之Apriori（转载）
[数据挖掘]关联分析之Apriori 1.Apriori算法如果一个事务中有X,则该事务中则很有可能有Y,写成关联规则 {X}→{Y} 将这种找出项目之间联系的方法叫做关联分析.关联分析中最有名的问 ...
【计算机视觉】PASCAL VOC数据集分析
PASCAL VOC数据集分析 PASCAL VOC为图像识别和分类提供了一整套标准化的优秀的数据集,从2005年到2012年每年都会举行一场图像识别challenge. 本文主要分析PASCAL V ...
R语言重要数据集分析研究——需要整理分析阐明理念
1.R语言重要数据集分析研究需要整理分析阐明理念? 上一节讲了R语言作图,本节来讲讲当你拿到一个数据集的时候如何下手分析,数据分析的第一步,探索性数据分析. 统计量,即统计学里面关注的数据集的几个指标 ...
js分析天_眼_查字体文件
0. 参考 js分析猫_眼_电_影字体文件 @font-face 1. 分析 1.1 定位目标元素 1.2 查看网页源代码 1.3 requests 请求提取得到大量错误信息对比猫_眼_电_影抓 ...

随机推荐

JS 实现省市联动
使用 JavaScript 实现选择省份,后面联动改变成相应省份下的市原理很简单: 首先创建两个select下拉框(省.市) 初始化的时候让省都显示出来,市为空 ................. ...
CF 540D Bad Luck Island
一看就是DP题(很水的一道紫题) 设$dp[i][j][k]$为留下$i$个$r$族的人,死去$j$个$s$族的人,死去$k$个$p$族的人的概率(跟其他的题解有点差别,但 ...
【JZOJ6274】梦境
description analysis 其实可以贪心先把区间按左端点排序,转折点也排序扫一次转折点,把所有左端点在当前点左边的区间丢进优先队列里按照贪心策略,对于某个转折点,一定选择右端点离它 ...
二分图建图，并查集求联通——二维等价性传递 cf1012B好题！
/* 模拟二分图:每个点作为一条边,连接的是一列和一行(抽象成一个点,列在左,行在右) 由题意得 a-b相连,a-c相连,b-d相连,那么d-c就不用再相连了等价于把二分图变成联通的需要再加多少边 ...
洛谷 P2114 [NOI2014]起床困难综合症
题目描述 21世纪,许多人得了一种奇怪的病:起床困难综合症,其临床表现为:起床难,起床后精神不佳.作为一名青春阳光好少年,atm一直坚持与起床困难综合症作斗争.通过研究相关文献,他找到了该病的发病原因 ...
JSON对象和字符串之间的相互转换 – JSON.parse() 和 JSON.stringify()
所有现代浏览器都支持 JSON 对象,有两个非常有用的方法来处理 JSON 格式的内容: JSON.parse(string) :接受一个 JSON 字符串并将其转换成一个 JavaScript 对象 ...
django2 rest api
版本django 2.2.3,我用的社区版 1.安装django:pycharm——Settings——Project Interpreter——选择你要的Python解释器版本——点击右侧的加号,输 ...
标记excel中输入的重复数据
首先选中需要标记重复的数据列开始 -> 条件格式 -> 突出显示单元格规则 -> 重复值选择相应的颜色即可效果如下:
datagrid 的标题的内容不对应整齐
$(document).ready(function(){ var column = "[["+ "{'title':'工号','field':'grantorCode' ...
深夜Python - 第2夜 - 爬行
深夜Python - 第2夜 - 爬行我曾经幻想自己是一只蜗牛,有自己的一只小壳,不怕风,不怕雨,浪荡江湖,游历四方……夜猫兄一如既往地打断了我不切实际的幻想:“浪荡?游历?等你退休了都爬不出家门口 ...

数据挖掘-diabetes数据集分析-糖尿病病情预测_线性回归_最小平方回归

数据挖掘-diabetes数据集分析-糖尿病病情预测_线性回归_最小平方回归的更多相关文章

随机推荐

热门专题