Python数据科学手册-机器学习：线性回归

朴素贝叶斯是解决分类任务的好起点，线性回归是解决回归任务的好起点。

简单线性回归

将数据拟合成一条直线。

y = ax + b , a 是斜率， b是直线截距

原始数据如下：

使用LinearRegression评估器来拟合数据

除了简单的直线拟合，还可以处理多维度的线性回归模型。

基函数回归

使用基函数对原始数据进行变换，从而将变量间的线性回归模型转换为非线性回归模型。

一维的输入变量x 转换成了三维变量 x1 x2 x3.

转换后的模型仍然是一个线性模型。将一维的x投影到了高维空间

多项式基函数

多项式投影非常有用。使用PloynomialFeatures转换器。

转换器通过指数函数，将一维数组转换成了三维数组，这个新的高维数组之后可以放在多项式回归模型中。

使用管道实现这些过程。

高斯基函数

阴影部分代表不同规模的基函数。把他们放在一起是就会产生平滑的曲线。

正则化

在线性回归引入基函数会让模型变得灵活，但是也更容易过拟合，

当基函数重叠的时候，通常就表明出现了过拟合：相邻基函数的系数相互抵消。这显然是有问题的。如果对较大的模型参数进行惩罚， penalize .从而一直模型的剧烈波动。这个惩罚机制被称为正则化。

岭回归 L2范数正则化

正则化最常见的形式就是岭回归 ridge regression. 处理方法是对模型系数平方和进行惩罚，

a 是一个自由参数，用来控制惩罚力度，这种带惩罚项的模型内置在Scikit-Learn的Ridge评估器中。

Lasso正则化

其处理方法是堆模型系数绝对值的和进行惩罚。

通过lasso回归惩罚，大多数基函数的系数都变成了0. 所以模型变成了原来基函数的一小部分

案列：预测自行车流量

数据源自不同天气季节和其他条件通过美国西雅图的一座桥的自行车流量

Python数据科学手册-机器学习：线性回归的更多相关文章

Python数据科学手册-机器学习介绍
机器学习分为俩类: 有监督学习 supervised learning 和无监督学习 unsupervised learning 有监督学习: 对数据的若干特征与若干标签之间的关联性进行建模的过 ...
Python数据科学手册-机器学习：朴素贝叶斯分类
朴素贝叶斯模型朴素贝叶斯模型是一组非常简单快速的分类方法,通常适用于维度非常高的数据集.因为运行速度快,可调参数少.是一个快速粗糙的分类基本方案. naive Bayes classifiers 贝 ...
Python数据科学手册-机器学习之特征工程
特征工程常见示例: 分类数据.文本.图像. 还有提高模型复杂度的衍生特征和处理缺失数据的填充方法.这个过程被叫做向量化.把任意格式的数据转换成具有良好特性的向量形式. 分类特征比如房屋数 ...
Python数据科学手册-机器学习之模型验证
模型验证 model validation 就是在选择模型和超参数之后.通过对训练数据进行学习.对比模型对已知数据的预测值和实际值的差异. 错误的模型验证方法. 用同一套数据训练和评 ...
Python数据科学手册-机器学习: k-means聚类/高斯混合模型
前面学习的无监督学习模型:降维另一种无监督学习模型:聚类算法. 聚类算法直接冲数据的内在性质中学习最优的划分结果或者确定离散标签类型. 最简单最容易理解的聚类算法可能是 k-means聚类算法了. ...
Python数据科学手册-机器学习: 流形学习
PCA对非线性的数据集处理效果不太好. 另一种方法流形学习 manifold learning 是一种无监督评估器,试图将一个低维度流形嵌入到一个高纬度空间来描述数据集 . 类似一张纸 (二维) ...
Python数据科学手册-机器学习: 主成分分析
PCA principal component analysis 主成分分析是一个快速灵活的数据降维无监督方法, 可视化一个包含200个数据点的二维数据集 x 和 y有线性关系,无监督学习希望探索x值 ...
Python数据科学手册-机器学习: 决策树与随机森林
无参数算法随机森林随机森林是一种集成方法,集成多个比较简单的评估器形成累计效果. 导入标准程序库随机森林的诱因: 决策树随机森林是建立在决策树基础上的集成学习器建一颗决策树二叉决策树 ...
Python数据科学手册-机器学习: 支持向量机
support vector machine SVM 是非常强大. 灵活的有监督学习算法, 可以用于分类和回归. 贝叶斯分类器,对每个类进行了随机分布的假设,用生成的模型估计新数据点的标签.是属于 ...

随机推荐

docker实时查看日志
docker logs -f --tail=10 fo-order -f : 查看实时日志 --tail=10 : 查看最后的10条日志. fo-order: 容器名称
NC15975 小C的记事本
NC15975 小C的记事本题目题目描述小C最近学会了java小程序的开发,他很开心,于是想做一个简单的记事本程序练练手. 他希望他的记事本包含以下功能: 1.append(str),向记事本插 ...
零基础学Java（3）运算符
运算符运算符用于连接值.Java提供了一组丰富的算术和逻辑运算符以及数学函数. 算术运算符在Java中,使用算术运算符+.-.*./表示加.减.乘.除运算.当参与/运算的两个操作数都是整数时,表示 ...
appium简单使用
App 测试通常会用到的工具 adb :Android 的控制工具,用于获取Android的各种数据和控制 Appium Desktop:内嵌了Appium Server和Inspector的综合工具 ...
安装rlwrap
一. 安装readlineyum install readline* -y 二. 安装rlwrap[root@dbserver ~]# tar -zxvf rlwrap-0.43.tar.gz[roo ...
外贸ERP系统哪些模块比较重要？得具备什么功能？
我国的外贸企业众多,涉及到多个行业,受疫情的影响,部分企业面临着极大的发展难题.而想要更好的在市场当中生存,除了要有更敏锐的市场嗅觉,也要有更大胆的创新.在外贸ERP系统的发展之下,会得到更多企业的青 ...
Kubernetes组件介绍
一.api-server 基本概念该端口默认值为6443,可通过启动参数"--secure-port"的值来修改默认值. 默认IP地址为非本地(Non-Localhost)网 ...
栈和排序_via牛客网
题目链接:https://ac.nowcoder.com/acm/contest/26886/A 来源:牛客网时间限制:C/C++ 1秒,其他语言2秒空间限制:C/C++ 131072K,其他语 ...
linux 编译式安装nginx
./configure --prefix=/usr/local/nginx --sbin-path=/usr/local/nginx/sbin/nginx --conf-path=/usr/local ...
（转）git使用收集
由于最近项目开始弃SVN用git,特意整理下git命令.原文链接为http://www.jb51.net/article/55442.htm git branch 查看本地所有分支git status ...