线性回归是最贴近生活的数据模型之一 简单的线性回归 简单的线性回归公式如下: 从公式中我们可以看出,简单线性回归只有一个自变量x1,b1是自变量的系数,y是因变量.x1可能是连续型或者离散型的数据,所以我们需要通过x1找出最合适的系数b1从而得到关于因变量y的曲线. 我们下面用一个例子来说明,这是一个关于工作经验与薪水之间关系的表格.分布如下图所示 我们很容易看出这是符合一个线性回归的模型,下面我们就要做出回归的函数并且对未来数据进行预测. # Importing the libraries i…
1.LDA LDA是一种三层贝叶斯模型,三层分别为:文档层.主题层和词层.该模型基于如下假设:1)整个文档集合中存在k个互相独立的主题:2)每一个主题是词上的多项分布:3)每一个文档由k个主题随机混合组成:4)每一个文档是k个主题上的多项分布:5)每一个文档的主题概率分布的先验分布是Dirichlet分布:6)每一个主题中词的概率分布的先验分布是Dirichlet分布.文档的生成过程如下:1)对于文档集合M,从参数为β的Dirichlet分布中采样topic生成word的分布参数φ:2)对于每个…
Evernote Export 1.什么是回归? regression 在监督学习中,包括了输入和输出的样本,在此基础上,我们能够通过新的输入来表示结果,映射到输出 输出包含了离散输出和连续输出 2.回归与函数逼近 回归并不是指向平均值回落,而是使用函数形式来逼近一堆数据点 3.线性回归 什么是线性方程? 线性方程就是直线方程,可以理解为 Y=mx+b 这里的m是斜率,b是截距,这是一个线性方程而不是平面方程 什么是回归分析? 回归分析是统计的概念.这里的想法是观察数据和构建一个方程,使我们可以…
线性回归 # -*- coding: utf-8 -*- """ Created on Wed Aug 30 19:55:37 2017 @author: Administrator """ ''' 背景:与房价密切相关的除了单位的房价,还有房屋的尺寸.我们可以根 据已知的房屋成交价和房屋的尺寸进行线性回归,继而可以对已知房屋尺 寸,而未知房屋成交价格的实例进行成交价格的预测 ''' import matplotlib.pyplot as plt…
import numpy as np import matplotlib.pyplot as plt from sklearn import datasets from sklearn.model_selection import train_test_split from sklearn.tree import DecisionTreeClassifier,DecisionTreeRegressor def creat_data(n): np.random.seed(0) X = 5 * np…
CART决策树又称分类回归树,当数据集的因变量为连续性数值时,该树算法就是一个回归树,可以用叶节点观察的均值作为预测值:当数据集的因变量为离散型数值时,该树算法就是一个分类树,可以很好的解决分类问题.但需要注意的是,该算法是一个二叉树,即每一个非叶节点只能引伸出两个分支,所以当某个非叶节点是多水平(2个以上)的离散变量时,该变量就有可能被多次使用. 在sklearn中我们可以用来提高决策树泛化能力的超参数主要有 - max_depth:树的最大深度,也就是说当树的深度到达max_depth的时候…
来计算其损失. 而支持向量回归则认为只要f(x)与y偏离程度不要太大,既可以认为预测正确,不用计算损失,具体的,就是设置阈值α,只计算|f(x)−y|>α的数据点的loss,如下图所示,阴影部分的数据点我们都认为该模型预测准确了,只计算阴影外的数据点的loss: 数据处理 preprocessing.scale()作用: scale()是用来对原始样本进行缩放的,范围可以自己定,一般是[0,1]或[-1,1]. 缩放的目的主要是 1)防止某个特征过大或过小,从而在训练中起的作用不平衡: 2)为了…
图像分割是图像处理,计算机视觉领域里非常基础,非常重要的一个应用.今天介绍一种高效的分割算法,即 simple linear iterative clustering (SLIC) 算法,顾名思义,这是一种简单的迭代聚类算法,这个算法发表于 2012 年的 PAMI 上. SLIC 算法有几个关键点, 1: 图像分割块的初始化,每一个图像块都是一个聚类,聚类的中心称为 superpixel,聚类的个数 k 是人为设定的,SLIC 算法先将图像分成大小大小一致的图像 patch,假设图像的像素个数…
1. 皮尔逊相关系数(Pearson Correlation Coefficient) 1.1 衡量两个值线性相关强度的量 1.2 取值范围[-1, 1] 正相关:>0, 负相关:<0, 无相关:=0 1.3 要理解Pearson相关系数,首先要理解协方差(Covariance),协方差是一个反映两个随机变量相关程度的指标,如果一个变量跟随着另一个变量同时变大或者变小,那么这两个变量的协方差就是正值,反之相反,公式如下: 方差: Pearson相关系数公式如下: 注意:有了协方差,为什么还使用…
In a string composed of 'L', 'R', and 'X' characters, like "RXXLRXRXL", a move consists of either replacing one occurrence of "XL" with "LX", or replacing one occurrence of "RX" with "XR". Given the starti…