转发:https://blog.csdn.net/lujiandong1/article/details/49448051 处理离散型特征和连续型特征并存的情况,如何做归一化.参考博客进行了总结:https://www.quora.com/What-are-good-ways-to-handle-discrete-and-continuous-inputs-together总结如下:1.拿到获取的原始特征,必须对每一特征分别进行归一化,比如,特征A的取值范围是[-1000,1000],特征B的取…
常用连续型分布介绍及R语言实现 R的极客理想系列文章,涵盖了R的思想,使用,工具,创新等的一系列要点,以我个人的学习和体验去诠释R的强大. R语言作为统计学一门语言,一直在小众领域闪耀着光芒.直到大数据的爆发,R语言变成了一门炙手可热的数据分析的利器.随着越来越多的工程背景的人的加入,R语言的社区在迅速扩大成长.现在已不仅仅是统计领域,教育,银行,电商,互联网….都在使用R语言. 要成为有理想的极客,我们不能停留在语法上,要掌握牢固的数学,概率,统计知识,同时还要有创新精神,把R语言发挥到各个领…
1. 连续型特征的常用的归一化方法.离散型特征one-hot编码的意义 2. 度量特征之间的相关性:余弦相似度和皮尔逊相关系数…
注:上一小节总结了离散型随机变量,这个小节总结连续型随机变量.离散型随机变量的可能取值只有有限多个或是无限可数的(可以与自然数一一对应),连续型随机变量的可能取值则是一段连续的区域或是整个实数轴,是不可数的.最常见的一维连续型随机变量有三种:均匀分布,指数分布和正态分布.下面还是主要从概述.定义.主要用途和Python的实现几个方面逐一描述. 以下所有Python代码示例,均默认已经导入上面的这几个包,导入代码如下: import numpy as np from scipy import st…
一.综述 Seaborn其实是在matplotlib的基础上进行了更高级的API封装,从而使得作图更加容易,图像也更加美观,本文基于seaborn官方API还有自己的一些理解.   1.1.样式控制:axes_style() and set_style() seaborn提供了5个主题: darkgrid 黑色网格(默认) whitegrid 白色网格 dark 黑色背景 white 白色背景 ticks 带刻度线 一个简单的小例子: import numpy as npsns.set_styl…
连续型变量的推断性分析方法主要有t检验和方差分析两种,这两种方法可以解决一些实际的分析问题,下面我们分别来介绍一下这两种方法 一.t检验(Student's t test) t检验也称student t检验(Student's t test),由Gosset提出,主要用于样本含量较小(例如n<30),总体标准差σ未知的正态分布资料.我们在介绍连续变量分布时讲过t分布,t检验是用t分布理论来推论差异发生的概率,从而比较两个平均数的差异是否显著. 介绍t检验之前,先说一下Z检验,假设我们已知一个样本…
第四章 χ2检验 χ2检验与连续型资料假设检验的区别? 卡方检验的假设检验是什么? 理论值等于实际值 何条件下卡方检验的需要矫正?如何矫正? 卡方检验的自由度如何计算? Df=k-1而不是n-1 卡方检验的分类? 两组比例简式: 多组比例简式: 2 × 2列联表的χ2检验可利用以下简式而不必计算理论次数 T为总样本数 2×c列联表的独立性检验简式? 二者选其一…
2.特征工程 2.1 数据集 2.1.1 可用数据集 Kaggle网址:https://www.kaggle.com/datasets UCI数据集网址: http://archive.ics.uci.edu/ml/ scikit-learn网址:http://scikit-learn.org/stable/datasets/index.html#datasets 2.1.2 安装scikit-learn工具 pip3 install Scikit-learn==0.19.1 安装好之后可以通过…
磨人的小妖精们啊!终于可以归置下自己的大脑啦,在这里我要把--整型,长整型,浮点型,字符串,列表,元组,字典,集合,这几个知识点特别多的东西,统一的捯饬捯饬,不然一直脑袋里面乱乱的. 对于Python,一切事物都是对象,对象基于类创建 所以,以下这些值都是对象: "wupeiqi".38.['北京', '上海', '深圳'],并且是根据不同的类生成的对象. 官方的解释是这样的:对象是对客观事物的抽象,类是对对象的抽象. 因此str是类,int是类,dict.list.tuple等等都是…
一.概述 Python中的 数值类型(Numeric Types)共有5种:布尔型(bool).整型(int).长整型(long).浮点型(float)和复数(complex). 数值类型支持的主要操作如下: 操作 说明 bool int long float complex x ** y 指数运算 √ √ √ √ √ +x 符号不变 √ √ √ √ √ -x 符号取反 √ √ √ √ √ ~x 按位取反 √ √ √ x * y 乘法 √ √ √ √ √ x / y 除法 √ √ √ √ √ x…