Python数据科学手册-机器学习之特征工程

llcl 2024-09-04 20:34:01 原文

特征工程常见示例：分类数据、文本、图像。还有提高模型复杂度的衍生特征和处理缺失数据的填充方法。这个过程被叫做向量化。把任意格式的数据转换成具有良好特性的向量形式。

分类特征

比如房屋数据：房价、面积、地点信息。

方案1：把分类特征用映射关系编码成整数。

{'Queen Anne': 1, 'Fremont': 2, 'Wallingford': 3};

在scikit-learn中并不好，数值特征可以反映代数量。会产生 1<2<3的

方案2：使用独热编码

有效增加额外的类，让0和1 出现在对应的列分别表示每个分类值的有或无。

使用scikit-learn的DictVectorizer类就可以实现。

neighborhood字段转换成三列表示三个地点标签。每一行中用1所在的列对应一个地点。

当这些分类特征编码之后，就可以和之前一样拟合 Scikit-Learn模型了

如果要看每一列的含义，使用get_feature_names()

缺陷：分类特征有许多枚举值，维度就会急剧增加。由于被编码的数据中有许多0，因此用稀疏矩阵会非常高效

文本特征

将文本转换成一组数值，最简单的编码方法之一就是 单词统计

这样统计有一些问题，就是常用词聚集太高的权重，不合理。

解决方案：使用TF-IDF term requency-inverse document frequency 词频逆文档评率。通过单词在文档中出现的评率来衡量器权重。

图像特征

对图像进行编码，最简单的就是：用像素表示图像。后面详细介绍。 Scikit-Learn Scikit-Image

衍生特征

输入特征进过数学变换衍生出来的新特征。通过改变输入数据。这种处理方式又被称为基函数回归。

不能用直线拟合的数据

如果按照直线拟合取得最优解如下

我们需要一个更复杂的模型来描述 x 与 y的关系，可以对数据进行变换，蹦增加额外的特征来提升模型的复杂度。

比如：增加多项式特征。

第一列表示x，

第二列表示x^2

第三列表示x^3

重新拟合。

缺失值填充

原始数据如下

首先需要适当的值替换这些缺失数据。

方案1: 用列均值替换缺失值，中位数、众数。 SciKit-Learn 有Imputer类可以实现。

方案2：用矩阵填充或其他模型来处理缺失值，复杂。

特征管道

如果经常需要手动应用以上任意一种方法，你就会感到厌倦。尤其是多个步骤串起来使用。

1）用均值填充缺失值

2）将衍生特征转换为二次方

3）拟合线性回归模型

SciKit提供了一个管道对象。

Python数据科学手册-机器学习之特征工程的更多相关文章

Python数据科学手册-机器学习：朴素贝叶斯分类
朴素贝叶斯模型朴素贝叶斯模型是一组非常简单快速的分类方法,通常适用于维度非常高的数据集.因为运行速度快,可调参数少.是一个快速粗糙的分类基本方案. naive Bayes classifiers 贝 ...
Python数据科学手册-机器学习介绍
机器学习分为俩类: 有监督学习 supervised learning 和无监督学习 unsupervised learning 有监督学习: 对数据的若干特征与若干标签之间的关联性进行建模的过 ...
Python数据科学手册-机器学习: 流形学习
PCA对非线性的数据集处理效果不太好. 另一种方法流形学习 manifold learning 是一种无监督评估器,试图将一个低维度流形嵌入到一个高纬度空间来描述数据集 . 类似一张纸 (二维) ...
Python数据科学手册-机器学习之模型验证
模型验证 model validation 就是在选择模型和超参数之后.通过对训练数据进行学习.对比模型对已知数据的预测值和实际值的差异. 错误的模型验证方法. 用同一套数据训练和评 ...
Python数据科学手册-机器学习: k-means聚类/高斯混合模型
前面学习的无监督学习模型:降维另一种无监督学习模型:聚类算法. 聚类算法直接冲数据的内在性质中学习最优的划分结果或者确定离散标签类型. 最简单最容易理解的聚类算法可能是 k-means聚类算法了. ...
Python数据科学手册-机器学习: 主成分分析
PCA principal component analysis 主成分分析是一个快速灵活的数据降维无监督方法, 可视化一个包含200个数据点的二维数据集 x 和 y有线性关系,无监督学习希望探索x值 ...
Python数据科学手册-机器学习: 决策树与随机森林
无参数算法随机森林随机森林是一种集成方法,集成多个比较简单的评估器形成累计效果. 导入标准程序库随机森林的诱因: 决策树随机森林是建立在决策树基础上的集成学习器建一颗决策树二叉决策树 ...
Python数据科学手册-机器学习: 支持向量机
support vector machine SVM 是非常强大. 灵活的有监督学习算法, 可以用于分类和回归. 贝叶斯分类器,对每个类进行了随机分布的假设,用生成的模型估计新数据点的标签.是属于 ...
Python数据科学手册-机器学习：线性回归
朴素贝叶斯是解决分类任务的好起点,线性回归是解决回归任务的好起点. 简单线性回归将数据拟合成一条直线. y = ax + b , a 是斜率, b是直线截距原始数据如下: 使用LinearRegr ...

随机推荐

Git下载(快速快速快速下载！！)
在安装Git环境的时候,需要下载Git的安装包,但是官网的下载网速实在是太慢的(几十M的安装包,下载速度只有几十K) (所以可以在镜像中下载,速度超快) Git镜像下载链接-------------- ...
key可重复的Map
在正常的map操作中,key是不能重复的,如果希望key的内容可以重复,可以用IdentityHashMap 举个栗子输出结果: public static void main(String[] a ...
爬虫（2） - Requests(1) | Requests模块的深度解析
1.Requests 安装与请求方法 requests官方文档:https://docs.python-requests.org/zh_CN/latest/,官方文档不知道为什么挂了,访问不了.我找了 ...
# Vue3 toRef 和 toRefs 函数
Vue3 toRef 和 toRefs 函数上一篇博文介绍了 vue3 里面的 ref 函数和 reactive 函数,实现响应式数据,今天主要来说一下 toRef 函数和 toRefs 函数的基本 ...
Lambda表达式的无参数无返回值的练习和Lambda表达式有参数有返回值的练习
使用Lambda(无参无返回) 说明:给定一个厨师(Cook)接口,内含唯一的抽象方法makeFood,且无参数.无返回值.如下: public interface Cook{ public abst ...
logback-spring 集成 ELK、kafka的配置
pom.xml <dependency> <groupId>com.github.danielwegener</groupId> <artifactId> ...
控制台字体怎么改为console？
windows控制台窗口在中文版下没有console字体,如果要使用console的话就必须先将窗口转换为英文版. 1.win+R进入运行窗口,然后cmd进入命令窗口 2.在命令行窗口输入 chcp ...
企业运维实践-还不会部署高可用的kubernetes集群?使用kubeadm方式安装高可用k8s集群v1.23.7
关注「WeiyiGeek」公众号设为「特别关注」每天带你玩转网络安全运维.应用开发.物联网IOT学习! 希望各位看友[关注.点赞.评论.收藏.投币],助力每一个梦想. 文章目录: 0x00 前言简述 ...
8000字讲透OBSA原理与应用实践
摘要:OBSA项目是围绕OBS建立的大数据和AI生态,其在不断的发展和完善中,目前有如下子项目:hadoop-obs项目和flink-obs项目. 文章作者:存储服务产品部开发者支持团队 OBS存储服 ...
nodejs学习总结01
主流渲染引擎介绍1.渲染引擎又叫排版引擎或浏览器内核 .(双内核:执行html和css的)2,主流的渲染引擎有**Chrome浏览器**:Blink引壁(WebKit的一个分支)**Safari ...