python 机器学习库 —— featuretools（自动特征工程）

文档：https://docs.featuretools.com/#minute-quick-start

所谓自动特征工程，即是将人工特征工程的过程自动化。以 featuretools 为代表的自动特征工程在整个机器学习的端到端实践中扮演的角色如下图所示：

1. demo

导入包：import featuretools as ft
加载数据：data = ft.demo.load_mock_customer()，data 为 dict 类型
- data.keys() ⇒ dict_keys([‘transactions’, ‘products’, ‘customers’, ‘sessions’])
  - 顾客发生了多次购买会话（session），每次会话产生了多次交易（transaction）
- data[‘customers’] ⇒ DataFrame（Pandas）

整理数据：

customers_df = data['customers']

sessions_df = data['sessions']

transactions_df = data['transactions']

构建数据集

entities = {

   ...:    "customers" : (customers_df, "customer_id"),

   ...:    "sessions" : (sessions_df, "session_id", "session_start"),

   ...:    "transactions" : (transactions_df, "transaction_id", "transaction_time")

   ...: }

指定关系：父实体与子实体的关系，通过如下四元组来定义：

(parent_entity, parent_variable, child_entity, child_variable)

接下来定义如下的关系：

relationships = [("sessions", "session_id", "transactions", "session_id"),

                 ("customers", "customer_id", "sessions", "customer_id")]

2. DFS：Deep Feature Synthesis，深度特征合成

feature_matrix_customers, features_defs = ft.dfs(entities=entities, relationships=relationships, target_entity="customers"）

python 机器学习库 —— featuretools（自动特征工程）的更多相关文章

手把手教你用Python实现自动特征工程
任何参与过机器学习比赛的人,都能深深体会特征工程在构建机器学习模型中的重要性,它决定了你在比赛排行榜中的位置. 特征工程具有强大的潜力,但是手动操作是个缓慢且艰巨的过程.Prateek Joshi,是 ...
常用python机器学习库总结
开始学习Python,之后渐渐成为我学习工作中的第一辅助脚本语言,虽然开发语言是Java,但平时的很多文本数据处理任务都交给了Python.这些年来,接触和使用了很多Python工具包,特别是在文本处 ...
[Python] 机器学习库资料汇总
声明:以下内容转载自平行宇宙. Python在科学计算领域,有两个重要的扩展模块:Numpy和Scipy.其中Numpy是一个用python实现的科学计算包.包括: 一个强大的N维数组对象Array: ...
[resource]Python机器学习库
reference: http://qxde01.blog.163.com/blog/static/67335744201368101922991/ Python在科学计算领域,有两个重要的扩展模块: ...
Python 机器学习库 NumPy 教程
0 Numpy简单介绍 Numpy是Python的一个科学计算的库,提供了矩阵运算的功能,其一般与Scipy.matplotlib一起使用.其实,list已经提供了类似于矩阵的表示形式,不过numpy ...
Auto ML自动特征工程
Auto ML自动特征工程特征工程是在做机器学习训练的过程中必不可少的环节,特征工程就是找出对模型结果有益的特征交叉关系,通常特征工程需要耗费算法工程师大量的精力去尝试.针对这样的场景,PAI推出智 ...
Python机器学习库sklearn的安装
Python机器学习库sklearn的安装 scikit-learn是Python的一个开源机器学习模块,它建立在NumPy,SciPy和matplotlib模块之上能够为用户提供各种机器学习算法接口 ...
Python机器学习库scikit-learn实践
原文:http://blog.csdn.net/zouxy09/article/details/48903179 一.概述机器学习算法在近几年大数据点燃的热火熏陶下已经变得被人所“熟知”,就算不懂得 ...
想搞机器学习，不会特征工程？你TM逗我那！
原文:http://dataunion.org/20276.html 作者:JasonDing1354 引言在之前学习机器学习技术中,很少关注特征工程(Feature Engineering),然而 ...

随机推荐

django开发项目的部署nginx
Django 部署(Nginx) 本文主要讲解 nginx + uwsgi socket 的方式来部署 Django,比 Apache mod_wsgi 要复杂一些,但这是目前主流的方法. 1. 运行 ...
curl获取远程文件内容
curl获取远程文件内容 ** 获取远程文件内容 @param $url 文件http地址 * function fopen_url($url) { if (function_exists(& ...
Sql Server查询同一ID 时间较大的一条数据
python中的shallow copy 与 deep copy
今天在写代码的时候遇到一个奇葩的问题,问题描述如下: 代码中声明了一个list,将list作为参数传入了function1()中,在function1()中对list进行了del()即删除了一个元素. ...
Android查缺补漏（IPC篇）-- 进程间通讯之AIDL详解
本文作者:CodingBlock 文章链接:http://www.cnblogs.com/codingblock/p/8436529.html 进程间通讯篇系列文章目录: Android查缺补漏(IP ...
bzoj1612 / P2419 [USACO08JAN]牛大赛Cow Contest（Floyd）
P2419 [USACO08JAN]牛大赛Cow Contest Floyd不仅可以算最短路,还可以处理点之间的关系. 跑一遍Floyd,处理出每个点之间是否有直接或间接的关系. 如果某个点和其他$n ...
Python3：pyecharts数据可视化插件
Python3:pyecharts数据可视化插件一.简介 pyecharts 是一个用于生成 Echarts 图表的类库. Echarts 是百度开源的一个数据可视化 JS 库.主要用于数据可视化. ...
20145319 《网络渗透》MS12_020安全漏洞
20145319 <网络渗透>MS12_020安全漏洞一实验内容初步掌握平台matesploit辅助模块aux的使用辅助模块包括扫描等众多辅助功能本次展示DOS攻击的实现有了初 ...
使用ShellExecute打开目标文件所在文件夹并选中目标文件
转载:http://blog.csdn.net/chenlycly/article/details/7366364 转载:http://bbs.csdn.net/topics/50440550 She ...
sql注入分析
输入 1:sql为:select * from users where id = 1; 输入'测试:回显:You have an error in your SQL syntax; check the ...

python 机器学习库 —— featuretools（自动特征工程）

1. demo

2. DFS：Deep Feature Synthesis，深度特征合成

python 机器学习库 —— featuretools（自动特征工程）的更多相关文章

随机推荐

热门专题