code_demo 用随机森林做缺失值预测

直接上代码

在做特征工程的时候, 其实可以用算法来处理特征工程的, 比如缺失值填充之类的. 这里一段code_demo是搬运来的, 不过是真滴好用呢.

# RandomForest - 强化, 对 new_user_class_level 进行 缺失值预测

from pyspark.mllib.regression import LabeledPoint

# 1. 过滤出 new_user_class_level 非空的df 作为 训练集

train_data2 = user_profile_df.dropna(subset=["new_user_class_level"]).rdd.map(

    lambda r:LabeledPoint(r.new_user_class_level - 1, [r.cms_segid, r.cms_group_id, r.final_gender_code, r.age_level, r.shopping_level, r.occupation])

)

# 2. 训练模型

from pyspark.mllib.tree import RandomForest

model2 = RandomForest.trainClassifier(train_data2, 4, {}, 5)

# 3. 测试 一波

model2.predict([0.0, 4.0 ,2.0 , 4.0, 1.0, 0.0])

# 预测值实际应该为2

# 4. 对缺失值进行预测

na_df = user_profile_df.na.fill(-1).where("new_user_class_level=-1")

def row(r):

    return r.cms_segid, r.cms_group_id, r.final_gender_code, r.age_level, r.shopping_level, r.occupation

# 5. rdd方式进行行处理

rdd2 = na_df.rdd.map(row)

# 6. 利用模型预测

predicts = model2.predict(rdd2)

# 7. 修正预测值(+1), 并合并 df 

tmp = predicts.map(lambda x:int(x)).collect()

pdf = pl_na_df.toPandas()

import numpy as np

pdf['new_user_class_level'] = np.array(tmp)+1

# 和预测df 和 真实 df 进行 unionAll

new_user_profile_df = user_profile_df.dropna(subset=["new_user_class_level"]).unionAll(

spark.createDataFrame(tmp, schema=schema))

# 注意: unionAll的使用(纵向合并df), 两个df的表结构必须完全一样

new_user_profile_df.show(5)

code_demo 用随机森林做缺失值预测的更多相关文章

机器学习入门-随机森林温度预测-增加样本数据 1.sns.pairplot(画出两个关系的散点图) 2.MAE(平均绝对误差) 3.MAPE(准确率指标)
在上一个博客中,我们构建了随机森林温度预测的基础模型,并且研究了特征重要性. 在这个博客中,我们将从两方面来研究数据对预测结果的影响第一方面:特征不变,只增加样本的数据第二方面:增加特征数,增加样 ...
使用基于Apache Spark的随机森林方法预测贷款风险
使用基于Apache Spark的随机森林方法预测贷款风险原文:Predicting Loan Credit Risk using Apache Spark Machine Learning R ...
机器学习实战基础（三十八）：随机森林（五）RandomForestRegressor 之用随机森林回归填补缺失值
简介我们从现实中收集的数据,几乎不可能是完美无缺的,往往都会有一些缺失值.面对缺失值,很多人选择的方式是直接将含有缺失值的样本删除,这是一种有效的方法,但是有时候填补缺失值会比直接丢弃样本效果更好, ...
机器学习之路：python 集成分类器随机森林分类RandomForestClassifier 梯度提升决策树分类GradientBoostingClassifier 预测泰坦尼克号幸存者
python3 学习使用随机森林分类器梯度提升决策树分类的api,并将他们和单一决策树预测结果做出对比附上我的git,欢迎大家来参考我其他分类器的代码: https://github.com/l ...
ML—随机森林·1
Introduction to Random forest(Simplified) With increase in computational power, we can now choose al ...
Python中随机森林的实现与解释
使用像Scikit-Learn这样的库,现在很容易在Python中实现数百种机器学习算法.这很容易,我们通常不需要任何关于模型如何工作的潜在知识来使用它.虽然不需要了解所有细节,但了解机器学习模型是如 ...
机器学习之Bagging与随机森林笔记
集成学习通过将多个学习器进行结合,常可获得比单一学习器显著优越的泛化性能.这对“弱学习器”尤为明显,因此集成学习的很多理论研究都是针对弱学习器进行的,而基学习器有时也被直接称为弱学习器.虽然从理论上来 ...
Bagging与随机森林(RF)算法原理总结
Bagging与随机森林算法原理总结在集成学习原理小结中,我们学习到了两个流派,一个是Boosting,它的特点是各个弱学习器之间存在依赖和关系,另一个是Bagging,它的特点是各个弱学习器之间没 ...
什么是机器学习的分类算法？【K-近邻算法(KNN)、交叉验证、朴素贝叶斯算法、决策树、随机森林】
1.K-近邻算法(KNN) 1.1 定义 (KNN,K-NearestNeighbor) 如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类 ...

随机推荐

第02组Alpha冲刺（3/4）
队名:十一个憨批组长博客作业博客组长黄智过去两天完成的任务:写博客,复习C语言 GitHub签入记录接下来的计划:构思游戏实现还剩下哪些任务:敲代码燃尽图遇到的困难:Alpha冲刺时间 ...
【cf补题记录】Codeforces Round #607 (Div. 2)
比赛传送门这里推荐一位dalao的博客-- https://www.cnblogs.com/KisekiPurin2019/ A:字符串 B:贪心 A // https://codeforces.c ...
Linux tty驱动架构
Linux tty子系统包含:tty核心,tty线路规程和tty驱动.tty核心是对整个tty设备的抽象,对用户提供统一的接口,tty线路规程是对传输数据的格式化,tty驱动则是面向tty设备的硬件驱 ...
jdk 1.6 新特性
JDK1.6新特性 1.DestTop类和SystemTray类前者用于调度操作系统中的一些功能,例如: · 可以打开系统默认浏览器指定的URL地址: · 打开系统默认邮件客户端给指定的邮箱发信息: ...
python 关于celery的异步任务队列的基本使用（celery+redis）【无配置文件设置】
环境说明: window7 X64 python 2.7.6 .celery 3.1.25.redis 2.10.6 本地安装的redis服务端版本号:Redis-x64-3.2.100 工程结构说明 ...
什么是 ZFS文件系统？ZFS概念及特点简介
什么是 ZFS? ZFS(Zettabyte File System)是由SUN公司的Jeff Bonwick领导设计的一种基于Solaris的文件系统,最初发布于20014年9月14日. SUN被O ...
Windows下安装 Linux 下vim编辑器
Windows下安装vim编辑器下载传送门 https://vim.en.softonic.com/download# 开始安装这是下载后的可执行文件双击(或单击)运行软件,选择同意继续进行安装 ...
idea 2019.2 版本把菜单栏隐藏了恢复办法
一不小心把idea的菜单栏给隐藏了(如图) ,搞了半天也恢复不了,网上也没有找到什么办法,可是搞得我焦头烂额呀,怎么找也找不到,也不见大神有过提示,最后没办法,想着去看看它的配置文件吧,于是便找到了默 ...
sublime text 开发记录贴
1.展示信息有两种: self.view.show_popup('hello'), 这个好看点. sublime.status_message('ssss') sublime.error_mes ...
spring boot Websocket
本文只作为个人笔记,大部分代码是引用其他人的文章的. 参考: https://blog.csdn.net/moshowgame/article/details/80275084 在springboot ...

code_demo 用随机森林做缺失值预测

直接上代码

code_demo 用随机森林做缺失值预测的更多相关文章

随机推荐

热门专题