阿里大数据比赛sesson2

-----------__-----------接上文---------__----------

2、Xlab
RF上手

2.1、训练特征表准备

训练的特征表gbrt_offline_section_one_24格式为：user_id,brand_id,feature1,feature2...Label
（和GBRT时候是一样的），见下图所看到的：

2.2、RF训练

利用训练的特征表gbrt_offline_section_one_24。进行RF训练，例如以下图所以

进入配置界面，在Features
框里勾选训练特征以及该特征连续与否，在Class框里目标处选择标签列。模型输出表处填写输出模型表名：gbrt_offline_section_one_25。进一步，点击參数配置选项卡，进入參数配置界面。进行參数配置，我们主要配置了树的棵树，配置好后。进行训练，例如以下图所看到的：

watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvdTAxMDY5MTg5OA==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast" alt="">

训练结束，得到RF模型表gbrt_offline_section_one_25。

2.3、RF预測

利用预測特征表gbrt_offline_section_two_11进行RF预測。例如以下图所看到的：

进入配置界面：在结果附加列中加入user_id ,brand_id 列。勾选目标列2分类，主分类为1，这样预測结果表中就会给出预測为1 的概率值，输出信息处填写预測输出表，进行预測，例如以下图：

watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvdTAxMDY5MTg5OA==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast" alt="">

预測完毕之后就可以依据conclusion=1推断预測的正样本，或者依据probability阈值推断（从一位哈工大同学大帅那里得到了例如以下控制推荐条数的好方法）。例如以下图：

最后，比赛做到如今，都快三个月了，没有了当初的兴奋，都在为刷分而刷分，早已违背了当初的參赛初衷，还有十几天就到头了。想说，最终知道啥是大数据竞赛了。

。

。。

。。坑。。。

。。

。。。

-----------__-----------完--------__-----------

阿里大数据比赛sesson2_RF&GBRT（下）的更多相关文章

"大中台、小前台”新架构下，阿里大数据接下来怎么玩？ (2016-01-05 11:39:50)
"大中台.小前台”新架构下,阿里大数据接下来怎么玩?_炬鼎力_新浪博客 http://blog.sina.com.cn/s/blog_1427354e00102vzyq.html " ...
阿里大数据竞赛season1 总结
关于样本测试集和训练集数量上,一般是选择训练集数量不小于测试集,也就是说训练集选取6k可能还不够,大家可以多尝试得到更好的效果: 2. 有人提出归一化方面可能有问题,大家可以查查其他的归一化方法,但是 ...
阿里大数据产品Dataphin上线公共云，将助力更多企业构建数据中台
日前,由阿里数据打造的智能数据构建与管理Dataphin,重磅上线阿里云-公共云,开启智能研发版本的公共云公测!在此之前,Dataphin以独立部署方式输出并服务线下客户,已助力多家大型客户高效自动化 ...
MySQL在大数据、高并发场景下的SQL语句优化和"最佳实践"
本文主要针对中小型应用或网站,重点探讨日常程序开发中SQL语句的优化问题,所谓“大数据”.“高并发”仅针对中小型应用而言,专业的数据库运维大神请无视.以下实践为个人在实际开发工作中,针对相对“大数据” ...
阿里大数据竞赛非官方指南第三弹-- LR入门
最近忙着赶global comm的deadline无暇比赛,当有功夫回过头来看的时候发现比赛已经夹杂了很多非技术的因素在里面了,就连我这个本来是写博客拉粉丝的也有点小不爽.本着我的初心是写博客拉粉丝, ...
面试- 阿里-. 大数据题目- 给定a、b两个文件，各存放50亿个url，每个url各占64字节，内存限制是4G，让你找出a、b文件共同的url?
假如每个url大小为10bytes,那么可以估计每个文件的大小为50G×64=320G,远远大于内存限制的4G,所以不可能将其完全加载到内存中处理,可以采用分治的思想来解决. Step1:遍历文件a, ...
【大数据系列】windows环境下搭建hadoop开发环境使用api进行基本操作
前言搭建完hadoop集群之后在windows环境下搭建java项目进行测试操作hdfs中的文件版本一 package com.slp.hadoop274.hdfs; import java.i ...
【大数据系列】在windows下连接linux 下的hadoop环境进行开发
一.下载Eclipse并安装二.下载exlipse的hadoop plugin 三.打开Map Reduce视图 Window --> Perspective --> Open pers ...
AI加持的阿里云飞天大数据平台技术揭秘
摘要:2019云栖大会大数据&AI专场,阿里云智能计算平台事业部研究员关涛.资深专家徐晟来为我们分享<AI加持的阿里云飞天大数据平台技术揭秘>.本文主要讲了三大部分,一是原创技术优 ...

随机推荐

servlet——web应用中路径问题
target.html <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"> <html ...
jboss解决ip访问受限问题
jboss启动后,localhost可以访问,127.0.0.1可以访问,但是内网ip却访问不了,比如ip是192.168.1.2,这个192.168.1.2就访问不到web页面解决方案: jbos ...
我的第一次"闭包"应用
结论: 闭包可以当作强类型语言如C++.Java的全局变量使用,非常巧妙需求: ssm项目,使用pagehelper分页,在写前一页.后一页.第一页.最后一页等页面跳转时,遇到了问题,如果查询全部的 ...
java环境初级部署及项目搭建
一.网页地址 Java各版本下载地址: http://www.oracle.com/technetwork/cn/java/archive-139210-zhs.html Eclipse官方下载地址: ...
linux more-显示文件内容，每次显示一屏
博主推荐:获取更多 linux文件内容查看命令收藏:linux命令大全 more命令是一个基于vi编辑器文本过滤器,它以全屏幕的方式按页显示文本文件的内容,支持vi中的关键字定位操作.more名单中 ...
腾讯云，搭建Git服务器
下载安装 git 任务时间:5min ~ 10min Git 是一款免费.开源的分布式版本控制系统,用于敏捷高效地处理任何或小或大的项目. 此实验以 CentOS 7.2 x64 的系统为环境,搭建 ...
Spring整合Junit框架
一.开发环境 eclipse版本:4.6.1 maven版本:3.3.3 junit版本:4.12 spring版本:4.1.5.RELEASE JDK版本:1.8.0_111 二.项目结构图三. ...
《AlwaysRun!》第八次团队作业：Alpha冲刺第一天
项目内容这个作业属于哪个课程老师链接这个作业的要求在哪里实验十二团队作业8:软件测试与Alpha冲刺团队名称 Always Run! 作业学习目标 (1)掌握软件测试基础技术 (2)学习 ...
Leetcode 122.买卖股票的最佳时机II
给定一个数组,它的第 i 个元素是一支给定股票第 i 天的价格. 设计一个算法来计算你所能获取的最大利润.你可以尽可能地完成更多的交易(多次买卖一支股票). 注意:你不能同时参与多笔交易(你必须在再次 ...
Thread的方法join()使用
join()的作用:Waits for this thread to die.等待线程对象销毁.在Thread源码中可以看到join源码是使用了wait()方法来实现等待功能. 因为join()内部使 ...

阿里大数据比赛sesson2_RF&amp;GBRT（下）

阿里大数据比赛sesson2_RF&amp;GBRT（下）的更多相关文章

随机推荐

热门专题

阿里大数据比赛sesson2_RF&GBRT（下）

阿里大数据比赛sesson2_RF&GBRT（下）的更多相关文章