【阿里天池云-龙珠计划】薄书的机器学习笔记—

【给各位看官请安】

大家一起来集齐七龙珠召唤神龙吧！！！

学习地址：AI训练营机器学习-阿里云天池

推荐一下我由此上车的公众号：AI蜗牛车，时空序列相关文章挺多的。

Task01：基于逻辑回归模型的多分类场景预测实战

Task02：朴素贝叶斯(Naive Bayes)

Task03：K近邻(k-nearest neighbors)初探

【现在开始笔记】

比赛链接

幸福感是一个古老而深刻的话题，是人类世代追求的方向。与幸福感相关的因素成千上万、因人而异，大如国计民生，小如路边烤红薯，都会对幸福感产生影响。这些错综复杂的因素中，我们能找到其中的共性，一窥幸福感的要义吗？

1.赛事简介

天池新人实战赛是针对数据新人开设的实战练习专场，以经典赛题作为学习场景，提供详尽入门教程，手把手教你学习数据挖掘。天池希望新人赛能成为高校备受热捧的数据实战课程，帮助更多学生掌握数据技能。

新人实战前，免费AI课程走一波

2.赛制说明

本场比赛长期开放，报名和参赛无时间限制。

参赛报名

要求以个人形式参与比赛，并确保报名信息准确有效；
报名方式：用淘宝或阿里云账号登入天池官网，完成个人信息注册，即可报名参赛；
参赛指南；
历届比赛沉淀。

参赛规则

报名成功后，选手下载数据，在本地调试算法，提交结果；
提交后将进行实时评测；每天排行榜更新时间为12:00和20:00，按照评测指标得分从低到高排序；排行榜将选择历史最优成绩进行展示。

参赛对象

大赛面向全社会开放，参赛对象不限，要求以个人形式参赛。

3.一个demo

3.1导入数据

import pandas as pd

import numpy as np

from sklearn.metrics import mean_squared_error

import lightgbm as lgb

import xgboost as xgb

from sklearn.model_selection import train_test_split

from sklearn.preprocessing import OneHotEncoder

from sklearn.model_selection import KFold, RepeatedKFold

from scipy import sparse

#显示所有列

pd.set_option('display.max_columns', None)

#显示所有行

pd.set_option('display.max_rows', None)

from datetime import datetime

#导入数据

train_abbr=pd.read_csv("download/happiness_train_abbr.csv",encoding='ISO-8859-1')

train=pd.read_csv("download/happiness_train_complete.csv",encoding='ISO-8859-1')

test_abbr=pd.read_csv("download/happiness_test_abbr.csv",encoding='ISO-8859-1')

test=pd.read_csv("download/happiness_test_complete.csv",encoding='ISO-8859-1')

test_sub=pd.read_csv("download/happiness_submit.csv",encoding='ISO-8859-1')

#观察数据大小

print(train_abbr.shape)

print(train.shape)

print(test_abbr.shape)

print(test.shape)

(8000, 42)

(8000, 140)

(2968, 41)

(2968, 139)

test_sub.shape

(2968, 2)

3.2数据处理

#简单查看数据

train.head()

#查看数据是否缺失

train.info(verbose=True,null_counts=True)

#查看label分布

y_train_=train["happiness"]

y_train_.value_counts()

 4    4818

 5    1410

 3    1159

 2     497

 1     104

-8      12

Name: happiness, dtype: int64

#将-8换成3  把无法回答的归为3

y_train_=y_train_.map(lambda x:3 if x==-8 else x)

#让label从0开始

y_train_=y_train_.map(lambda x:x-1)

#train和test连在一起

data = pd.concat([train,test],axis=0,ignore_index=True)

#全部数据大小

data.shape

#处理时间特征  把问卷的时间 转换为数字特征

data['survey_time'] = pd.to_datetime(data['survey_time'],format='%Y-%m-%d %H:%M:%S')

data["weekday"]=data["survey_time"].dt.weekday

data["year"]=data["survey_time"].dt.year

data["quarter"]=data["survey_time"].dt.quarter

data["hour"]=data["survey_time"].dt.hour

data["month"]=data["survey_time"].dt.month

#把一天的时间分段

def hour_cut(x):

    if 0<=x<6:

        return 0

    elif  6<=x<8:

        return 1

    elif  8<=x<12:

        return 2

    elif  12<=x<14:

        return 3

    elif  14<=x<18:

        return 4

    elif  18<=x<21:

        return 5

    elif  21<=x<24:

        return 6

data["hour_cut"]=data["hour"].map(hour_cut)

#做问卷时候的年龄

data["survey_age"]=data["year"]-data["birth"]

#让label从0开始

data["happiness"]=data["happiness"].map(lambda x:x-1)

#去掉三个缺失值很多的

data=data.drop(["edu_other"], axis=1)

data=data.drop(["happiness"], axis=1)

data=data.drop(["survey_time"], axis=1)

#是否入党

data["join_party"]=data["join_party"].map(lambda x:0 if pd.isnull(x)  else 1)

#出生的年代  转化为数字特征

def birth_split(x):

    if 1920<=x<=1930:

        return 0

    elif  1930<x<=1940:

        return 1

    elif  1940<x<=1950:

        return 2

    elif  1950<x<=1960:

        return 3

    elif  1960<x<=1970:

        return 4

    elif  1970<x<=1980:

        return 5

    elif  1980<x<=1990:

        return 6

    elif  1990<x<=2000:

        return 7

data["birth_s"]=data["birth"].map(birth_split)

#填充数据

data["edu_status"]=data["edu_status"].fillna(5)

data["edu_yr"]=data["edu_yr"].fillna(-2)

data["property_other"]=data["property_other"].map(lambda x:0 if pd.isnull(x)  else 1)

data["hukou_loc"]=data["hukou_loc"].fillna(1)

data["social_neighbor"]=data["social_neighbor"].fillna(8)

data["social_friend"]=data["social_friend"].fillna(8)

data["work_status"]=data["work_status"].fillna(0)

data["work_yr"]=data["work_yr"].fillna(0)

data["work_type"]=data["work_type"].fillna(0)

data["work_manage"]=data["work_manage"].fillna(0)

data["family_income"]=data["family_income"].fillna(-2)

data["invest_other"]=data["invest_other"].map(lambda x:0 if pd.isnull(x)  else 1)

#填充数据

data["minor_child"]=data["minor_child"].fillna(0)

data["marital_1st"]=data["marital_1st"].fillna(0)

data["s_birth"]=data["s_birth"].fillna(0)

data["marital_now"]=data["marital_now"].fillna(0)

data["s_edu"]=data["s_edu"].fillna(0)

data["s_political"]=data["s_political"].fillna(0)

data["s_hukou"]=data["s_hukou"].fillna(0)

data["s_income"]=data["s_income"].fillna(0)

data["s_work_exper"]=data["s_work_exper"].fillna(0)

data["s_work_status"]=data["s_work_status"].fillna(0)

data["s_work_type"]=data["s_work_type"].fillna(0)

fillna()函数详解

 data=data.drop(["id"], axis=1)  # 删除ID列

Python进行数据处理之Pandas的drop函数

3.3设立训练集和测试集

X_train_ = data[:train.shape[0]]

X_test_  = data[train.shape[0]:]

target_column = 'happiness'

feature_columns=list(X_test_.columns)

print(feature_columns)

X_train = np.array(X_train_)

y_train = np.array(y_train_)

X_test  = np.array(X_test_)

print(X_train.shape)

print(y_train.shape)

print(X_test.shape)

(8000, 144)

(8000,)

(2968, 144)

未完

【阿里天池云-龙珠计划】薄书的机器学习笔记——快来一起挖掘幸福感！Task04的更多相关文章

阿里云启动视频云V5计划，全面赋能生态合作伙伴
9月25 - 27日,主题为数·智的2019云栖大会在杭州举行.在第三天的智能视频云专场中,阿里云研究员金戈首次对外发布视频云V5计划,释放视频IT基础设施红利,赋能生态合作伙伴,共促大视频产业发展. ...
云栖大会压轴好戏阿里云发布视频云V5计划与系列新产品
9月25 - 27日,2019云栖大会如期召开.在大会最后一天下午,阿里云智能视频云分论坛为今年的云栖大会献上了一场精彩的压轴好戏. 视频云V5计划发布使能生态合作伙伴会上,阿里云智能研究员金戈进 ...
第一章基础设施，1.3 阿里视频云ApsaraVideo是怎样让4000万人同时狂欢的(作者：蔡华)
1.3 阿里视频云ApsaraVideo是怎样让4000万人同时狂欢的前言在今年的双11中,双11天猫狂欢夜的直播成为一大亮点. 根据官方披露数据,直播总观看人数超4257万,同时观看人数峰值达5 ...
计蒜之道初赛第一场B 阿里天池的新任务（简单）
阿里“天池”竞赛平台近日推出了一个新的挑战任务:对于给定的一串 DNA 碱基序列 tt,判断它在另一个根据规则生成的 DNA 碱基序列 ss 中出现了多少次. 首先,定义一个序列 ww: \displ ...
阿里移动云专场专题.md
小激动一年一度的阿里云栖大会是我们开发者的盛会,带着着激动的心情参加了这次开发者盛会,二话不说进入会场就被震感到了,先来张图聊表敬意. 主会场马云爸爸还是很有范的,将未来定义为无法定义,在这里宣布成 ...
阿里天池的新任务（简单）(KMP统计子串出现的次数)
阿里“天池”竞赛平台近日推出了一个新的挑战任务:对于给定的一串 DNA 碱基序列 tt,判断它在另一个根据规则生成的 DNA 碱基序列 ss 中出现了多少次. 输出格式输出一个整数,为 tt 在 s ...
【独家】阿里天池IJCAI17大赛第四名方案全解析（附代码）
[独家]阿里天池IJCAI17大赛第四名方案全解析(附代码) https://mp.weixin.qq.com/s?__biz=MzAxMzA2MDYxMw==&mid=2651560625& ...
阿里ECS云服务器部署文件
今天,接触了阿里ECS云服务器,免费领取链接https://dwz.cn/WOFZpZz1 获取之后,要添加一下端口,刚开始需要80 8080 3306的端口,其他的根据需要自行添加点击快速创建 ...
阿里天池 NLP 入门赛 TextCNN 方案代码详细注释和流程讲解
thumbnail: https://image.zhangxiann.com/jung-ho-park-HbnqEhMBpPM-unsplash.jpg toc: true date: 2020/8 ...
机器学习笔记5-Tensorflow高级API之tf.estimator
前言本文接着上一篇继续来聊Tensorflow的接口,上一篇中用较低层的接口实现了线性模型,本篇中将用更高级的API--tf.estimator来改写线性模型. 还记得之前的文章<机器学习笔记 ...

随机推荐

Android 开发入门（3）
0x05 活动 Activity (1)启停活动页面 a. 启动和结束从当前页面跳转至新页面 startActivity(new Intent(this, [targetPage].class)) ...
css 你真的了解padding吗?
前言 padding 简写属性在一个声明中设置所有内边距属性,实际上在使用过程中它对block元素和内联元素的处理是不一样的. 正文对于block元素如果宽度非auto那么容器会变大,如果容器宽度 ...
Visual Studio 2019汇编报错 warning LNK4258: 指令“/ENTRY:main@0”与开关“/ENTRY:main”不兼容；已忽略
Visual Studio 2019汇编报错 warning LNK4258: 指令"/ENTRY:main@0"与开关"/ENTRY:main"不兼容:已忽略 ...
深入探讨下SSR与CSR有啥不同
随着互联网技术的迅速发展,用户对网页的加载速度和交互体验有了更高的期待.作为开发者,我们常常需要在服务器端渲染(SSR)与客户端渲染(CSR)之间做出选择.这两种渲染方式各有特点,适用于不同的场景和需 ...
通过ORPO技术微调 llama3大模型(Fine-tune Llama 3 with ORPO)
1f45bd1e8577af66a05f5e3fadb0b29 通过ORPO对llama进行微调前言 ORPO是一种新颖的微调技术,它将传统的监督微调和偏好对齐阶段整合到一个过程中.这减少了训练所需 ...
DNS高可用设计--软件高可用
DNS是网络的基础服务,网络上的各种应用对DNS的依赖性很高.DNS的稳定,直接决定了上层应用服务的稳定.那如何保障DNS服务的高可用呢?我们先来看下高可用的概念: 高可用高可用(High avai ...
KubeVela 1.0 ：开启可编程式应用平台的未来
简介: 如果你对云原生领域不太关注,可能对 KubeVela 还没有做过太深入的了解.别着急,本文就借着 v1.0 发布之际,为你详细的梳理一次 KubeVela 项目的发展脉络,解读它的核心思想和愿 ...
Flink on Zeppelin 流计算处理最佳实践
简介: 欢迎钉钉扫描文章底部二维码进入 EMR Studio 用户交流群直接和讲师交流讨论~ 点击以下链接直接观看直播回放:https://developer.aliyun.com/live/247 ...
[Go] go build 减小二进制文件大小的几种方式
第一种是去除不需要的调试信息: go build -ldflags "-s -w" main.go 实测 19M 减小为 15M,幅度 2% 第二种压缩 UPX: the Ul ...
dotnet 8 破坏性改动在 AssemblyInformationalVersionAttribute 添加上 git 的 commit 号
我在一个 WPF 项目里面,在界面显示应用的版本号,更新到 dotnet 8 的 SDK 之后,发现我的界面布局损坏了.本质上这个破坏性改动和 WPF 没有什么关系,是 dotnet 的 SDK 或编 ...

【阿里天池云-龙珠计划】薄书的机器学习笔记——快来一起挖掘幸福感！Task04