【阿里天池云-龙珠计划】薄书的机器学习笔记—

【给各位看官请安】

大家一起来集齐七龙珠召唤神龙吧！！！

学习地址：AI训练营机器学习-阿里云天池

推荐一下我由此上车的公众号：AI蜗牛车，时空序列相关文章挺多的。

Task01：基于逻辑回归模型的多分类场景预测实战

Task02：朴素贝叶斯(Naive Bayes)

Task03：K近邻(k-nearest neighbors)初探

【现在开始笔记】

比赛链接

幸福感是一个古老而深刻的话题，是人类世代追求的方向。与幸福感相关的因素成千上万、因人而异，大如国计民生，小如路边烤红薯，都会对幸福感产生影响。这些错综复杂的因素中，我们能找到其中的共性，一窥幸福感的要义吗？

1.赛事简介

天池新人实战赛是针对数据新人开设的实战练习专场，以经典赛题作为学习场景，提供详尽入门教程，手把手教你学习数据挖掘。天池希望新人赛能成为高校备受热捧的数据实战课程，帮助更多学生掌握数据技能。

新人实战前，免费AI课程走一波

2.赛制说明

本场比赛长期开放，报名和参赛无时间限制。

参赛报名

要求以个人形式参与比赛，并确保报名信息准确有效；
报名方式：用淘宝或阿里云账号登入天池官网，完成个人信息注册，即可报名参赛；
参赛指南；
历届比赛沉淀。

参赛规则

报名成功后，选手下载数据，在本地调试算法，提交结果；
提交后将进行实时评测；每天排行榜更新时间为12:00和20:00，按照评测指标得分从低到高排序；排行榜将选择历史最优成绩进行展示。

参赛对象

大赛面向全社会开放，参赛对象不限，要求以个人形式参赛。

3.一个demo

3.1导入数据

import pandas as pd

import numpy as np

from sklearn.metrics import mean_squared_error

import lightgbm as lgb

import xgboost as xgb

from sklearn.model_selection import train_test_split

from sklearn.preprocessing import OneHotEncoder

from sklearn.model_selection import KFold, RepeatedKFold

from scipy import sparse

#显示所有列

pd.set_option('display.max_columns', None)

#显示所有行

pd.set_option('display.max_rows', None)

from datetime import datetime

#导入数据

train_abbr=pd.read_csv("download/happiness_train_abbr.csv",encoding='ISO-8859-1')

train=pd.read_csv("download/happiness_train_complete.csv",encoding='ISO-8859-1')

test_abbr=pd.read_csv("download/happiness_test_abbr.csv",encoding='ISO-8859-1')

test=pd.read_csv("download/happiness_test_complete.csv",encoding='ISO-8859-1')

test_sub=pd.read_csv("download/happiness_submit.csv",encoding='ISO-8859-1')

#观察数据大小

print(train_abbr.shape)

print(train.shape)

print(test_abbr.shape)

print(test.shape)

(8000, 42)

(8000, 140)

(2968, 41)

(2968, 139)

test_sub.shape

(2968, 2)

3.2数据处理

#简单查看数据

train.head()

#查看数据是否缺失

train.info(verbose=True,null_counts=True)

#查看label分布

y_train_=train["happiness"]

y_train_.value_counts()

 4    4818

 5    1410

 3    1159

 2     497

 1     104

-8      12

Name: happiness, dtype: int64

#将-8换成3  把无法回答的归为3

y_train_=y_train_.map(lambda x:3 if x==-8 else x)

#让label从0开始

y_train_=y_train_.map(lambda x:x-1)

#train和test连在一起

data = pd.concat([train,test],axis=0,ignore_index=True)

#全部数据大小

data.shape

#处理时间特征  把问卷的时间 转换为数字特征

data['survey_time'] = pd.to_datetime(data['survey_time'],format='%Y-%m-%d %H:%M:%S')

data["weekday"]=data["survey_time"].dt.weekday

data["year"]=data["survey_time"].dt.year

data["quarter"]=data["survey_time"].dt.quarter

data["hour"]=data["survey_time"].dt.hour

data["month"]=data["survey_time"].dt.month

#把一天的时间分段

def hour_cut(x):

    if 0<=x<6:

        return 0

    elif  6<=x<8:

        return 1

    elif  8<=x<12:

        return 2

    elif  12<=x<14:

        return 3

    elif  14<=x<18:

        return 4

    elif  18<=x<21:

        return 5

    elif  21<=x<24:

        return 6

data["hour_cut"]=data["hour"].map(hour_cut)

#做问卷时候的年龄

data["survey_age"]=data["year"]-data["birth"]

#让label从0开始

data["happiness"]=data["happiness"].map(lambda x:x-1)

#去掉三个缺失值很多的

data=data.drop(["edu_other"], axis=1)

data=data.drop(["happiness"], axis=1)

data=data.drop(["survey_time"], axis=1)

#是否入党

data["join_party"]=data["join_party"].map(lambda x:0 if pd.isnull(x)  else 1)

#出生的年代  转化为数字特征

def birth_split(x):

    if 1920<=x<=1930:

        return 0

    elif  1930<x<=1940:

        return 1

    elif  1940<x<=1950:

        return 2

    elif  1950<x<=1960:

        return 3

    elif  1960<x<=1970:

        return 4

    elif  1970<x<=1980:

        return 5

    elif  1980<x<=1990:

        return 6

    elif  1990<x<=2000:

        return 7

data["birth_s"]=data["birth"].map(birth_split)

#填充数据

data["edu_status"]=data["edu_status"].fillna(5)

data["edu_yr"]=data["edu_yr"].fillna(-2)

data["property_other"]=data["property_other"].map(lambda x:0 if pd.isnull(x)  else 1)

data["hukou_loc"]=data["hukou_loc"].fillna(1)

data["social_neighbor"]=data["social_neighbor"].fillna(8)

data["social_friend"]=data["social_friend"].fillna(8)

data["work_status"]=data["work_status"].fillna(0)

data["work_yr"]=data["work_yr"].fillna(0)

data["work_type"]=data["work_type"].fillna(0)

data["work_manage"]=data["work_manage"].fillna(0)

data["family_income"]=data["family_income"].fillna(-2)

data["invest_other"]=data["invest_other"].map(lambda x:0 if pd.isnull(x)  else 1)

#填充数据

data["minor_child"]=data["minor_child"].fillna(0)

data["marital_1st"]=data["marital_1st"].fillna(0)

data["s_birth"]=data["s_birth"].fillna(0)

data["marital_now"]=data["marital_now"].fillna(0)

data["s_edu"]=data["s_edu"].fillna(0)

data["s_political"]=data["s_political"].fillna(0)

data["s_hukou"]=data["s_hukou"].fillna(0)

data["s_income"]=data["s_income"].fillna(0)

data["s_work_exper"]=data["s_work_exper"].fillna(0)

data["s_work_status"]=data["s_work_status"].fillna(0)

data["s_work_type"]=data["s_work_type"].fillna(0)

fillna()函数详解

 data=data.drop(["id"], axis=1)  # 删除ID列

Python进行数据处理之Pandas的drop函数

3.3设立训练集和测试集

X_train_ = data[:train.shape[0]]

X_test_  = data[train.shape[0]:]

target_column = 'happiness'

feature_columns=list(X_test_.columns)

print(feature_columns)

X_train = np.array(X_train_)

y_train = np.array(y_train_)

X_test  = np.array(X_test_)

print(X_train.shape)

print(y_train.shape)

print(X_test.shape)

(8000, 144)

(8000,)

(2968, 144)

未完

【阿里天池云-龙珠计划】薄书的机器学习笔记——快来一起挖掘幸福感！Task04的更多相关文章

阿里云启动视频云V5计划，全面赋能生态合作伙伴
9月25 - 27日,主题为数·智的2019云栖大会在杭州举行.在第三天的智能视频云专场中,阿里云研究员金戈首次对外发布视频云V5计划,释放视频IT基础设施红利,赋能生态合作伙伴,共促大视频产业发展. ...
云栖大会压轴好戏阿里云发布视频云V5计划与系列新产品
9月25 - 27日,2019云栖大会如期召开.在大会最后一天下午,阿里云智能视频云分论坛为今年的云栖大会献上了一场精彩的压轴好戏. 视频云V5计划发布使能生态合作伙伴会上,阿里云智能研究员金戈进 ...
第一章基础设施，1.3 阿里视频云ApsaraVideo是怎样让4000万人同时狂欢的(作者：蔡华)
1.3 阿里视频云ApsaraVideo是怎样让4000万人同时狂欢的前言在今年的双11中,双11天猫狂欢夜的直播成为一大亮点. 根据官方披露数据,直播总观看人数超4257万,同时观看人数峰值达5 ...
计蒜之道初赛第一场B 阿里天池的新任务（简单）
阿里“天池”竞赛平台近日推出了一个新的挑战任务:对于给定的一串 DNA 碱基序列 tt,判断它在另一个根据规则生成的 DNA 碱基序列 ss 中出现了多少次. 首先,定义一个序列 ww: \displ ...
阿里移动云专场专题.md
小激动一年一度的阿里云栖大会是我们开发者的盛会,带着着激动的心情参加了这次开发者盛会,二话不说进入会场就被震感到了,先来张图聊表敬意. 主会场马云爸爸还是很有范的,将未来定义为无法定义,在这里宣布成 ...
阿里天池的新任务（简单）(KMP统计子串出现的次数)
阿里“天池”竞赛平台近日推出了一个新的挑战任务:对于给定的一串 DNA 碱基序列 tt,判断它在另一个根据规则生成的 DNA 碱基序列 ss 中出现了多少次. 输出格式输出一个整数,为 tt 在 s ...
【独家】阿里天池IJCAI17大赛第四名方案全解析（附代码）
[独家]阿里天池IJCAI17大赛第四名方案全解析(附代码) https://mp.weixin.qq.com/s?__biz=MzAxMzA2MDYxMw==&mid=2651560625& ...
阿里ECS云服务器部署文件
今天,接触了阿里ECS云服务器,免费领取链接https://dwz.cn/WOFZpZz1 获取之后,要添加一下端口,刚开始需要80 8080 3306的端口,其他的根据需要自行添加点击快速创建 ...
阿里天池 NLP 入门赛 TextCNN 方案代码详细注释和流程讲解
thumbnail: https://image.zhangxiann.com/jung-ho-park-HbnqEhMBpPM-unsplash.jpg toc: true date: 2020/8 ...
机器学习笔记5-Tensorflow高级API之tf.estimator
前言本文接着上一篇继续来聊Tensorflow的接口,上一篇中用较低层的接口实现了线性模型,本篇中将用更高级的API--tf.estimator来改写线性模型. 还记得之前的文章<机器学习笔记 ...

随机推荐

Groovy反序列化链分析
前言 Groovy 是一种基于 JVM 的开发语言,具有类似于 Python,Ruby,Perl 和 Smalltalk 的功能.Groovy 既可以用作 Java 平台的编程语言,也可以用作脚本语言 ...
重新点亮linux 命令树————权限的修改[十]
前言简单介绍一下文件的权限修改. 正文 chmod 修改文件.目录的权限 chmod u+x /tmp/testfile chmod u-x /tmp/testfile u 表示用户 g 表示组 o ...
重新点亮linux 命令树————文件列表查看命令[二]
前言整理一下文件查看命令正文主要是pwd和ls命令 pwd 这个是一个非常常用的命令,在shell脚本中基本都有,表示的是当前目录. 这是一个非常简单,但是非常实用的命令. 通过使用pwd -- ...
重学c#系列——缓存[盛派源码分析cache](九)
前言以前整理过缓存的东西在: https://www.cnblogs.com/aoximin/p/12727659.html 只是粗略的例子,因为真的要去介绍缓存这个东西,要从内存开始,是一个有时间 ...
利用PyTorch训练模型识别数字+英文图片验证码
利用PyTorch训练模型识别数字+英文图片验证码摘要:使用深度学习框架PyTorch来训练模型去识别4-6位数字+字母混合图片验证码(我们可以使用第三方库captcha生成这种图片验证码或者自己收 ...
C内存操作API的实现原理
我们在编写C代码时,会使用两种类型的内存,一种是栈内存,另外一种是堆内存,其中栈内存的申请和释放是由编译器来隐式管理的,我们也称为自动内存,这种变量是最简单而且最常用的,然后就是堆内存,堆的申请和释放 ...
新型DDoS来袭 | 基于STUN协议的DDoS反射攻击分析
简介: 作为新型反射类型,目前仍存绕过防御可能性. 阿里云安全近期发现利用STUN(Session Traversal Utilities for NAT,NAT会话穿越应用程序)服务发起的DDoS反 ...
技术干货｜ jsAPI 方式下的导航栏的动态化修改
简介: 操作指导:通过 jsAPI 实现导航栏的动态修改. 很多开发同学在接入 H5 容器后都会对容器的导航栏进行深度定制,除了 Native 的定制化之外,还有很多场景是使用到 jsAPI 的 ...
dotnet OpenXML 继承组合颜色的 GrpFill 属性
在 OpenXML 的颜色画刷填充,有特殊的填充是 GrpFill 属性,对应 OpenXML SDK 定义的 DocumentFormat.OpenXml.Drawing.GroupFill 类型 ...
2018-2-13-win10-uwp-修改CalendarDatePicker图标颜色
title author date CreateTime categories win10 uwp 修改CalendarDatePicker图标颜色 lindexi 2018-2-13 17:23:3 ...

【阿里天池云-龙珠计划】薄书的机器学习笔记——快来一起挖掘幸福感！Task04