pandas 代码
def get_train_data():
df = pd.read_csv('data/train.csv', encoding='utf_8') # df1 = pd.read_csv('data/test.csv', encoding='utf_8')
# df2 = pd.read_csv('data/count.csv', encoding='utf_8')
# df1['casual'] = df2['casual']
# df1['registered'] = df2['registered']
# df1['count'] = df2['count']
# df = pd.concat([df, df1]) cur_time = pd.to_datetime(df['datetime']) df['year'] = cur_time.map(lambda x:x.year)
df['month'] = cur_time.map(lambda x:x.month)
df['day'] = cur_time.map(lambda x:x.day)
df['hour'] = cur_time.map(lambda x:x.hour)
df['dayOfWeek'] = cur_time.map(lambda x:x.isoweekday())
df['segOfDay'] = df['hour'].apply(classfy) year = pd.get_dummies(data=df.iloc[:,]) # df['spring'] = df['season'].map({1:1})
# df['summer'] = df['season'].map({2:1})
# df['autumn'] = df['season'].map({3:1})
# df['winter'] = df['season'].map({4:1})
# df = df.fillna(value={'spring':0,'summer':0,'autumn':0,'winter':0})
#
# df['weather1'] = df['weather'].map({1:1})
# df['weather2'] = df['weather'].map({2:1})
# df['weather3'] = df['weather'].map({3:1})
# df['weather4'] = df['weather'].map({4:1})
# df = df.fillna(value={'weather1':0,'weather2':0,'weather3':0,'weather4':0})
#
df = df.replace({'windspeed':0}, 12.799) casual = df['casual']
registered = df['registered']
df = df.drop(['datetime', 'season', 'weather','casual', 'registered', 'count'], axis=1) log_cas = casual.map(lambda x: math.log(x+1))
log_reg = registered.map(lambda x: math.log(x+1)) train_casual = log_cas.values
train_registered = log_reg.values
train_data = df.values return train_casual, train_registered, train_data
pandas 代码的更多相关文章
- 使用Pandas_UDF快速改造Pandas代码
1. Pandas_UDF介绍 PySpark和Pandas之间改进性能和互操作性的其核心思想是将Apache Arrow作为序列化格式,以减少PySpark和Pandas之间的开销. Pandas_ ...
- (数据科学学习手札92)利用query()与eval()优化pandas代码
本文示例代码已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 1 简介 利用pandas进行数据分析的过程,不仅仅是计算 ...
- 在pandas中使用pipe()提升代码可读性
1 简介 我们在利用pandas开展数据分析时,应尽量避免过于碎片化的组织代码,尤其是创建出过多不必要的中间变量,既浪费了内存,又带来了关于变量命名的麻烦,更不利于整体分析过程代码的可读性,因此以流水 ...
- Pandas初学者代码优化指南
原文:A Beginner’s Guide to Optimizing Pandas Code for Speed 作者:Sofia Heisler 翻译:无阻我飞扬 摘要:Pandas 是Pytho ...
- 【Python发展】pandas和koalas
1.pandas介绍 Python 数据科学在过去几年中爆炸式增长, pandas 已成为生态系统的关键.当数据科学家得到一个数据集时,他们会使用 pandas 进行探索.它是数据处理和分析的终极工具 ...
- python科学计算库-pandas
------------恢复内容开始------------ 1.基本概念 在数据分析工作中,Pandas 的使用频率是很高的, 一方面是因为 Pandas 提供的基础数据结构 DataFrame 与 ...
- 相关性系数及其python实现
参考文献: 1.python 皮尔森相关系数 https://www.cnblogs.com/lxnz/p/7098954.html 2.统计学之三大相关性系数(pearson.spearman.ke ...
- 你确定 SQL 查询都是以 SELECT 开始的?
很多 SQL 查询都是以 SELECT 开始的. 不过,最近我跟别人解释什么是窗口函数,我在网上搜索"是否可以对窗口函数返回的结果进行过滤"这个问题,得出的结论是"窗口函 ...
- 增强 Jupyter Notebook的功能
增强 Jupyter Notebook的功能 Jupyter Notebook 是所有开发者共享工作的神器,它为共享 Notebooks 提供了一种便捷方式:结合文本.代码和图更快捷地将信息传达给受众 ...
随机推荐
- 继承、super、this、抽象类
继承.super.this.抽象类 继承.super.this.抽象类 继承.super.this.抽象类 继承.super.this.抽象类 继承.super.this.抽象类
- Django 03 模板路径、模板变量、常用的过滤器
Django 03 模板路径.模板变量.常用的过滤器 一.模板路径 #1.在每个app下面添加一个templates文件 #2.在项目views.py里面第33行INSTALLED_APPS里面添加上 ...
- Java中23种设计模式--超快速入门及举例代码
在网上看了一些设计模式的文章后,感觉还是印象不太深刻,决定好好记录记录. 原文地址:http://blog.csdn.net/doymm2008/article/details/13288067 注: ...
- 023 Merge k Sorted Lists 合并K个有序链表
合并K个有序链表,并且作为一个有序链表的形式返回.分析并描述它的复杂度. 详见:https://leetcode.com/problems/merge-k-sorted-lists/descripti ...
- Day1上
上午发挥强差人意.心态不好,编译器一直报错,心里比较慌. t1 每一个P枚举底数 .可二分 T2 暴力30 打标60 x^3-y^3=(x-y)*(x^2+xy+y^2). x-y==1. ! p ...
- Device
#import "AppDelegate.h" #import "RootViewController.h" @implementation AppDelega ...
- 常见的生成全局唯一id有哪些?他们各有什么优缺点?
分布式系统中全局唯一id是我们经常用到的,生成全局id方法由很多,我们选择的时候也比较纠结.每种方式都有各自的使用场景,如果我们熟悉各种方式及优缺点,使用的时候才会更方便.下面我们就一起来看一下常见的 ...
- 如何配置阿里Maven镜像
1.下载maven的zip解压,官方下载地址为:http://maven.apache.org/download.cgi 选择需要下载maven的版本就好了 2.到下载的maven路径下,conf/s ...
- JSP的使用
JSP全称为(Java server page),之所以出现JSP,最主要的目的是抽离出Servlet中输出HTML的部分,由于之前响应客户端的时候,是直接在Servlet中利用response.ge ...
- AGC015 C Nuske vs Phantom Thnook(前缀和)
题意 题目链接 给出一张$n \times m$的网格,其中$1$为蓝点,$2$为白点. $Q$次询问,每次询问一个子矩阵内蓝点形成的联通块的数量 保证任意联通块内的任意蓝点之间均只有一条路径可达 S ...