pandas 代码

 def get_train_data():

     df = pd.read_csv('data/train.csv', encoding='utf_8')

 #    df1 = pd.read_csv('data/test.csv', encoding='utf_8')

 #    df2 = pd.read_csv('data/count.csv', encoding='utf_8')

 #    df1['casual'] = df2['casual']

 #    df1['registered'] = df2['registered']

 #    df1['count'] = df2['count']

 #    df = pd.concat([df, df1])

     cur_time = pd.to_datetime(df['datetime'])

     df['year'] = cur_time.map(lambda x:x.year)

     df['month'] = cur_time.map(lambda x:x.month)

     df['day'] = cur_time.map(lambda x:x.day)

     df['hour'] = cur_time.map(lambda x:x.hour)

     df['dayOfWeek'] = cur_time.map(lambda x:x.isoweekday())

     df['segOfDay'] = df['hour'].apply(classfy)  

     year = pd.get_dummies(data=df.iloc[:,])

 #    df['spring'] = df['season'].map({1:1})

 #    df['summer'] = df['season'].map({2:1})

 #    df['autumn'] = df['season'].map({3:1})

 #    df['winter'] = df['season'].map({4:1})

 #    df = df.fillna(value={'spring':0,'summer':0,'autumn':0,'winter':0})

 #

 #    df['weather1'] = df['weather'].map({1:1})

 #    df['weather2'] = df['weather'].map({2:1})

 #    df['weather3'] = df['weather'].map({3:1})

 #    df['weather4'] = df['weather'].map({4:1})

 #    df = df.fillna(value={'weather1':0,'weather2':0,'weather3':0,'weather4':0})

 #

     df = df.replace({'windspeed':0}, 12.799)

     casual = df['casual']

     registered  = df['registered']

     df = df.drop(['datetime', 'season', 'weather','casual', 'registered', 'count'], axis=1)

     log_cas = casual.map(lambda x: math.log(x+1))

     log_reg = registered.map(lambda x: math.log(x+1))

     train_casual = log_cas.values

     train_registered = log_reg.values

     train_data = df.values

     return train_casual, train_registered, train_data

pandas 代码的更多相关文章

使用Pandas_UDF快速改造Pandas代码
1. Pandas_UDF介绍 PySpark和Pandas之间改进性能和互操作性的其核心思想是将Apache Arrow作为序列化格式,以减少PySpark和Pandas之间的开销. Pandas_ ...
（数据科学学习手札92）利用query()与eval()优化pandas代码
本文示例代码已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 1 简介利用pandas进行数据分析的过程,不仅仅是计算 ...
在pandas中使用pipe()提升代码可读性
1 简介我们在利用pandas开展数据分析时,应尽量避免过于碎片化的组织代码,尤其是创建出过多不必要的中间变量,既浪费了内存,又带来了关于变量命名的麻烦,更不利于整体分析过程代码的可读性,因此以流水 ...
Pandas初学者代码优化指南
原文:A Beginner’s Guide to Optimizing Pandas Code for Speed 作者:Sofia Heisler 翻译:无阻我飞扬摘要:Pandas 是Pytho ...
【Python发展】pandas和koalas
1.pandas介绍 Python 数据科学在过去几年中爆炸式增长, pandas 已成为生态系统的关键.当数据科学家得到一个数据集时,他们会使用 pandas 进行探索.它是数据处理和分析的终极工具 ...
python科学计算库-pandas
------------恢复内容开始------------ 1.基本概念在数据分析工作中,Pandas 的使用频率是很高的, 一方面是因为 Pandas 提供的基础数据结构 DataFrame 与 ...
相关性系数及其python实现
参考文献: 1.python 皮尔森相关系数 https://www.cnblogs.com/lxnz/p/7098954.html 2.统计学之三大相关性系数(pearson.spearman.ke ...
你确定 SQL 查询都是以 SELECT 开始的？
很多 SQL 查询都是以 SELECT 开始的. 不过,最近我跟别人解释什么是窗口函数,我在网上搜索"是否可以对窗口函数返回的结果进行过滤"这个问题,得出的结论是"窗口函 ...
增强 Jupyter Notebook的功能
增强 Jupyter Notebook的功能 Jupyter Notebook 是所有开发者共享工作的神器,它为共享 Notebooks 提供了一种便捷方式:结合文本.代码和图更快捷地将信息传达给受众 ...

随机推荐

AT2402 Dam
传送门考虑到一个很显然的事实:水是逃不掉的,一定要接的所以我们就可以得到一个结论:如果当前的水温比上次低,就混合起来(因为水是逃不掉的),如果高就保留(因为我可以将前面的全部抛弃,只取这个高的) ...
Chinese Zodiac （水题）
The Chinese Zodiac, known as Sheng Xiao, is based on a twelve-year cycle, each year in the cycle rel ...
华东交通大学2017年ACM“双基”程序设计竞赛 1005
Problem Description 假设你有一个矩阵,有这样的运算A^(n+1) = A^(n)*A (*代表矩阵乘法)现在已知一个n*n矩阵A,S = A+A^2+A^3+...+A^k,输出S ...
05-树9 Huffman Codes （30 分）
In 1953, David A. Huffman published his paper "A Method for the Construction of Minimum-Redunda ...
Linux--5 mariadb和redis的安装
一.MYSQL(mariadb) MariaDB数据库管理系统是MySQL的一个分支,主要由开源社区在维护,采用GPL授权许可. 开发这个分支的原因之一是:甲骨文公司收购了MySQL后,有将MySQL ...
mybatis深入理解(一)之 # 与 $ 区别以及 sql 预编译
mybatis 中使用 sqlMap 进行 sql 查询时,经常需要动态传递参数,例如我们需要根据用户的姓名来筛选用户时,sql 如下: select * from user where name = ...
Subversion Server Edge用户权限设置简介
Subversion Server Edge用户权限可分为两种,一种为按用户权限,一种为按组权限设置 1.按用户设置权限 [codeLibrary:/] //对整个代码库 *=r //所有用户 ...
006 ZigZag Conversion
The string "PAYPALISHIRING" is written in a zigzag pattern on a given number of rows like ...
C A Simple Job
题目3 : A Simple Job时间限制:1000ms单点时限:1000ms内存限制:256MB描述Institute of Computational Linguistics (ICL), Pe ...
POJ 1410 Intersection 数据错误
题目要求判断一条线段和一个矩形是否相交,或者是否在矩形里面(题目好像没说?) 思路就是直接暴力判断和矩形四条边是否相交,和线段的坐标是否在矩形的坐标范围即可. 然后题目的数据,(xleft,ytop) ...

pandas 代码

pandas 代码的更多相关文章

随机推荐

热门专题