def get_train_data():
df = pd.read_csv('data/train.csv', encoding='utf_8') # df1 = pd.read_csv('data/test.csv', encoding='utf_8')
# df2 = pd.read_csv('data/count.csv', encoding='utf_8')
# df1['casual'] = df2['casual']
# df1['registered'] = df2['registered']
# df1['count'] = df2['count']
# df = pd.concat([df, df1]) cur_time = pd.to_datetime(df['datetime']) df['year'] = cur_time.map(lambda x:x.year)
df['month'] = cur_time.map(lambda x:x.month)
df['day'] = cur_time.map(lambda x:x.day)
df['hour'] = cur_time.map(lambda x:x.hour)
df['dayOfWeek'] = cur_time.map(lambda x:x.isoweekday())
df['segOfDay'] = df['hour'].apply(classfy) year = pd.get_dummies(data=df.iloc[:,]) # df['spring'] = df['season'].map({1:1})
# df['summer'] = df['season'].map({2:1})
# df['autumn'] = df['season'].map({3:1})
# df['winter'] = df['season'].map({4:1})
# df = df.fillna(value={'spring':0,'summer':0,'autumn':0,'winter':0})
#
# df['weather1'] = df['weather'].map({1:1})
# df['weather2'] = df['weather'].map({2:1})
# df['weather3'] = df['weather'].map({3:1})
# df['weather4'] = df['weather'].map({4:1})
# df = df.fillna(value={'weather1':0,'weather2':0,'weather3':0,'weather4':0})
#
df = df.replace({'windspeed':0}, 12.799) casual = df['casual']
registered = df['registered']
df = df.drop(['datetime', 'season', 'weather','casual', 'registered', 'count'], axis=1) log_cas = casual.map(lambda x: math.log(x+1))
log_reg = registered.map(lambda x: math.log(x+1)) train_casual = log_cas.values
train_registered = log_reg.values
train_data = df.values return train_casual, train_registered, train_data

pandas 代码的更多相关文章

  1. 使用Pandas_UDF快速改造Pandas代码

    1. Pandas_UDF介绍 PySpark和Pandas之间改进性能和互操作性的其核心思想是将Apache Arrow作为序列化格式,以减少PySpark和Pandas之间的开销. Pandas_ ...

  2. (数据科学学习手札92)利用query()与eval()优化pandas代码

    本文示例代码已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 1 简介 利用pandas进行数据分析的过程,不仅仅是计算 ...

  3. 在pandas中使用pipe()提升代码可读性

    1 简介 我们在利用pandas开展数据分析时,应尽量避免过于碎片化的组织代码,尤其是创建出过多不必要的中间变量,既浪费了内存,又带来了关于变量命名的麻烦,更不利于整体分析过程代码的可读性,因此以流水 ...

  4. Pandas初学者代码优化指南

    原文:A Beginner’s Guide to Optimizing Pandas Code for Speed 作者:Sofia Heisler 翻译:无阻我飞扬 摘要:Pandas 是Pytho ...

  5. 【Python发展】pandas和koalas

    1.pandas介绍 Python 数据科学在过去几年中爆炸式增长, pandas 已成为生态系统的关键.当数据科学家得到一个数据集时,他们会使用 pandas 进行探索.它是数据处理和分析的终极工具 ...

  6. python科学计算库-pandas

    ------------恢复内容开始------------ 1.基本概念 在数据分析工作中,Pandas 的使用频率是很高的, 一方面是因为 Pandas 提供的基础数据结构 DataFrame 与 ...

  7. 相关性系数及其python实现

    参考文献: 1.python 皮尔森相关系数 https://www.cnblogs.com/lxnz/p/7098954.html 2.统计学之三大相关性系数(pearson.spearman.ke ...

  8. 你确定 SQL 查询都是以 SELECT 开始的?

    很多 SQL 查询都是以 SELECT 开始的. 不过,最近我跟别人解释什么是窗口函数,我在网上搜索"是否可以对窗口函数返回的结果进行过滤"这个问题,得出的结论是"窗口函 ...

  9. 增强 Jupyter Notebook的功能

    增强 Jupyter Notebook的功能 Jupyter Notebook 是所有开发者共享工作的神器,它为共享 Notebooks 提供了一种便捷方式:结合文本.代码和图更快捷地将信息传达给受众 ...

随机推荐

  1. Kotlin VS Java:基本语法差异

    Kotlin比Java更年轻,但它是一个非常有前途的编程语言,它的社区不断增长. 每个人都在谈论它,并说它很酷. 但为什么这么特别? 我们准备了一系列文章,分享我们在Kotlin开发Android应用 ...

  2. shell括号和linux算术运算

    一.小括号() 1. 单小括号() a).命令组 (a=0;touch a.txt) 小括号中的内容会开启一个子shell独立运行:括号中以分号连接,最后一个命令不需要:各命令和括号无空格 b).命令 ...

  3. Java基础笔记(十)—— 数组

    数组是具有相同类型的数据的集合,是一种引用数据类型,一般具有固定的长度,并且在内存中占据连续的空间. 数组声明:数据类型[ ] 数组名;             数据类型 数组名[ ]; 如:int[ ...

  4. 洛谷2747(不相交路线、dp)

    要点 反思:以前是在紫书上做过的-- \(dp[i][j]\)是从1引两条路到达i.j的最大值 为了不相交,则\(dp[i][i]\)都是非法的,不转移它,也不用它转移 #include <cs ...

  5. java基础---GC

    一.Java基础: GC即:garbage collection垃圾回收机制.Java是自动回收垃圾的,像c c++等语言没有自动垃圾回收机制,长时间开启服务器就会导致 内存泄漏,占用内存 Java的 ...

  6. An internal error occurred during: "Add Deployment". Container with path org.eclipse.jdt.launching.

    导入非本机项目出现这种错误,原因就是JDK版本不一致. 具体解决步骤如下: 右键项目名→Properties→JavaBuild Path→Libraries→选中JRE SystemLibrary[ ...

  7. ssl加密

    握手前使用非对称加密, 握手后使用对称加密 前期握手就是用来协商对称加密算法的

  8. Microsoft JDBC Driver 使用 getParameterMetaData 会报错?

    不知道为何使用 Microsoft JDBC Driver for SQL Server 驱动时,sql语句不带参数没有问题,但是如果带参数且使用 getParameterMetaData 就会提示某 ...

  9. Java面向对象_常用类库api——对象比较器

    概念:对两个或多个数据项进行比较,以确定他们是否相等,或确定他们之间的大小关系及排列顺序成为比较. 1.Comparable接口: 此接口强行对实现它的每个类的对象进行整体排序.这种排序被称为类的自然 ...

  10. SQL Server 脚本跟踪

    1.查询 DataBasesID select db_id('regdatas') 2.获取进程ID 3.过滤定位