【数据分析学习】Pandas学习记录

import pandas as pd

path = r'F:\数据分析专用\数据分析与机器学习\food_info.csv'

with open(path, 'r') as f:

    data = pd.read_csv(f)

    print(type(data))

    print(data.dtypes)

    print(help(pd.read_csv))

文件操作

print(data.head(3))

print(data.tail(3))

print(data.columns)

查看数据

data.sort_values('Carbohydrt_(g)', inplace=True)

print(data['Carbohydrt_(g)'])

# print(data)

data.sort_values('Carbohydrt_(g)', inplace=True, ascending=False)

print(data['Carbohydrt_(g)'])

数据排序

age = t_s['Age']

age_is_null = pd.isnull(age)

age_null_true = age[age_is_null]

age_null_count = len(age_null_true)

print(age_null_count)

#----------------------------------------

count_list = []

for i in age:

    if i != i:

        count_list.append(i)

print(len(count_list))

数据的筛选

mean_age = sum(t_s['Age'])/len(t_s['Age'])

print(mean_age)

#--------------------------------------------------

good_ages = t_s['Age'][age_is_null==False]

correct_mean_age = sum(good_ages)/len(good_ages)

print(correct_mean_age)

#---------------------------------------------

correct_mean_age = t_s['Age'].mean()

print(correct_mean_age)

数据的处理方法(平均数)

passenger_classes = {1, 2, 3}

faces_by_class = {}

for this_class in passenger_classes:

    pclass_rows = t_s[t_s['Pclass']==this_class]

    pclass_fares = pclass_rows['Fare']

    fare_for_class = pclass_fares.mean()

    faces_by_class[this_class] = fare_for_class

print(faces_by_class)

#--------------------------------------------------------

passenger_s = t_s.pivot_table(index='Pclass', values='Survived', aggfunc=np.mean)

print(passenger_s)

#--------------------------------------------------------

passenger_age = t_s.pivot_table(index='Pclass', values='Age')

print(passenger_age)

#--------------------------------------------------------

passenger_price = t_s.pivot_table(index='Pclass', values='Fare')

print(passenger_price)

#--------------------------------------------------------

port_stats = t_s.pivot_table(index='Embarked', values=['Fare', 'Survived'], aggfunc=np.sum)

print(port_stats)

数据透视表

def hundredth_row(column):

    hundredth_item = column.loc[99]

    return hundredth_item

hundredth_row = t_r.apply(hundredth_row)

print(hundredth_row)

自定义函数

def which_class(row):

    pclass = row['Pclass']

    if pd.isnull(pclass):

        return 'Unknown'

    elif pclass == 1:

        return "First Class"

    elif pclass == 2:

        return "Second Class"

    elif pclass == 3:

        return "Third Class"

classes = t_r.apply(which_class, axis=1)

print(classes)

自定义函数

import pandas as pd

path = r'F:\数据分析专用\数据分析与机器学习\fandango_score_comparison.csv'

with open(path, 'r', encoding='utf-8') as f:

    data = pd.read_csv(f)

    # print(data.dtypes)

    series_film = data['FILM']

    print(type(series_film))

    series_rt = data['RottenTomatoes']

    print(series_rt[0:5])

#--------------------------------------------------------------

from pandas import Series

film_names = series_film.values

print(type(film_names))

rt_scores = series_rt.values

series_custom = Series(rt_scores, index=film_names)

series_custom[['Minions (2015)', 'Leviathan (2014)']]

Series结构

【数据分析学习】Pandas学习记录的更多相关文章

Pandas 学习记录(一)
1.DataFrame 按照列和按照行进行索引数据按照列索引 df[’column_name’] 按照行索引 df.loc[’row_key’] 或 df.iloc[index] 2.先行后列索引单 ...
大数据kafka视频教程学习记录【B站尚硅谷】
视频地址: https://www.bilibili.com/video/av35354301/?p=1 2019/03/06 21:59 消息队列的内部实现: Kafka基础: ...
ElasticSearch 学习记录之分布式文档存储往ES中存数据和取数据的原理
分布式文档存储 ES分布式特性屏蔽了分布式系统的复杂性集群内的原理垂直扩容和水平扩容真正的扩容能力是来自于水平扩容–为集群添加更多的节点,并且将负载压力和稳定性分散到这些节点中 ES集群特点 ...
pandas学习(数据分组与分组运算、离散化处理、数据合并)
pandas学习(数据分组与分组运算.离散化处理.数据合并) 目录数据分组与分组运算离散化处理数据合并数据分组与分组运算 GroupBy技术:实现数据的分组,和分组运算,作用类似于数据透视表 ...
pandas学习(创建多层索引、数据重塑与轴向旋转)
pandas学习(创建多层索引.数据重塑与轴向旋转) 目录创建多层索引数据重塑与轴向旋转创建多层索引隐式构造 Series 最常见的方法是给DataFrame构造函数的index参数传递两个或 ...
pandas学习(常用数学统计方法总结、读取或保存数据、缺省值和异常值处理)
pandas学习(常用数学统计方法总结.读取或保存数据.缺省值和异常值处理) 目录常用数学统计方法总结读取或保存数据缺省值和异常值处理常用数学统计方法总结 count 计算非NA值的数量 de ...
pandas学习（创建数据，基本操作）
pandas学习(一) Pandas基本数据结构 Series类型数据 Dataframe类型基本操作 Pandas基本数据结构两种常用数据结构: Series 一维数组,与Numpy中的一维ar ...
pandas学习（四）--数据的归一化
欢迎加入python学习交流群 667279387 Pandas学习(一)–数据的导入 pandas学习(二)–双色球数据分析 pandas学习(三)–NAB球员薪资分析 pandas学习(四)–数据 ...
Pandas学习（一）——数据的导入
欢迎加入python学习交流群 667279387 学习笔记汇总 Pandas学习(一)–数据的导入 pandas学习(二)–双色球数据分析 pandas学习(三)–NAB球员薪资分析 pandas学 ...

随机推荐

java IO(BIO)、NIO、AIO
IO 服务端ServerSocket 客户端Socket 缺点每次客户端建立连接都会另外启一个线程处理.读取和发送数据都是阻塞式的. 如果1000个客户端建立连接将会产生1000个线程 Server端 ...
Linux去重命令uniq（转）
注意:需要先排序sort才能使用去重. Linux uniq命令用于检查及删除文本文件中重复出现的行列. uniq可检查文本文件中重复出现的行列. 语法 uniq [-cdu][-f<栏位> ...
Git用<<<<<<<，=======，>>>>>>>标记出不同分支的内容
Git用<<<<<<<,=======,>>>>>>>标记出不同分支的内容当Git无法自动合并分支时,就必须首先解 ...
maven创建web报错failure to transfer org.codehaus.plexus
failure to transfer org.codehaus.plexus:plexus:pom:2.0.5 from http:// repo.maven.apache.org/maven2 w ...
【cl】selenium实例2：打开百度，输入hello world
/*创建的类为junit class*/ package Selenium_lassen; import static org.junit.Assert.*; import java.io.File; ...
luogu1969 积木大赛
题目大意搭建一座宽度为n的大厦,大厦可以看成由n块宽度为1的积木组成,第i块积木的最终高度需要是hi. 在搭建开始之前,没有任何积木(可以看成n块高度为 0 的积木).接下来每次操作,可以选择一段连 ...
IJKPlayer问题集锦之不定时更新
1.IJKPlayer 不像系统播放器会给你旋转视频角度,所以你需要通过onInfo的what == IMediaPlayer.MEDIA_INFO_VIDEO_ROTATION_CHANGED去获取 ...
Swift 3 关于Date的一些操作
前言最近在写关于日期的一些操作,所以整理了一下这方面的一些知识本Demo使用的是playground. 我们以前使用的都是NSDate类进行日期的操作,在Swift 3.0中,我们就可以使用更加S ...
Hdu-6242 2017CCPC-哈尔滨站 M.Geometry Problem 计算几何随机
题面题意:给你n个点,让你找到一个圆,输出圆心,和半径,使得有超过一半的点刚好在圆上.n<=1e5,题目保证了有解题解:刚开始看着很不可做的样子,但是多想想,三点确定一个圆,三点啊! 现在有 ...
mysql 强制修改密码
mysql忘记密码时强制修改步骤如下: 1.用命令编辑配置文件/etc/my.cnf 2.添加一条语句使其变为不用密码就能进入的状态 skip-grant-tables 3.保存并退出,然后再命令行输 ...

【数据分析学习】Pandas学习记录

【数据分析学习】Pandas学习记录的更多相关文章

随机推荐

热门专题