import pandas as pd
path = r'F:\数据分析专用\数据分析与机器学习\food_info.csv'
with open(path, 'r') as f:
data = pd.read_csv(f)
print(type(data))
print(data.dtypes)
print(help(pd.read_csv))

文件操作

print(data.head(3))
print(data.tail(3))
print(data.columns)

查看数据

data.sort_values('Carbohydrt_(g)', inplace=True)
print(data['Carbohydrt_(g)'])
# print(data)
data.sort_values('Carbohydrt_(g)', inplace=True, ascending=False)
print(data['Carbohydrt_(g)'])

数据排序

age = t_s['Age']
age_is_null = pd.isnull(age)
age_null_true = age[age_is_null]
age_null_count = len(age_null_true)
print(age_null_count)
#----------------------------------------
count_list = []
for i in age:
if i != i:
count_list.append(i)
print(len(count_list))

数据的筛选

mean_age = sum(t_s['Age'])/len(t_s['Age'])
print(mean_age)
#--------------------------------------------------
good_ages = t_s['Age'][age_is_null==False]
correct_mean_age = sum(good_ages)/len(good_ages)
print(correct_mean_age)
#---------------------------------------------
correct_mean_age = t_s['Age'].mean()
print(correct_mean_age)

数据的处理方法(平均数)

passenger_classes = {1, 2, 3}
faces_by_class = {}
for this_class in passenger_classes:
pclass_rows = t_s[t_s['Pclass']==this_class]
pclass_fares = pclass_rows['Fare']
fare_for_class = pclass_fares.mean()
faces_by_class[this_class] = fare_for_class
print(faces_by_class)
#--------------------------------------------------------
passenger_s = t_s.pivot_table(index='Pclass', values='Survived', aggfunc=np.mean)
print(passenger_s)
#--------------------------------------------------------
passenger_age = t_s.pivot_table(index='Pclass', values='Age')
print(passenger_age)
#--------------------------------------------------------
passenger_price = t_s.pivot_table(index='Pclass', values='Fare')
print(passenger_price)
#--------------------------------------------------------
port_stats = t_s.pivot_table(index='Embarked', values=['Fare', 'Survived'], aggfunc=np.sum)
print(port_stats)

数据透视表


def hundredth_row(column):
hundredth_item = column.loc[99]
return hundredth_item hundredth_row = t_r.apply(hundredth_row)
print(hundredth_row)

自定义函数

def which_class(row):
pclass = row['Pclass']
if pd.isnull(pclass):
return 'Unknown'
elif pclass == 1:
return "First Class"
elif pclass == 2:
return "Second Class"
elif pclass == 3:
return "Third Class" classes = t_r.apply(which_class, axis=1)
print(classes)

自定义函数


import pandas as pd
path = r'F:\数据分析专用\数据分析与机器学习\fandango_score_comparison.csv'
with open(path, 'r', encoding='utf-8') as f:
data = pd.read_csv(f)
# print(data.dtypes)
series_film = data['FILM']
print(type(series_film))
series_rt = data['RottenTomatoes']
print(series_rt[0:5])
#--------------------------------------------------------------
from pandas import Series
film_names = series_film.values
print(type(film_names))
rt_scores = series_rt.values
series_custom = Series(rt_scores, index=film_names)
series_custom[['Minions (2015)', 'Leviathan (2014)']]

Series结构

【数据分析学习】Pandas学习记录的更多相关文章

  1. Pandas 学习记录(一)

    1.DataFrame 按照列和按照行进行索引数据 按照列索引 df[’column_name’] 按照行索引 df.loc[’row_key’] 或 df.iloc[index] 2.先行后列索引单 ...

  2. 大数据kafka视频教程 学习记录【B站尚硅谷 】

    视频地址: https://www.bilibili.com/video/av35354301/?p=1           2019/03/06 21:59 消息队列的内部实现: Kafka基础: ...

  3. ElasticSearch 学习记录之 分布式文档存储往ES中存数据和取数据的原理

    分布式文档存储 ES分布式特性 屏蔽了分布式系统的复杂性 集群内的原理 垂直扩容和水平扩容 真正的扩容能力是来自于水平扩容–为集群添加更多的节点,并且将负载压力和稳定性分散到这些节点中 ES集群特点 ...

  4. pandas学习(数据分组与分组运算、离散化处理、数据合并)

    pandas学习(数据分组与分组运算.离散化处理.数据合并) 目录 数据分组与分组运算 离散化处理 数据合并 数据分组与分组运算 GroupBy技术:实现数据的分组,和分组运算,作用类似于数据透视表 ...

  5. pandas学习(创建多层索引、数据重塑与轴向旋转)

    pandas学习(创建多层索引.数据重塑与轴向旋转) 目录 创建多层索引 数据重塑与轴向旋转 创建多层索引 隐式构造 Series 最常见的方法是给DataFrame构造函数的index参数传递两个或 ...

  6. pandas学习(常用数学统计方法总结、读取或保存数据、缺省值和异常值处理)

    pandas学习(常用数学统计方法总结.读取或保存数据.缺省值和异常值处理) 目录 常用数学统计方法总结 读取或保存数据 缺省值和异常值处理 常用数学统计方法总结 count 计算非NA值的数量 de ...

  7. pandas学习(创建数据,基本操作)

    pandas学习(一) Pandas基本数据结构 Series类型数据 Dataframe类型 基本操作 Pandas基本数据结构 两种常用数据结构: Series 一维数组,与Numpy中的一维ar ...

  8. pandas学习(四)--数据的归一化

    欢迎加入python学习交流群 667279387 Pandas学习(一)–数据的导入 pandas学习(二)–双色球数据分析 pandas学习(三)–NAB球员薪资分析 pandas学习(四)–数据 ...

  9. Pandas学习(一)——数据的导入

    欢迎加入python学习交流群 667279387 学习笔记汇总 Pandas学习(一)–数据的导入 pandas学习(二)–双色球数据分析 pandas学习(三)–NAB球员薪资分析 pandas学 ...

随机推荐

  1. qt的关闭窗口

    .关闭主窗口并退出程序是 QApplication::exit() .如果是QDialog,就accept() 或 reject()在调用窗口中获取相关参数:void MainWindow::on_p ...

  2. base64模块 简单了解

    base64,字符串文本编码解码,方便数据进行传输 import base64 '''编码解码''' st = 'ni hao'.encode('utf8') result = base64.b64e ...

  3. poj 3006水题打素数表

    #include<stdio.h> #include<string.h> #define N 1100000 int isprim[N],prime[N]; void ispr ...

  4. 【ACM】hdu_zs1_1005_大明A+B _201307291603

    大明A+B Time Limit : 3000/1000ms (Java/Other)   Memory Limit : 32768/32768K (Java/Other)Total Submissi ...

  5. ios自己定义类(UIView)代码生成简单的UITableViewCell

    因为一个项目中有大量的UITableViewCell须要书写,样式几乎相同都是 文字介绍:显示内容 这种. 自己又懒得写UITableViewCell类嫌不是必需:在方法tableView:cellF ...

  6. 跟我学Java多线程——线程池与堵塞队列

    前言 上一篇文章中我们将ThreadPoolExecutor进行了深入的学习和介绍,实际上我们在项目中应用的时候非常少有直接应用ThreadPoolExecutor来创建线程池的.在jdk的api中有 ...

  7. Android Handler消息机制深入浅出

    尊重原创:http://blog.csdn.net/yuanzeyao/article/details/38408493 作为Android开发者,Handler这个类应该是再熟悉只是了.由于差点儿不 ...

  8. eclipse配置默认的jdk

    1.window-preferences-java-Installed JREs-Add-Standard VM-[添加jre6或jre7的路径]

  9. margin 百分比是按參照物来计算滴 不知道吧?

    <style> #demo{ margin: 0 auto; width: 1000px; height: 500px; background: #eee; overflow: hidde ...

  10. ubuntu清华源【转】

    https://mirrors.tuna.tsinghua.edu.cn/help/ubuntu/ 可以选择ubuntu的版本更新源.