numpy和pandas的基本用法
安装numpy模块
pip install numpy
可以通过导入numpy模块来使用它
import numpy as np
1.创建数组:
a = np.array([1, 2, 3, 4, 5]) # 从列表创建一维数组
b = np.zeros((3, 3)) # 创建一个3x3的全零数组
c = np.ones((2, 2)) # 创建一个2x2的全一数组
d = np.arange(0, 10, 2) # 从0到10(不包括10),步长为2创建一维数组
2.数组操作:
a.shape # 获取数组的形状
a.ndim # 获取数组的维度
a.size # 获取数组的元素个数
a.dtype # 获取数组的数据类型
a.reshape((2, 3)) # 改变数组的形状
a.min() # 返回数组的最小值
a.max() # 返回数组的最大值
a.sum() # 返回数组的元素和
3.数组运算:
a + b # 数组相加(对应元素相加)
a - b # 数组相减(对应元素相减)
a * b # 数组相乘(对应元素相乘)
a / b # 数组相除(对应元素相除)
np.dot(a, b) # 数组的矩阵乘法
np.sin(a) # 对数组中的每个元素应用sin函数
安装pandas模块
pip install pandas
可以通过导入pandas模块来使用它
import pandas as pd
1.创建和读取数据:
# 从CSV文件读取数据
df = pd.read_csv('data.csv')
# 从excel文件读取数据
data = pandas.read_excel('1.xlsx')
2.数据处理和操作:
# 查看数据头部和尾部
df.head() # 默认显示前5行
df.tail(10) # 显示后10行
# 查看数据统计信息
df.describe() # 显示数值列的统计信息
df['column'].mean() # 计算某一列的平均值
# 选择和过滤数据
df['column'] # 选择某一列
df[['column1', 'column2']] # 选择多列
df[condition] # 根据条件选择行
# 添加和删除数据
df['new_column'] = values # 添加新列
df.drop('column', axis=1, inplace=True) # 删除列
# 数据排序和分组
df.sort_values('column') # 按列值排序
df.groupby('column').mean() # 按列分组并计算平均值
# 处理缺失数据
df.dropna() # 删除包含缺失值的行
df.fillna(value) # 用指定值填充缺失值
3.数据可视化:
df.plot() # 绘制折线图
df.plot(kind='bar') # 绘制柱状图
df.plot(kind='scatter', x='column1', y='column2') # 绘制散点图
小案例(读取excel中的数据进行分析)
import numpy as np
import pandas as pd
df = pd.read_excel('1.xlsx', sheet_name='Sheet1')
# 在read_excel()函数中,1.xlsx是Excel文件的路径,Sheet1是要读取的工作表的名称。可以根据需要更改这些参数。
df.head() # 查看数据前几行
df.shape # 查看数据形状(行数和列数)
df.columns # 查看列名
df['column'] # 选择某一列
df.describe() # 查看数据的统计信息
# 使用NumPy的array()函数将数据转换为NumPy数组(如果需要):
data = np.array(df)
numpy和pandas的基本用法的更多相关文章
- numpy和pandas和matplotlib用法
numpy result = [ [0, 10, 20, 30, 40], [10, 23, 33, 43, 53], [20, 83, 23, 55, 33], [30, 93, 44, 22, 5 ...
- 101道Numpy、Pandas练习题
无论是数据分析还是机器学习,数据的预处理必不可少. 其中最常用.最基础的Python库非numpy和pandas莫属,很多初学者可能看了很多教程,但是很快就把用法忘光了. 光看不练假把式,今天向大家推 ...
- python安装numpy和pandas
最近要对一系列数据做同比比较,需要用到numpy和pandas来计算,不过使用python安装numpy和pandas因为linux环境没有外网遇到了很多问题就记下来了.首要条件,python版本必须 ...
- 如何快速地从mongo中提取数据到numpy以及pandas中去
mongo数据通常过于庞大,很难一下子放进内存里进行分析,如果直接在python里使用字典来存贮每一个文档,使用list来存储数据的话,将很快是内存沾满.型号拥有numpy和pandas import ...
- numpy、pandas
numpy: 仨属性:ndim-维度个数:shape-维度大小:dtype-数据类型. numpy和pandas各def的axis缺省为0,作用于列,除DataFrame的.sort_index()和 ...
- [转] python安装numpy和pandas
最近要对一系列数据做同比比较,需要用到numpy和pandas来计算,不过使用python安装numpy和pandas因为linux环境没有外网遇到了很多问题就记下来了.首要条件,python版本必须 ...
- 1.理解Numpy、pandas
之前一直做得只是采集数据,而没有再做后期对数据的处理分析工作,自己也是有意愿去往这些方向学习的,最近就在慢慢的接触. 首先简单理解一下numpy和pandas:一.NumPy:1.NumPy是高性能计 ...
- numpy和pandas简单使用
numpy和pandas简单使用 import numpy as np import pandas as pd 一维数据分析 numpy中使用array, pandas中使用series numpy一 ...
- Python入门之安装numpy和pandas
最近要对一系列数据做同比比较,需要用到numpy和pandas来计算,不过使用python安装numpy和pandas因为linux环境没有外网遇到了很多问题就记下来了. 首要条件,python版本必 ...
- python及numpy,pandas易混淆的点
https://blog.csdn.net/happyhorizion/article/details/77894035 初接触python觉得及其友好(类似matlab),尤其是一些令人拍案叫绝不可 ...
随机推荐
- [SWPUCTF 2021 新生赛]PseudoProtocols
[SWPUCTF 2021 新生赛]PseudoProtocols 一.题目 二.WP 1.打开题目,发现提示我们是否能找到hint.php,并且发现URL有参数wllm.所以我们尝试利用PHP伪协议 ...
- flutter填坑之旅(配置本地资源文件)
一.添加单个资源文件 项目下创建一个assets目录,在该目录下存放对应的资源文件(json.image.-) pubspec.yaml文件中配置资源文件路径(注意缩进要与上下文一直) assets: ...
- web自动化08-下拉选择框、弹出框、滚动条
1.下拉选择框操作 下拉框就是HTML中<select>元素: 先列需求: 需求:使用'注册A.html'页面,完成对城市的下拉框的操作 1).选择'广州' 2).暂停2秒,选择'上海 ...
- 《HTML入门笔记2》
HTML常用标签 分别有:a 标签.img 标签.table 标签.form 标签.input 标签等. a 标签(特别常用) a 标签即超级链接,又叫超链接.一个网站通常由多个页面构成,进入网站时首 ...
- Python socket记录
目录 网络编程 1.基本概念 Python中的网络编程 网络编程 1.基本概念 1.什么是客户端/服务器架构? 服务器就是一系列硬件或软件,为一个或多个客户端(服务的用户)提供所需的"服务& ...
- 用 Python + turtle 模块绘制五星红旗
用 Python 绘制五星红旗 在这个代码示例中,我将介绍如何使用 Python 的 turtle 模块绘制五星红旗.turtle 模块是一个图形库,可以轻松地在 Python 中实现简单的绘图功能. ...
- Java CAS:AtomicInteger、AtomicReference、AtomicStampedReference
Java CAS:AtomicInteger.AtomicReference.AtomicStampedReference 什么是CAS? 什么是CAS? 即比较并替换,实现并发算法时常用到的一种技术 ...
- XMLConfiguration -- Poco
Library : Util Package: Configuration Header : Poco/Util.XMLConfiguration.h 此配置类从 XML 文档中提取配置属性. 支持类 ...
- 2023-06-16:给你一份工作时间表 hours,上面记录着某一位员工每天的工作小时数。 我们认为当员工一天中的工作小时数大于 8 小时的时候,那么这一天就是「劳累的一天」。 所谓「表现良好的时间
2023-06-16:给你一份工作时间表 hours,上面记录着某一位员工每天的工作小时数. 我们认为当员工一天中的工作小时数大于 8 小时的时候,那么这一天就是「劳累的一天」. 所谓「表现良好的时间 ...
- 20.AQS家族的“外门弟子”:CyclicBarrier
关注王有志,一个分享硬核Java技术的互金摸鱼侠 欢迎你加入Java人的提桶跑路群:共同富裕的Java人 今天我们来学习AQS家族的"外门弟子":CyclicBarrier. 为什 ...