1.pandas打开和读取文件
最近在公司在弄数据分析相关的项目,数据分析就免不了要先对数据进行处理,也就自然避不开关于excel文档的初始化操作了。
一段时间之后,发现pandas更加符合我的项目要求,所以,将一些常规操作记录下来,便于以后查阅。
那在开始下面的操作之前,下载pandas模块是很有必要的
文件打开
首先在刚开始的时候需要导入模块pandas
import pandas as pd
pandas的打开文件一共有三种方法,分别对应三种文件,即:
| 数据类型 | 说明 | Pandas读取方式 |
|---|---|---|
| csv,tsv,txt | 用逗号分割,tab分割的纯文本文件 | pd.read_csv |
| excel | 微软xls或者xlsx文件 | pd.read_excel |
| mysql | 关系型数据库表 | pd.read_sql |
我现在的工作需求中,现阶段最常用的是.xlsx的文件读取
.xlsx文件打开
df = pd.read_excel('1.xlsx') # 文件名或文件路径
print(df)
id enterprise
0 18950 中国农业大学资源与环境学院
1 18949 山东恒丰农业科技有限公司
2 18948 石家庄市民丰种子有限公司、北京中农臻中农业科技发展有限公司
3 18947 九原区种子有限责任公司
4 18946 中国农业大学和武汉隆福康农业发展有限公司
... ... ...
6215 12735 浙江省农业科学院与核技术利用研究所、湖州科奥种业有限公司
6216 12734 浙江省农科院作核所、杭州市种子技术推广站
6217 12733 浙江省农业科学院作核所、湖州市种子公司
6218 12732 浙江省农科院作核所、杭州市种子公司
6219 12731 浙江省农业科学院作物与核技术利用研究所、宁波市农业科学研究院生物技术研究所、浙江之豇种业有限...
[6220 rows x 2 columns]
这样就读取了.xlsx类型的文件
文件读取
.shape
有些时候我只是想看看这个表的尺寸大约是多大的,就可以用这个方法
df.shape
(6220, 2)
该方法会返回这个表的(行数,列数)
.columns
有些时候我想看看这个表的标题,就是第一行的信息
df.columns
Index(['id', 'enterprise'], dtype='object')
该方法会返回一个列表形式的数据
.head()
当然,有些时候也不需要那么多的数据读取,可能有些时候只想读取前几行
该方法会默认的读取数据的前5行数据
def head(self: FrameOrSeries, n: int = 5) -> FrameOrSeries:
df.head()
id enterprise
0 18950 中国农业大学资源与环境学院
1 18949 山东恒丰农业科技有限公司
2 18948 石家庄市民丰种子有限公司、北京中农臻中农业科技发展有限公司
3 18947 九原区种子有限责任公司
4 18946 中国农业大学和武汉隆福康农业发展有限公司
当然也可以修改读取的行数
df.head(10)
.index
读取数据的时候,也许发现了,在最左侧有一列数据,他本不是在数据当中的数据,这一列就是数据的索引,就像数据库当中的id一样
那可以通过这个方法来查看索引列
df.index
RangeIndex(start=0, stop=6220, step=1)
1.pandas打开和读取文件的更多相关文章
- 分享:Perl打开与读取文件的方法
在Perl中可以用open或者sysopen函数来打开文件进行操作,这两个函数都需要通过一个文件句柄(即文件指针)来对文件进行读写定位等操作. Perl打开与读取文件的方法,供大家学习参考.本文转自: ...
- pandas模块之读取文件
首先我们来看一个文件 1 男 北京 刘一 我笑 #跳过此行,序号1 2 女 上海 刘珊 你笑 3 男 杭州 刘五 他笑 #跳过此行,序号四 4 女 重庆 刘六 不笑了 下面来分析内容,并使用参数 1 ...
- java io流(字符流) 文件打开、读取文件、关闭文件
java io流(字符流) 文件打开 读取文件 关闭文件 //打开文件 //读取文件内容 //关闭文件 import java.io.*; public class Index{ public sta ...
- pandas.read_csv()函数读取文件时,关于“header=None”影响读取列数区间的右闭合总结
对于一个没有字段名标题的数据,如data.csv 1.获取数据内容.pandas.read_csv("data.csv")默认情况下,会把数据内容的第一行默认为字段名标题. imp ...
- Groovy读取文件信息
1. eachLine -- 打开和读取文件的每一行 new File("foo.txt").eachLine { println it.toUpperCase(); } 2. r ...
- Pandas读取文件
如何使用pandas的read_csv模块以及其他读取文件的模块?? 一起来看一看 Pandas中read_csv和read_table的区别 注:使用pandas读取文件格式为pandas特有的da ...
- python 文件的打开与读取
python 文件的打开与读取 其实网上其他人写的都挺好的,我也是看他们的.办公室用的2.7.笔记本用的3.6.发现没有file 类,尴尬了 with open(r'C:\Users\HBX\Docu ...
- Python文件操作:文件的打开关闭读取写入
Python文件操作:文件的打开关闭读取写入 一.文件的打开关闭 Python能以文本和二进制两种方式处理文件,本文主要讨论在Python3中文本文件的操作. 文件操作都分为以下几个步骤: 1.打开文 ...
- python 读取文件夹中所有同类型的文件 并用pandas合并
import globimport osimport pandas as pd read_path = 'D:/Data' # 要读取的文件夹的地址read_excel = glob.glob(os. ...
随机推荐
- shell把字符串中的字母去掉,只保留数字
1 编辑测试文件 [root@hz-kvm cephdisk3]# cat > 1.txt <<EOF> 120Tib> EOF 2 显示文件[root@hz-kvm c ...
- SerializableClob转String
ORACLE数据库读取CLOB字段,JAVA中获取到类型为SerializableClob,如何转换成String类型那? 以下是代码示例: SerializableClob sc = ...
- 网络基础和 TCP、IP 协议
1.网络基本概念 1.1 什么是网络:一些网络设备按照一定的通讯规则(网络协议)进行通讯的系统. 1.2 VPN(虚拟私有网络)加密,相当于专线,从分支机构到总部. 1.3 资源共享的功能和特点: 数 ...
- 查看笔记本SN序列号
https://www.pstips.net/getting-computer-serial-number.html $ComputerName = $env:COMPUTERNAME $serial ...
- 多核CPU硬件架构介绍
转自:http://book.51cto.com/art/201004/197196.htm SISD.MIMD.SIMD.MISD计算机的体系结构 1. 计算平台介绍 Flynn于1972年提出了计 ...
- CSS五种方式实现 Footer 置底
页脚置底(Sticky footer)就是让网页的footer部分始终在浏览器窗口的底部.当网页内容足够长以至超出浏览器可视高度时,页脚会随着内容被推到网页底部:但如果网页内容不够长,置底的页脚就会保 ...
- Activity启动流程分析
我们来看一下 startActivity 过程的具体流程.在手机桌面应用中点击某一个 icon 之后,实际上最终就是通过 startActivity 去打开某一个 Activity 页面.我们知道 A ...
- 用Kubernetes部署Springboot或Nginx,也就一个文件的事
1 前言 经过<Maven一键部署Springboot到Docker仓库,为自动化做准备>,Springboot的Docker镜像已经准备好,也能在Docker上成功运行了,是时候放上Ku ...
- Prometheus + Grafana 监控系统搭
本文主要介绍基于Prometheus + Grafana 监控Linux服务器. 一.Prometheus 概述(略) 与其他监控系统对比 1 Prometheus vs. Zabbix Zabbix ...
- 数据可视化之powerBI基础(四)深入了解PowerBI的工具提示功能
https://zhuanlan.zhihu.com/p/36804592 在PowerBI上个月的更新中,增加了工具提示功能,这项功能允许您将自己的可视化作品放置到工具提示中,通过鼠标悬停的方式来展 ...