Pandas学习(一)——数据的导入
欢迎加入python学习交流群 667279387
学习笔记汇总
Pandas学习(一)–数据的导入
pandas学习(二)–双色球数据分析
pandas学习(三)–NAB球员薪资分析
pandas学习(四)–数据的归一化
pandas学习(五)–pandas学习视频
本文所有的环境:python :3.5 pandas:0.19.2 numpy:1.12.1,sqlalchemy 1.1.9 如果你的环境和这样不一样可能会有 细微差别。
pandas支持的数据格式
pandas作为一个强大的数据处理包,支持比较多的数据处理格式,下面是一些常见格式数据的读取方法,更多请参考:链接
| 函数 | 描述 |
|---|---|
| read_table(filepath_or_buffer[, sep, …]) | 读取普通分隔的数据 |
| read_csv(filepath_or_buffer[, sep, …]) | 读取csv格式的数据 |
| read_excel(io[, sheetname, header, …]) | 读取excel格式的数据 |
| read_json([path_or_buf, orient, typ, dtype, …]) | 读取json格式的数据 |
| read_html(io[, match, flavor, header, …]) | 读取html格式的 数据 |
| read_sql(sql, con[, index_col, …]) | 读取数据库中的数据 |
前面两个一般用的比较多。
常见格式读取示例
read_table举例
example.csv是一个用逗号隔开的数据格式。所以可以用read_table读取,需要指定间隔符为逗号。
import pandas as pd
data_csv = pd.read_table('example.csv',sep=',')
print("data_csv:")
print(data_csv)
a b c d message
0 1 2 3 4 hello
1 5 6 7 8 world
2 9 10 11 12 foo
但是有时隔符是不定个数的空格,这时可以用正则表达式。
import pandas as pd
data_txt = pd.read_table('example.txt',sep='\s+')
print("data_txt:")
print(data_txt)
此处由于数据中列名比数据列少1,read_table会推断第一行为列名。
A B C
aaa -0.264438 -1.026059 -0.619500
bbb 0.927272 0.302904 -0.032399
ccc -0.264273 -0.386314 -0.217601
ddd -0.871858 -0.348382 1.100491
read_csv举例
import pandas as pd
data_csv2 = pd.read_csv('example.csv')
print("data_csv2:")
print(data_csv2)
a b c d message
0 1 2 3 4 hello
1 5 6 7 8 world
2 9 10 11 12 foo
read_exel示例
import pandas as pd
data_xlsx = pd.read_excel('example.xlsx')
print("data_xlsx:")
print(data_xlsx)
默认是读取第一个 sheet表格的,如果要制定读取sheet表格则需要指定 sheetname参数
data_xlsx2 = pd.read_excel('example.xlsx',sheetname="Sheet2")
print("data_xlsx2:")
print(data_xlsx2)
a b c d message
0 11 12 13 4 hello
1 15 16 17 18 world
2 19 20 21 12 foo
更多参数可以参考官方手册
read_json示例
data_json = pd.read_json('example.json')
print(data_json)
直接打开json文件的内容如下:
[{"a": 1, "b": 2, "c": 3},
{"a": 4, "b": 5, "c": 6},
{"a": 7, "b": 8, "c": 9}]
读取后 输出的格式如下
a b c
0 1 2 3
1 4 5 6
2 7 8 9
read_sql、read_sql_table和read_sql_query示例
import pymysql
import pandas as pd
con = pymysql.connect(host="127.0.0.1",user="root",password="password",db="world")
data_sql=pd.read_sql("select * from city limit 10",con)
print(data_sql)
数据库用的是mysql,数据是里面自带的测试数据。
ID Name CountryCode District Population
0 1 Kabul AFG Kabol 1780000
1 2 Qandahar AFG Qandahar 237500
2 3 Herat AFG Herat 186800
3 4 Mazar-e-Sharif AFG Balkh 127800
4 5 Amsterdam NLD Noord-Holland 731200
在使用read_sql_table和read_sql_query时需要使用sqlalchemy对数据库进行连接。这里仍然使用mysql为例,其他数据库的链接方式有细微差别。
import pandas as pd
import pymysql
from sqlalchemy import create_engine
con = create_engine('mysql+pymysql://root:password@localhost:3306/world')
data_sql2 = pd.read_sql_table("city", con)
print(data_sql2)
data_sql3 = pd.read_sql_query("select * from city limit 5", con)
print(data_sql3)
read_html示例
能够读取带有table标签的网页中的表格。
import pandas as pd
data = pd.DataFrame()
url_list = ['http://www.espn.com/nba/salaries/_/seasontype/4']
for i in range(2, 13):
url = 'http://www.espn.com/nba/salaries/_/page/%s/seasontype/4' % i
url_list.append(url)
for url in url_list:
data = data.append(pd.read_html(url), ignore_index=True)
data = data[[x.startswith('$') for x in data[3]]]
data.to_csv('NAB_salaries.csv',header=['RK','NAME','TEAM','SALARY'], index=False)
获取的数据详情请见pandas学习(三)–NAB球员薪资分析
本文示例代码和文件下载地址:链接
提取密码:l5wo
欢迎python爱好者加入:学习交流群 667279387
Pandas学习(一)——数据的导入的更多相关文章
- Pandas学习1 --- 数据载入
import numpy as np import pandas as pd 数据加载 首先,我们需要将收集的数据加载到内存中,才能进行进一步的操作.pandas提供了非常多的读取数据的函数,分别应用 ...
- pandas学习(常用数学统计方法总结、读取或保存数据、缺省值和异常值处理)
pandas学习(常用数学统计方法总结.读取或保存数据.缺省值和异常值处理) 目录 常用数学统计方法总结 读取或保存数据 缺省值和异常值处理 常用数学统计方法总结 count 计算非NA值的数量 de ...
- pandas学习(四)--数据的归一化
欢迎加入python学习交流群 667279387 Pandas学习(一)–数据的导入 pandas学习(二)–双色球数据分析 pandas学习(三)–NAB球员薪资分析 pandas学习(四)–数据 ...
- pandas学习(数据分组与分组运算、离散化处理、数据合并)
pandas学习(数据分组与分组运算.离散化处理.数据合并) 目录 数据分组与分组运算 离散化处理 数据合并 数据分组与分组运算 GroupBy技术:实现数据的分组,和分组运算,作用类似于数据透视表 ...
- pandas学习(创建多层索引、数据重塑与轴向旋转)
pandas学习(创建多层索引.数据重塑与轴向旋转) 目录 创建多层索引 数据重塑与轴向旋转 创建多层索引 隐式构造 Series 最常见的方法是给DataFrame构造函数的index参数传递两个或 ...
- pandas学习(创建数据,基本操作)
pandas学习(一) Pandas基本数据结构 Series类型数据 Dataframe类型 基本操作 Pandas基本数据结构 两种常用数据结构: Series 一维数组,与Numpy中的一维ar ...
- GIS案例学习笔记-CAD数据分层导入现有模板实例教程
GIS案例学习笔记-CAD数据分层导入现有模板实例教程 联系方式:谢老师,135-4855-4328,xiexiaokui#qq.com 1. 原始数据: CAD数据 目标模板 2. 任务:分5个图层 ...
- 【转】Pandas学习笔记(二)选择数据
Pandas学习笔记系列: Pandas学习笔记(一)基本介绍 Pandas学习笔记(二)选择数据 Pandas学习笔记(三)修改&添加值 Pandas学习笔记(四)处理丢失值 Pandas学 ...
- Solr7.x学习(4)-导入数据
导入配置可参考官网:http://lucene.apache.org/solr/guide,http://lucene.apache.org/solr/guide/7_7/ 1.数据准备(MySQL8 ...
随机推荐
- Java程序线上故障排查
目录 一.Linux 内存和cpu 网络 磁盘 /proc文件系统 二.JVM Java堆和垃圾收集器 gc日志分析 JVMTI介绍 Attach机制 java自带工具 三.三方工具 jprofile ...
- 连接xshell 时 连不上的问题
最近这一周由于自己的xshell突然连接不到虚拟机,在网上找了很多种方法也没能解决,以至于自己在学习很多知识的时候都没能很好的去验证,去尝试.最后在求助大佬的时候终于将xshell重新连接到了虚拟 ...
- [ISE调试] 在ISE调试过程中,遇到过的warning以及消除办法
1.在generate的过程中,在Map环节遇到了下面这个warning 意思:告诉你是黑盒子,而且他本来在设计里面就是黑盒子. 解决办法:点击图中的,会弹出一个代码文件,是声明这个IP核的文件,代码 ...
- JenKins结合cppcheck及cpplint进行代码风格及静态代码检测
JenKins结合cppcheck及cpplint 最近公司需要在Jenkins上安装cppcheck及cpplint进行代码风格及静态代码检测,这里记录下过程. 前提条件 安装了Jenkins 步骤 ...
- nyoj 844-A+B Problem(V) (string[::-1] 字符串反转)
844-A+B Problem(V) 内存限制:64MB 时间限制:1000ms 特判: No 通过数:14 提交数:17 难度:1 题目描述: 做了A+B Problem之后,Yougth感觉太简单 ...
- 《JAVA 程序员面试宝典(第四版)》读书笔记之前言
工作五年了一直在小的软件公司混,总感觉自己的专业知识没有太大的提升.当然了中间也换了一两家公司,面试的公司就很多家,总感觉正规的软件公司(无论大小)对于基础知识的考核都非常重视,而不管你说你之前服务过 ...
- python:类3——魔法方法
一.魔法方法特点 被双上下滑线包围 魔法方法是面向对象的Python的一切,如果你不知道魔法方法,说明你还没能意识到面向对象的Python的强大(不是说Python脚本) 通过对制定方法的重写,完全可 ...
- C语言程序设计100例之(17):百灯判亮
例17 百灯判亮 问题描述 有序号为1.2.3.….99.100的100盏灯从左至右排成一横行,且每盏灯各由一个拉线开关控制着,最初它们全呈关闭状态.有100个小朋友,第1位走过来把凡是序号为1的 ...
- Win10专业版和企业版的区别
微软最新的Windows 10版本诸多,包括精简版(S).家庭版(Home).专业版(Pro).企业版(Enterprise),而论功能体验,Win10专业版和企业版无疑是最完善的.那么,Win10专 ...
- Error: invalid "instanceof" keyword value Promise的解决方法
执行npm run dev 时,发现错误 Error: invalid "instanceof" keyword value Promise 经过一番查找,发现原因是webpack ...