1、CSV格式数据:

1.1普通读取和保存

可以以纯文本形式打开，可以保存多条记录，每条记录的数据之间默认用逗号来分隔，csv就是逗号分割值的英文缩写。

保存为csv文件：

import pandas as pd

data=pd.DataFrame(数据源）

data.to_csv('文件名.csv',index = False,encoding = 'utf-8,mode='a'') index= False的意思是不把index保存进文件中，mode='a'是表示以追加的方式加入文件中

读取csv文件： read_csv

参数详解：https://www.jianshu.com/p/366aa5daaba9【比如一些日期参数，大文件参数】

　　参数：head 、names ：# 这里的header=None是表示第一行的数据不取为列名，自己另外取名为names=['a','b','c']。如果不加header=None则表示第一行作为列名。

dataframe=pd.read_csv('地址加文件名.csv',header=None,names=['a','b','c'])

print（dataframe）

　　参数：encoding ：# 遇到 ‘utf-8’ codec can’t decode byte 0xba in position 0: invalid start byte 但是又必须要中文解码，解决办法是设置read_csv中encoding = ‘GB2312’

　　注意：读取csv文件还有别的方法：read_table(' 文件位置 ', names=' dataframe的列名 '，encoding='utf-8' ，sep='|' )

　　参数：chunksize——分块读取大文件：https://blog.csdn.net/zm714981790/article/details/51375475 。read_csv中有个参数chunksize，通过指定一个chunksize分块大小来读取文件，返回的是一个可迭代的对象TextFileReader。

reader = pd.read_table('tmp.sv', sep='|', chunksize=4)

for chunk in reader:

     print(chunk)

　　参数：iterator ：指定iterator=True 也可以返回一个可迭代对象TextFileReader ：

reader = pd.read_table('tmp.sv', sep='|', iterator=True)

reader.get_chunk(5)

# open读取代码：

with open(filepath,'r') as f:

　　for line in f:

　　　　print(line)

#pandas读取代码：

chunk_data = pd.read_csv('./data/train_data/showctr.txt', sep = '\t', quoting = csv.QUOTE_NONE, header = None, names=['query','show', 'click','rate'],iterator = True)

largeshow = pd.DataFrame()

smallshow = pd.DataFrame()

count = 0

loop = True

while loop:

    try:

        chunksize = 100000

        show_data = chunk_data.get_chunk(chunksize)

        show_data = show_data.dropna(axis = 0,subset=['query'])

        largeshow = pd.concat([largeshow,show_data[show_data['show'] >= 1000]],axis = 0)

        smallshow = pd.concat([smallshow,show_data[show_data['show'] < 1000]],axis = 0)

        count += 1

    except StopIteration:

        loop = False

print("shape of show_rawdata , large_show and small_show ", count * chunksize, largeshow.shape ,smallshow.shape)

1.2、csv文件读取：

以下方式读出来的不是dataframe，是列表形式

from numpy import loadtxt

dataset=loadtxt('***.csv',delimiter=",") 【逗号为分隔符】

1.3、csv文件追加

f=open(path,'a+',newline='')#newline设定可以让写出的csv中不包含空行

writer=csv.writer(f)

for row in range(b.shape[0]):

    writer.writerow(b.iloc[row])#按行将数据写入文件中

f.close()

df.to_csv('my_csv.csv', mode='a', header=False)

2、Excel文件的读取和保存

保存：

dataframe=pd.DataFrame(数据源)

dataframe.to_excel('文件名.xlsx',sheet_name='表名')

读取：

dataframe=pd.read_excel('文件名.xlsx')

print(dataframe)

3、sql文件读取：read_sql

读取sql文件之前需要安装好mysql以及python连接mysql的模块PyMySQL，直接命令pip install pymysql。

在数据库中新建一个数据库test，然后新建一个表students，插入数据。

在读取mysql数据之前要将mysql的服务启动：net start mysql。

import pymysql

import pandas as pd

#连接数据库为test

conn=pymysql.connect(host="127.0.0.1",user="root",passwd="",db="test")

#查询的表为students

sql="select * from students"

data=pd.read_sql(sql,conn)

print(data)

结果如下：输出结果为dataframe

4、读取html文件：read_html

这个函数主要读取HTML中table的数据。

本地的HTML文件代码如下：

<html>

dnfnjefwnkndsn

<table>

<tr><td>7</td><td>9</td></tr>

<tr><td>5</td><td>8</td></tr>

<tr><td>2</td><td>6</td></tr>

</table>

</html>

读取代码如下：

import pandas as pd

htl=pd.read_html('E:\wenjian\data\test.html')

print(htl)

结果如下：

读取网络上的HTML的数据也一样。只要将本地地址换成网络地址就行。

5、读取文本数据（txt文件、dat文件、out文件）：read_table

　　dataframe写入文本数据代码：

def text_save(filename, data):#filename为写入CSV文件的路径，data为要写入数据列表.

    file = open(filename,'a')

    for i in range(len(data)):

        s = str(data[i]).replace('[','').replace(']','')#去除[],这两行按数据不同，可以选择

        s = s.replace("'",'').replace(',','') +'\n'   #去除单引号，逗号，每行末尾追加换行符

        file.write(s)

    file.close()

    print("保存文件成功")

6、小例子实现：

import pandas as pd 

df=pd.read_csv('test_csv.csv')

df['Sum_score']=df['Python']+df['Math']

print(df)

df1=df.rename(columns={'Sum_score':'sum'})

print(df1)

df1.to_excel('test_csv.xlsx',sheet_name='scores')

7、json文件读取：

json文件中的数据形式和字典很像，比如：

d1 = {'1':2, '2':3, '3':4}
d2 = {'1':3, '2':4, '3':5}

d1为一个json对象，d2也是一个json对象。如果一个data.json文件中同时存储着d1和d2，则在读取json文件时不能同时解析两个对象，因为这两个对象中的key是一样的

#调用read函数全部读取json文件中的数据会报错，因为不能同时读取相同的json对象。需要用readlines()函数，一行一行的读取。

import json

with open('data.json','r') as f:

    data=f.read()

    data=json.loads(data)

    print(data)

#调用readlines()函数读取，并加载进一个列表当中

data_list=[]

with open(r'data.json','r') as f:

    for line in f.readlines():

        dic = json.loads(line)

        data_list.append(dic)

Python数据分析1------数据存取的更多相关文章

python数据分析笔记——数据加载与整理]
[ python数据分析笔记——数据加载与整理] https://mp.weixin.qq.com/s?__biz=MjM5MDM3Nzg0NA==&mid=2651588899&id ...
Python数据分析_Pandas01_数据框的创建和选取
主要内容: 创建数据表查看数据表数据表索引.选取部分数据通过标签选取.loc 多重索引选取位置选取.iloc 布尔索引 Object Creation 新建数据用list建series序列 ...
Python数据分析--------numpy数据打乱
一.shuffle函数: import numpy.random def shuffleData(data): np.random.shufflr(data) cols=data.shape[1] X ...
Python数据分析与展示(1)-数据分析之表示(2)-NumPy数据存取与函数
NumPy数据存取与函数数据的CSV文件存取 CSV文件 CSV(Comma-Separated Value,逗号分隔值) CSV是一种常见的文件格式,用来存储批量数据. 将数据写入CSV文件 np ...
Python 数据分析（二本实验将学习利用 Python 数据聚合与分组运算，时间序列，金融与经济数据应用等相关知识
Python 数据分析(二) 本实验将学习利用 Python 数据聚合与分组运算,时间序列,金融与经济数据应用等相关知识第1节 groupby 技术第2节数据聚合第3节分组级运算和转换第4 ...
python数据分析之pandas数据选取：df[] df.loc[] df.iloc[] df.ix[] df.at[] df.iat[]
1 引言 Pandas是作为Python数据分析著名的工具包,提供了多种数据选取的方法,方便实用.本文主要介绍Pandas的几种数据选取的方法. Pandas中,数据主要保存为Dataframe和Se ...
【python数据分析实战】电影票房数据分析(二)数据可视化
目录图1 每年的月票房走势图图2 年票房总值.上映影片总数及观影人次图3 单片总票房及日均票房图4 单片票房及上映月份关系图在上一部分<[python数据分析实战]电影票房数据分析(一 ...
python数据分析数据标准化及离散化详解
python数据分析数据标准化及离散化详解本文为大家分享了python数据分析数据标准化及离散化的具体内容,供大家参考,具体内容如下标准化 1.离差标准化是对原始数据的线性变换,使结果映射到[0 ...
python数据分析-数据导入
1.导入CSV格式数据 import pandas data = pandas.read_csv("C:\\Users\\zhaosai\\Desktop\\进击的DBA\\谁说菜鸟不会数据 ...

随机推荐

cannot find -lGL
解决方法: 以下操作都在root权限下进行! 1.按照提示安装对应的库文件,fedora安装库件的格式:yum install libxxx(你要装的库),如果已经安装GL库,会显示已经安装 Ps:如 ...
5.2 calendar--通用日期的相关函数（4）
calendar类提供以下的函数来推断日历相关的内容: calendar.setfirstweekday(weekday) 设置一周里那一天作为第一天.0是表示星期一,6是表示星期天. 样例: #py ...
LDA 两种含义
关于LDA有两种含义,一种是线性判别分析(Linear Discriminant Analysis),一种是概率主题模型:隐含狄利克雷分布(Latent Dirichlet Allocation,简称 ...
介绍C++ STL常用模板使用方法的相关资料
1.vector的几种初始化及赋值方式
pl/sql developer 自动输入替换光标自动定位
pl/sql developer 自动输入替换工具->首选项->用户界面->编辑器->自动替换,自己定义一些规则,然后输入key,点击tab或者空格,就可以进行替换了: SL ...
基于Dynamic Proxy技术的方法AOP拦截器开发
在面向对象编程中,会用到大量的类,并且会多次调用类中的方法.有时可能需要对这些方法的调用进行一些控制.如在权限管理中,一些用户没有执行某些方法的权限.又如在日志系统中,在某个方法执行完后,将其执行的结 ...
C# 尝试读取或写入受保护的内存。这通常指示其他内存已损坏。
在C#中调用别人的DLL的时候有时候出现尝试读取或写入受保护的内存 .这通常指示其他内存已损坏. 在传值的时候还是用指针,再在C#中做转换就好了. 解决办法: [DllImport("AP ...
luogu2518 [HAOI2010] 计数
题目大意给出一个数字$n$,求满足下列条件的数$x$的个数: $x<n$ 对于来自于$x$十进制各个数位上的非零数字,它们的种类与个数都与$n$的相同. 思路入手点设$n$有$t$位数字, ...
Oracle 10G 中的"回收站"
在Oracle 10g数据库中,引入了一个回收站(Recycle Bin)的数据库对象. 回收站,从原理上来说就是一个数据字典表,放置用户Drop掉的数据库对象信息.用户进行Drop操作的对象并没有被 ...
subprocess学习
转自http://blog.csdn.net/imzoer/article/details/8678029 subprocess的目的就是启动一个新的进程并且与之通信. subprocess模块中只定 ...

Python数据分析1------数据存取