Pandas操作数据库及保存csv

数据的保存

import pandas as pd

import numpy as np

from pandas import Series

col_db = [['one',1,2,3,4,np.nan],['two',5,6,8,'world',np.nan],['three',9,10,11,12,'foo']]

data = pd.DataFrame(col_db,columns = ['somthing','a','b','c','d','message'])

data

    somthing	a	b	c	d	message

0	one	1	2	3	4	NaN

1	two	5	6	8	world	NaN

2	three	9	10	11	12	foo

# 利用DataFrame的to_csv方法,csv默认为逗号分隔

data.to_csv('save.csv')

# 指定分隔符

data.to_csv('save_.csv',sep='|')

# 缺失值在输出结果中会被表示为空字符串，你可以指定

data.to_csv('save_1.csv',na_rep='NULL')

# 禁用行和列的标签，只保留数据

data.to_csv('save_2.csv',header=False,index=False)

# 输出指定的列，并以指定的顺序排列

data.to_csv('save_2.csv',index=False,columns=['a','b','c'])

# Series也有一个to_csv方法,from_csv可以直接读取csv

Series.from_csv('save_2.csv')

a     b

1     2

5     6

9    10

dtype: object

手工处理分隔符格式

大部分的表格型数据都能用pd.read_table进行加载，但是由于含有畸形行的文件而使read_table出毛病的情况并不少见

例如如下的格式文件：

a,	b,	c	d
1,	2,	3
1,	2,	3,	4

import csv

# 直接使用pd.read_csv会报错，这里需要引入csv模块，进行处理

f = open('save_2.csv')

# 将已打开的文件型对象传给csv.reader

reader = csv.reader(f)

for line in reader:

    print(line,type(line))

['a', 'b', 'c'] <class 'list'>

['1', '2', '3'] <class 'list'>

['5', '6', '8', '10'] <class 'list'>

# 整理这个reader

lines = list(csv.reader(open('save_2.csv')))

lines

[['a', 'b', 'c'], ['1', '2', '3'], ['5', '6', '8', '10']]

header, values = lines[0], lines[1:]

# 压缩为元组,再把值恢复矩阵

p = zip(header, zip(*values))

for i in p:

    print(i)

('a', ('1', '5'))

('b', ('2', '6'))

('c', ('3', '8'))

# 字典推导式

{h:v for h,v in zip(header, zip(*values))}

{'a': ('1', '5'), 'b': ('2', '6'), 'c': ('3', '8')}

# 手工输出分隔符文件，可以使用csv.writer

# w模式会覆盖并重新生成

with open('save_2.csv','w') as f:

    writer = csv.writer(f)

    writer.writerow(('new_1','new_2'))

JSON数据

如何将JSON对象转为DataFrame或其他便于分析的数据结构



import json

obj = '''

{

"name":"wes",

"places_lived":["United Statues","Spain","Germany"],

"pet": null,

"siblings":[{"name":"Scott","age":25,"pet":"Zuko"},

    {"name":"Katie","age":33,"pet":"Cisco"}]

}

'''

# 选取一部分符合dataFrame格式的

result = json.loads(obj)

pd.DataFrame(result['siblings'])

    age	name	pet

0	25	Scott	Zuko

1	33	Katie	Cisco

使用数据库

# 导入内置的SQLite数据库

import sqlite3

query = '''

CREATE TABLE test

(

a VARCHAR(20),

b VARCHAR(20),

c REAL,

d INT

);

'''

# 直接在内存中创建

con = sqlite3.connect(':memory:')

con.execute(query)

con.commit()

# 插入几行数据

data = [('Atlanta','Georgia',1.25,6),

        ('Tallahassee','Florida',2.6,3),

        ('Sacramento','California',1.7,5)

       ]

stmt = 'INSERT INTO test VALUES(?,?,?,?)'

con.executemany(stmt,data)

con.commit()

# 从表中选取数据

cursor = con.execute('select * from test')

rows = cursor.fetchall()

rows

[('Atlanta', 'Georgia', 1.25, 6),

 ('Tallahassee', 'Florida', 2.6, 3),

 ('Sacramento', 'California', 1.7, 5)]

 #取出列表名

cursor.description

(('a', None, None, None, None, None, None),

 ('b', None, None, None, None, None, None),

 ('c', None, None, None, None, None, None),

 ('d', None, None, None, None, None, None))

 # zip(*)返回矩阵，与zip作用相反

k = zip(*cursor.description)

# for i in k:

#     print(i)

# 直接使用k[0]会报错，zip对象不支持'zip' object is not subscriptable，需要借助list包装

list(k)[0]

('a', 'b', 'c', 'd')

pd.DataFrame(rows,columns=list(zip(*cursor.description))[0])

    a	b	c	d

0	Atlanta	Georgia	1.25	6

1	Tallahassee	Florida	2.60	3

2	Sacramento	California	1.70	5

pandas有一个可以简化上面过程的read_sql函数，只需要传入select语句链接对象即可

import pandas.io.sql as sql

sql.read_sql('select * from test',con)

    a	b	c	d

0	Atlanta	Georgia	1.25	6

1	Tallahassee	Florida	2.60	3

2	Sacramento	California	1.70	5

# pandas链接mysql同理

import pymysql

conn = pymysql.connect(host='127.0.0.1',port=3306,user='root',passwd='123456',db='taobao',charset='utf8')

sql.read_sql('select * from tblive2',conn)

存取MongoDB中的数据

import pymongo

# 创建链接对象

con2 = pymongo.MongoClient('localhost',port=27017)

# 链接数据库

db = con2.wechat_spider

# 使用posts集合(这是我电脑里的)

find_list = db.posts.find()

# 这里由于不能直接传入迭代对象，需要借助list

pd.DataFrame(list(find_list))

Pandas操作数据库及保存csv的更多相关文章

Python之Pandas操作csv文件dataframe
# -*- coding: utf-8 -*- # author:baoshan import pandas as pd def main(): aqi_data = pd.read_csv('chi ...
Python操作数据库实战
pymysql # -*- coding: utf-8 -*- """ @Datetime: 2018/12/26 @Author: Zhang Yafei " ...
pandas操作，感觉不错，复制过来的
整理pandas操作本文原创,转载请标识出处: http://www.cnblogs.com/xiaoxuebiye/p/7223774.html 导入数据: pd.read_csv(filenam ...
如何使用python records 库优雅的操作数据库
今天要介绍的这个python第三方库非常厉害,完美操作各种数据库.名字叫 records, 在网上很少有这个库的相关资料,但是在开源社区可是很火热的哦.如果这还不能打消你的顾虑,再告诉你一件事:如果你 ...
MySQL学习02（操作数据库）
操作数据库结构化查询语句分类名称解释命令 DDL(数据库定义语言) 定义和管理数据对象,例如数据库和数据表 create.drop.alter DML(数据操作语言) 用于操作数据库对象中所包 ...
pymysql 操作数据库
一.简介 pymsql是Python中操作MySQL的模块,其使用方法和MySQLdb几乎相同,但目前pymysql支持python3.x而后者不支持3.x版本其执行语句与sql源码相似二.使用 ...
django 操作数据库--orm(object relation mapping)---models
思想 django为使用一种新的方式,即:关系对象映射(Object Relational Mapping,简称ORM). PHP:activerecord Java:Hibernate C#:Ent ...
jdbc操作数据库
JDBC全称为:Java DataBase Connectivity(java数据库连接). SUN公司为了简化.统一对数据库的操作,定义了一套Java操作数据库的规范,称之为JDBC. 学习JD ...
Android 学习笔记之如何使用SQLite数据库来保存数据...
PS:最近一阵子都在为考试复习...坑爹的计算机网络,复习了3天,最后该不会的还是不会...明天还考英语...真蛋疼... 学习内容: 1.使用SQLite数据库来保存数据... SQLite: ...

随机推荐

python学习笔记_week10
一.多进程multiprocessing io 操作不占用cpu,计算占cpu(如1+1),上下文切换耗资源(多线程可能不如单线程快),python多线程不适合cup密集操作型的任务,适合io操作密集 ...
myeclipse项目不能打开
重启电脑后, myeclipse项目不能打开了, 之前都是好好的!! 出现: Failed to read the project description file (.project) for ' ...
[C基础修炼] [C课程设计]C语言课程设计之图书管理系统
#include <stdio.h> #include <stdlib.h> #include <string.h> FILE *fp;//定义文件指针fp,指向文 ...
CentOS7 安装 Mongodb 与 NodeJs 主要心得
一.mongodb 1.安装由于使用yum源下载安装总是超时,所以选择了tarball方式安装. 官方安装方法链接,https://docs.mongodb.com/manual/tutorial/ ...
Python中续行符的注意事项
转载自:https://blog.csdn.net/g_66_hero/article/details/78745608
转载：实例详解Django的 select_related 和 prefetch_related 函数对 QuerySet 查询的优化（一）
在数据库有外键的时候,使用 select_related() 和 prefetch_related() 可以很好的减少数据库请求的次数,从而提高性能.本文通过一个简单的例子详解这两个函数的作用.虽然Q ...
白鹭引擎 - 文本类型 ( TextField, )
1, 普通文本 class Main extends egret.DisplayObjectContainer { public constructor() { super(); this.addEv ...
PHP单点登陆
本文主要介绍了利用webservice,session,cookie技术,来进行通用的单点登录系统的分析与设计.具体实现语言为PHP.单点登录,英文名为Single Sign On,简称为 SSO, ...
[bcc32 Error] typeinfo.h(154): E2367 Can't inherit RTTI class from non-RTTI base 'exception'
[bcc32 Error] typeinfo.h(154): E2367 Can't inherit RTTI class from non-RTTI base 'exception' Full p ...
爬虫--requests模块高级(代理和cookie操作)
代理和cookie操作一.基于requests模块的cookie操作引言:有些时候,我们在使用爬虫程序去爬取一些用户相关信息的数据(爬取张三“人人网”个人主页数据)时,如果使用之前requests ...

Pandas操作数据库及保存csv

数据的保存

手工处理分隔符格式

JSON数据

使用数据库

pandas有一个可以简化上面过程的read_sql函数，只需要传入select语句链接对象即可

存取MongoDB中的数据

Pandas操作数据库及保存csv的更多相关文章

随机推荐

热门专题