数据处理时,常用数据存储形式主要有:CSV、JSON、XML、EXCEL、数据库存储。

一、CSV文件

  • csv文件简介

CSV是一种通用的、相对简单的文件格式,被用户、商业和科学广泛应用。最广泛的应用是在程序之间转移表格数据,而这些程序本身是在不兼容的格式上进行操作的(往往是私有的和/或无规范的格式)。因为大量程序都支持某种CSV变体,至少是作为一种可选择的输入/输出格式。

CSV文件由任意数目的记录组成,记录间以某种换行符分隔;每条记录由字段组成,字段间的分隔符是其它字符或字符串,最常见的是逗号或者制表符。

  • csv文件样式

John,Doe,120 jefferson st.,Riverside, NJ, 08075
Jack,McGinnis,220 hobo Av.,Phila, PA,09119

  • python处理
import csv
if __name__=='__main__':
csvfile=open('E:\\pythonwork\\data\\iris.csv','r')
#reader = csv.reader(csvfile)
reader = csv.DictReader(csvfile)
for row in reader:
print(row)

二、JSON文件

  • json文件简介

JSON(JavaScript Object Notation, JS 对象简谱) 是一种轻量级的数据交换格式。它基于 ECMAScript (欧洲计算机协会制定的js规范)的一个子集,采用完全独立于编程语言的文本格式来存储和表示数据。简洁和清晰的层次结构使得 JSON 成为理想的数据交换语言。 易于人阅读和编写,同时也易于机器解析和生成,并有效地提升网络传输效率。

  • json文件样式

{"application_instance_id":102061,"application_node":"10.45.44.44","billing_info":[{"application_batch_nums":1.0,"cdr_nums":2,"charge":46.0,"event_format_id":999,"exec_time_consume":120087,"lan_id":743,"serv_nums":2,"service_id":3,"src_net_data_id":123,"stat_batch_id":102061101001,"stat_cdr_type":10},{"application_batch_nums":0.0,"cdr_nums":2,"charge":0.0,"event_format_id":42,"exec_time_consume":0,"lan_id":743,"serv_nums":0,"service_id":3,"src_net_data_id":123,"stat_batch_id":102061101001,"stat_cdr_type":20},{"application_batch_nums":0.0,"cdr_nums":2,"charge":0.0,"event_format_id":41,"exec_time_consume":0,"lan_id":743,"serv_nums":0,"service_id":3,"src_net_data_id":123,"stat_batch_id":102061101001,"stat_cdr_type":20},{"application_batch_nums":0.0,"cdr_nums":2,"charge":0.0,"event_format_id":34,"exec_time_consume":0,"lan_id":743,"serv_nums":0,"service_id":3,"src_net_data_id":123,"stat_batch_id":102061101001,"stat_cdr_type":20}],"exec_end_time":"20180830174554","exec_start_time":"20180830174554"}

  • python读取json文件
import json
if __name__ == '__main__':
json_data = open('E:\\pythonwork\\data\\test.json', 'r').read()
data = json.loads(json_data)
print((data.values()))
for row in data.values():
print(row)

三 、XML文件

  • xml文件介绍

可扩展标记语言(XML)与Access,Oracle和SQL Server等数据库不同,数据库提供了更强有力的数据存储和分析能力,例如:数据索引、排序、查找、相关一致性等,XML的宗旨传输数据的,而与其同属标准通用标记语言的HTML主要用于显示数据。事实上XML与其他数据表现形式最大的不同是:他极其简单。这是一个看上去有点琐细的优点,但正是这点使XML与众不同。
XML的简单使其易于在任何应用程序中读写数据,这使XML很快成为数据交换的唯一公共语言,虽然不同的应用软件也支持其它的数据交换格式,但不久之后他们都将支持XML,那就意味着程序可以更容易的与Windows、Mac OS, Linux以及其他平台下产生的信息结合,然后可以很容易加载XML数据到程序中并分析他,并以XML格式输出结果。

  • xml文件样式

  •  xml文件处理
    • dom方式处理
#通过dom的方式解析xml
import xml.dom.minidom as xmldom
import os
from getbyxmltree import parse_xml_etree
def get_node(node, nodename):
return node.getElementsByTagName(nodename) if node else '' def get_nodevalue(node,index=0):
return node.childNodes[index].nodeValue if node else '' def get_nodeattr(node,attrname):
return node.getAttribute(attrname) if node else '' def parse_dom_xml(path):
xmlfilepath=os.path.abspath(path)
print(u'文件路径:',xmlfilepath)
# 获得文档对象
domobj = xmldom.parse(xmlfilepath)
elemobj = domobj.documentElement
print(elemobj)
dsn_node = get_node(elemobj ,'DsnInfo')
dsn_list=[]
for node in dsn_node:
node_name=get_node(node,'DsnName')
node_ip1 = get_node(node,'IP1')
node_port1=get_node(node,'Port1')
node_ip2 = get_node(node, 'IP2')
node_port2 = get_node(node, 'Port2')
#获取VALUE
dsn_name = get_nodevalue(node_name[0])
dsn_ip1 = get_nodevalue(node_ip1[0])
dsp_port1 = get_nodevalue(node_port1[0])
dsn_ip2 = get_nodevalue(node_ip2[0])
dsp_port2 = get_nodevalue(node_port2[0])
dsn_info={}
dsn_info['dsn_name'], dsn_info['ip1'], dsn_info['port1'], dsn_info['ip2'], dsn_info['port2'] = (
dsn_name, dsn_ip1, dsp_port1, dsn_ip2, dsp_port2
)
dsn_list.append(dsn_info)
return dsn_list
    • ctree方式
try:
import xml.etree.cElementTree as xmltree
except:
import xml.etree.ElementTree as xmltree
import sys,os def transxml(node):
if node:
for child in node:
if child.tag == 'IP1':
print('child tag:%s,value:%s' % (child.tag,child.text))
transxml(child) def parse_xml_etree(path):
xmlfilepath = os.path.abspath(path)
print(u'文件路径:', xmlfilepath)
tree = xmltree.parse(xmlfilepath)
root = tree.getroot()
print('root=',type(root))
'''
print(u"按照下标访问")
print(tree.getroot()[0][1].tag)
print(tree.getroot()[0][1].text)
'''
print(u"查找标签")
ip_list= root[0].findall('DsnInfo')
print(len(ip_list))
for ip in ip_list:
print(type(ip))
print("tag:%s\ntext:%s\n" % (ip.tag,ip.text))
print(u"迭代")
for node in root.iter('DsnInfo'):
print(node.tag)
print(type(node)) #print(u"遍历")
#transxml(tree.getroot())

 四、预告

下次更新将主要介绍EXCEL方式处理。扫描二维码关注公众号

python数据处理----常用数据文件的处理的更多相关文章

  1. python 数据处理 对csv文件进行数据处理

    数据如下图: 用python对数据进行处理: #读取csv文件内容并进行数据处理 import os import csv import datetime import re from itertoo ...

  2. python——读取MATLAB数据文件 *.mat

    鉴于以后的目标主要是利用现有的Matlab数据(.mat或者.txt),主要考虑python导入Matlab数据的问题.以下代码可以解决python读取.mat文件的问题.主要使用sicpy.io即可 ...

  3. 利用Python读取外部数据文件

      不论是数据分析,数据可视化,还是数据挖掘,一切的一切全都是以数据作为最基础的元素.利用Python进行数据分析,同样最重要的一步就是如何将数据导入到Python中,然后才可以实现后面的数据分析.数 ...

  4. python中常用的文件和目录操作(一)

    常用的文件操作 1. 打开文件 open,它是一个内置函数,可以直接调用 语法:file object = open(file_name, [access_mode]),这里我们会创建一个file对象 ...

  5. Python数据处理常用工具(pandas)

    目录 数据清洗的常用工具--Pandas 数据清洗的常用工具 Pandas常用数据结构series和方法 Pandas常用数据结构dataframe和方法 常用方法 数据清洗的常用工具--Pandas ...

  6. python 数据处理 对txt文件进行数据处理

    数据: 对txt文件进行数据处理: txt_file_path = "basic_info.txt" write_txt_file_path = "basic_info1 ...

  7. python中常用的文件和目录操作(二)

    一. os模块概述 python os模块提供了非常丰富的方法用来处理文件和目录 二. 导入os模块: import os 三. 常用方法 1. os.name 输出字符串表示正在使用的平台,如果是w ...

  8. Python数据处理和数据可视化

    工具1:numpy 下载地址:http://www.lfd.uci.edu/~gohlke/pythonlibs/#numpy 入门文档:https://docs.scipy.org/doc/nump ...

  9. python爬虫常用数据整理函数

    text()                       获取xpath中的值....../h1/text() extract()[0]              Selector的方法用于提取内容为 ...

随机推荐

  1. 学习笔记 : python 文件操作

    1.如果文件路径带有   \ 比如  open('c:\python\test.txt') 会报:SyntaxError: (unicode error) 'unicodeescape' codec ...

  2. vue.config.js常用配置

    使用vue-cli3.0搭建项目比之前更简洁,没有了build和config文件夹. vue-cli3的一些服务配置都迁移到CLI Service里面了,对于一些基础配置和一些扩展配置需要在根目录新建 ...

  3. Kickstart Round H 2019 Problem B. Diagonal Puzzle

    有史以来打得最差的一次kickstart竟然发生在winter camp出结果前的最后一次ks = = 感觉自己的winter camp要凉了 究其原因,无非自己太眼高手低,好好做B, C的小数据,也 ...

  4. 领扣(LeetCode)独特的电子邮箱地址 个人题解

    每封电子邮件都由一个本地名称和一个域名组成,以 @ 符号分隔. 例如,在 alice@leetcode.com中, alice 是本地名称,而 leetcode.com 是域名. 除了小写字母,这些电 ...

  5. 【dp】Arrange the Schedule

    题目链接:http://acm.zju.edu.cn/onlinejudge/showProblem.do?problemCode=3538 题意:如题. 题解: 假如 一组数据 ...(n1)A.. ...

  6. 使用OpenMP加快OpenCV图像处理性能 | speed up opencv image processing with openmp

    本文首发于个人博客https://kezunlin.me/post/7a6ba82e/,欢迎阅读! speed up opencv image processing with openmp Serie ...

  7. css+js相关笔记

    作者:故事我忘了c个人微信公众号:程序猿的月光宝盒 css部分: 1.内联元素垂直居中的设置: (1) 设置父级元素的行高 line-height,和高度 height ​ 原则:line-heigh ...

  8. 探索 IPv6 网络

    目录 0x00 前言 0x01 探索 服务器配置 IPv6 地址 服务器部署网络代理 客户端配置网络代理 测试访问 IPv6 地址 给博客添加 IPv6 地址 0x00 前言 IPv4 地址枯竭的事情 ...

  9. 【Luogu P5490】扫描线

    Luogu P5490 作为一道模板题让我卡了一个月…… 对于线段树+离散化新手而言这实在是太难了…… 有关离散化: 可以查看这一篇文章:https://www.jianshu.com/p/93476 ...

  10. nginx(二):基本应用

    配置文件详解 event段配置 worker_connections #; 每个worker进程所能够响应的最大并发请求数量: nginx最大并发响应数=worker_proceses * worke ...