python数据处理----常用数据文件的处理

数据处理时，常用数据存储形式主要有：CSV、JSON、XML、EXCEL、数据库存储。

一、CSV文件

csv文件简介

CSV是一种通用的、相对简单的文件格式，被用户、商业和科学广泛应用。最广泛的应用是在程序之间转移表格数据，而这些程序本身是在不兼容的格式上进行操作的（往往是私有的和/或无规范的格式）。因为大量程序都支持某种CSV变体，至少是作为一种可选择的输入/输出格式。

CSV文件由任意数目的记录组成，记录间以某种换行符分隔；每条记录由字段组成，字段间的分隔符是其它字符或字符串，最常见的是逗号或者制表符。

csv文件样式

John,Doe,120 jefferson st.,Riverside, NJ, 08075
Jack,McGinnis,220 hobo Av.,Phila, PA,09119

python处理

import csv

if __name__=='__main__':

    csvfile=open('E:\\pythonwork\\data\\iris.csv','r')

    #reader = csv.reader(csvfile)

    reader = csv.DictReader(csvfile)

    for row in reader:

        print(row)

二、JSON文件

json文件简介

JSON(JavaScript Object Notation, JS 对象简谱) 是一种轻量级的数据交换格式。它基于 ECMAScript (欧洲计算机协会制定的js规范)的一个子集，采用完全独立于编程语言的文本格式来存储和表示数据。简洁和清晰的层次结构使得 JSON 成为理想的数据交换语言。易于人阅读和编写，同时也易于机器解析和生成，并有效地提升网络传输效率。

json文件样式

{"application_instance_id":102061,"application_node":"10.45.44.44","billing_info":[{"application_batch_nums":1.0,"cdr_nums":2,"charge":46.0,"event_format_id":999,"exec_time_consume":120087,"lan_id":743,"serv_nums":2,"service_id":3,"src_net_data_id":123,"stat_batch_id":102061101001,"stat_cdr_type":10},{"application_batch_nums":0.0,"cdr_nums":2,"charge":0.0,"event_format_id":42,"exec_time_consume":0,"lan_id":743,"serv_nums":0,"service_id":3,"src_net_data_id":123,"stat_batch_id":102061101001,"stat_cdr_type":20},{"application_batch_nums":0.0,"cdr_nums":2,"charge":0.0,"event_format_id":41,"exec_time_consume":0,"lan_id":743,"serv_nums":0,"service_id":3,"src_net_data_id":123,"stat_batch_id":102061101001,"stat_cdr_type":20},{"application_batch_nums":0.0,"cdr_nums":2,"charge":0.0,"event_format_id":34,"exec_time_consume":0,"lan_id":743,"serv_nums":0,"service_id":3,"src_net_data_id":123,"stat_batch_id":102061101001,"stat_cdr_type":20}],"exec_end_time":"20180830174554","exec_start_time":"20180830174554"}

python读取json文件

import json

if __name__ == '__main__':

    json_data = open('E:\\pythonwork\\data\\test.json', 'r').read()

    data = json.loads(json_data)

    print((data.values()))

    for row in data.values():

        print(row)

三、XML文件

xml文件介绍

可扩展标记语言（XML）与Access,Oracle和SQL Server等数据库不同，数据库提供了更强有力的数据存储和分析能力，例如：数据索引、排序、查找、相关一致性等，XML的宗旨传输数据的，而与其同属标准通用标记语言的HTML主要用于显示数据。事实上XML与其他数据表现形式最大的不同是：他极其简单。这是一个看上去有点琐细的优点，但正是这点使XML与众不同。
XML的简单使其易于在任何应用程序中读写数据，这使XML很快成为数据交换的唯一公共语言，虽然不同的应用软件也支持其它的数据交换格式，但不久之后他们都将支持XML，那就意味着程序可以更容易的与Windows、Mac OS, Linux以及其他平台下产生的信息结合，然后可以很容易加载XML数据到程序中并分析他，并以XML格式输出结果。

xml文件样式

xml文件处理

- dom方式处理

#通过dom的方式解析xml

import xml.dom.minidom as xmldom

import os

from getbyxmltree import parse_xml_etree

def get_node(node, nodename):

    return node.getElementsByTagName(nodename) if node else ''

def get_nodevalue(node,index=0):

    return node.childNodes[index].nodeValue if node else ''

def get_nodeattr(node,attrname):

    return node.getAttribute(attrname) if node else ''

def parse_dom_xml(path):

    xmlfilepath=os.path.abspath(path)

    print(u'文件路径:',xmlfilepath)

    # 获得文档对象

    domobj = xmldom.parse(xmlfilepath)

    elemobj = domobj.documentElement

    print(elemobj)

    dsn_node = get_node(elemobj ,'DsnInfo')

    dsn_list=[]

    for node in dsn_node:

        node_name=get_node(node,'DsnName')

        node_ip1 = get_node(node,'IP1')

        node_port1=get_node(node,'Port1')

        node_ip2 = get_node(node, 'IP2')

        node_port2 = get_node(node, 'Port2')

        #获取VALUE

        dsn_name = get_nodevalue(node_name[0])

        dsn_ip1 = get_nodevalue(node_ip1[0])

        dsp_port1 = get_nodevalue(node_port1[0])

        dsn_ip2 = get_nodevalue(node_ip2[0])

        dsp_port2 = get_nodevalue(node_port2[0])

        dsn_info={}

        dsn_info['dsn_name'], dsn_info['ip1'], dsn_info['port1'], dsn_info['ip2'], dsn_info['port2'] = (

            dsn_name, dsn_ip1, dsp_port1, dsn_ip2, dsp_port2

        )

        dsn_list.append(dsn_info)

    return dsn_list

- ctree方式

try:

    import xml.etree.cElementTree as xmltree

except:

    import xml.etree.ElementTree as xmltree

import sys,os

def transxml(node):

    if node:

        for child in node:

            if child.tag == 'IP1':

                print('child tag:%s,value:%s' % (child.tag,child.text))

            transxml(child)

def parse_xml_etree(path):

    xmlfilepath = os.path.abspath(path)

    print(u'文件路径:', xmlfilepath)

    tree = xmltree.parse(xmlfilepath)

    root = tree.getroot()

    print('root=',type(root))

    '''

    print(u"按照下标访问")

    print(tree.getroot()[0][1].tag)

    print(tree.getroot()[0][1].text)

    '''

    print(u"查找标签")

    ip_list= root[0].findall('DsnInfo')

    print(len(ip_list))

    for ip in ip_list:

        print(type(ip))

        print("tag:%s\ntext:%s\n" % (ip.tag,ip.text))

    print(u"迭代")

    for node in root.iter('DsnInfo'):

        print(node.tag)

        print(type(node))

    #print(u"遍历")

    #transxml(tree.getroot())

四、预告

下次更新将主要介绍EXCEL方式处理。扫描二维码关注公众号

python数据处理----常用数据文件的处理的更多相关文章

python 数据处理对csv文件进行数据处理
数据如下图: 用python对数据进行处理: #读取csv文件内容并进行数据处理 import os import csv import datetime import re from itertoo ...
python——读取MATLAB数据文件 *.mat
鉴于以后的目标主要是利用现有的Matlab数据(.mat或者.txt),主要考虑python导入Matlab数据的问题.以下代码可以解决python读取.mat文件的问题.主要使用sicpy.io即可 ...
利用Python读取外部数据文件
不论是数据分析,数据可视化,还是数据挖掘,一切的一切全都是以数据作为最基础的元素.利用Python进行数据分析,同样最重要的一步就是如何将数据导入到Python中,然后才可以实现后面的数据分析.数 ...
python中常用的文件和目录操作(一)
常用的文件操作 1. 打开文件 open,它是一个内置函数,可以直接调用语法:file object = open(file_name, [access_mode]),这里我们会创建一个file对象 ...
Python数据处理常用工具(pandas)
目录数据清洗的常用工具--Pandas 数据清洗的常用工具 Pandas常用数据结构series和方法 Pandas常用数据结构dataframe和方法常用方法数据清洗的常用工具--Pandas ...
python 数据处理对txt文件进行数据处理
数据: 对txt文件进行数据处理: txt_file_path = "basic_info.txt" write_txt_file_path = "basic_info1 ...
python中常用的文件和目录操作(二)
一. os模块概述 python os模块提供了非常丰富的方法用来处理文件和目录二. 导入os模块: import os 三. 常用方法 1. os.name 输出字符串表示正在使用的平台,如果是w ...
Python数据处理和数据可视化
工具1:numpy 下载地址:http://www.lfd.uci.edu/~gohlke/pythonlibs/#numpy 入门文档:https://docs.scipy.org/doc/nump ...
python爬虫常用数据整理函数
text() 获取xpath中的值....../h1/text() extract()[0] Selector的方法用于提取内容为 ...

随机推荐

STL&&用法集合
.....STL是c++里很强势很好用的一系列容器(函数)之类的,之前一直不太会用,所以总是暴毙....想着快比赛了,是时候理一下这些东西了. -1.pair 存放两个基本元素的东西定义方法: pa ...
如何把链表以k个结点为一组进行翻转
[MT笔试题] 题目描述: K 链表翻转是指把每K个相邻的结点看成一组进行翻转,如果剩余结点不足 K 个,则保持不变.假设给定链表 1 -> 2 -> 3 -> 4 -> 5 ...
python——掌握sorted函数的用法
看本篇文章的前提是掌握 00函数的基本概念.01函数参数传递方式可参考本人博客文章 sorted函数是一个内建函数,接收一个可迭代对象,按照指定类型.指定顺序进行排序,特点是返回一个新的列表,不改 ...
Vue躬行记（8）——Vue Router
虽然Vue.js未提供路由功能,但是官方推出了Vue Router(即vue-router库),以插件的形式支持.它与Vue.js深度集成,可快速的创建单页应用(Single Page Applica ...
微信小程序api封装（promise）
顺带这是我平时公司切换改变网络环境直接上代码,我相信就可以懂了, //app.js function fetchApi(url, type, params, method) { return new ...
理解Spark SQL(一）—— CLI和ThriftServer
Spark SQL主要提供了两个工具来访问hive中的数据,即CLI和ThriftServer.前提是需要Spark支持Hive,即编译Spark时需要带上hive和hive-thriftserver ...
nyoj 12-喷水装置（二）(贪心)
12-喷水装置(二) 内存限制:64MB 时间限制:3000ms Special Judge: No accepted:10 submit:30 题目描述: 有一块草坪,横向长w,纵向长为h,在它的橫 ...
领扣（LeetCode）移动零个人题解
给定一个数组 nums,编写一个函数将所有 0 移动到数组的末尾,同时保持非零元素的相对顺序. 示例: 输入: [0,1,0,3,12] 输出: [1,3,12,0,0] 说明: 必须在原数组上操作, ...
python中的__call__方法
在Python中,函数其实是一个对象: >>> f = abs >>> f.__name__ 'abs' >>> f(-) 由于 f 可以被调用, ...
Tarjan-割点
割点——tarjan #include <bits/stdc++.h> using namespace std; ; ; int n, m; int ans;//个数 * MAXM], n ...

python数据处理----常用数据文件的处理

python数据处理----常用数据文件的处理的更多相关文章

随机推荐

热门专题