CSV数据处理

csv文件格式

逗号分隔符（csv），有时也称为字符分隔值，因为分隔字符也可以不是逗号，其文件以纯文本的形式存储表格数据（数字和文本）。
纯文本意味着该文件是一个字符序列，不含必须像二进制数字那样被解读的数据。
csv文件由任意数目的记录组成，记录间以某种换行符分割；每条记录由字段组成，字段间的分隔符是其他字符或字符串，最常见的是逗号或制表符。通常，所有记录都有完全相同的字段序列。

csv数据格式

27,20,14,15,14,12,94,64,37,1015,1013,1009,7,5,2,21,8,35,0.00,152

另外，csv文件可以直接用excel或者类似软件打开，样子都是我们常见的表格形式。

常用读取数据方法

import codecs

lineText = list()

with codecs.open("test.csv",encoding="utf-8") as f:

    for line in f.readlines():

        print (line.split(","))            #以列表形式，打印每一行的数据。

        lineText.append(line.split(","))

    print (lineText)               #把上面所有行作为元素数据，存入一个列表中。

处理csv格式数据

import codecs

import csv

fileName = "test.csv"

with codecs.open(fileName) as fcsv:

    linecsv = csv.reader(fcsv)

    rows = [row for row in linecsv]

    print (rows)

excel数据处理

python提供有第三方库来支持excel的操作，python处理excel文件用的第三方模块库，有xlrd、xlwt、xluntils和pyExcelerator，除此之外，python处理excel还可以用win32com和openpyxl模块.我们主要用xlrd、xlwt、xluntils这三个模块，pyExcelerator模块偶尔也会用。

xlrd    只能进行读取excel文件，没法进行写入文件;

xlwt    可以写入文件，但是不能在已有的excel的文件上进行修改;

xluntils    可以在已有的excel文件上进行修改;

pyExcelerator    与xlwt类似，也可以用来生成excel文件

按行读取表数据

import xlrd

def readExcel():

    data = xlrd.open_workbook('test.xlsx')

    table = data.sheets()[0]         # 打开第一张表

    nrows = table.nrows          # 获取表的行数

    for i in range(nrows):          # 循环逐行打印

        print(table.row_values(i))      #通过row_values来获取每行的值

if __name__ == '__main__':

    readExcel()

按列读取表数据

import xlrd

data = xlrd.open_workbook("whsc.xlsx")

table2 = data.sheet_by_name("域名")       #sheet标签页的名称

for col in range(table2.ncols):

    print (table2.col_values(col))

创建excel文件并写入内容

import xlwt

excel = xlwt.Workbook()

#创建3个表

sheet1 = excel.add_sheet("sheet1")

sheet2 = excel.add_sheet("sheet2")

sheet3 = excel.add_sheet("sheet3")

#只在第一个表sheet1里写数据，如下：

sheet1.write(0,0,"hello world1", cell_overwrite_ok=True)

sheet1.write(1,0,"hello world2", cell_overwrite_ok=True)

sheet1.write(2,0,"hello world3", cell_overwrite_ok=True)

#第一个是行，第二个是列，第三个是内容，第二个参数用来确认同一个cell单元是否可以重设值。

excel.save("hello.xlsx")

print("创建hello.xlsx完成")

使用样式、字体等效果

import xlwt

excel = xlwt.Workbook()

#创建3个表

sheet1 = excel.add_sheet("sheet1")

sheet2 = excel.add_sheet("sheet2")

sheet3 = excel.add_sheet("sheet3")

#初始化样式

style = xlwt.XFStyle()

#为样式创建字体

font = xlwt.Font()

font.name = 'Times New Roman'   #指定字体名称

font.bold = True              #是否加粗

#设置样式的字体

style.font = font

#使用样式

sheet3.write(0,1,'some bold Times text',style)

#保存该excel文件,有同名文件时直接覆盖

excel.save('hello.xlsx')

print('创建hello.xlsx文件完成!')

文件转换成pdf格式

在工作中，会遇到把html文件转换成pdf文件，转换成pdf有三种方法。
python给我们提供了pdfkit这个模块，直接安装使用就可以了。

安装该模块

pip install pdfkit

简单例子

import pdfkit

pdfkit.from_file("hello.html", 1.pdf)  # 网页转换成pdf（直接把url转换成pdf文件）

pdfkit.from_url("www.baidu.com", 2.pdf)  # Html转换成pdf

pdfkit.from_string("hello world", 3.pdf) # 字符串转换成pdf

抓取apelearn上的教程，并抓换成pdf

import os

import re

import pdfkit

import requests

if not os.path.exists("aminglinux"):

    os.mkdir("aminglinux")  # 创建一个目录来存放生成的pdf文件

os.chdir("aminglinux")  # 切换到创建好的目录

url = "http://www.apelearn.com/study_v2/"

s = requests.session()

text = s.get(url).text

reg = re.compile(r'<li class=\"toctree-l1\"><a class=\"reference internal\" href=\"(.*)\">.*<\/a><\/li>')

result = reg.findall(text)

res = list(set(result))

for i in res:

    purl = "{0}{1}".format(url, i)

    print (purl)

    pdfFileName = i.replace("html", "pdf")

    print (pdfFileName)

    config = pdfkit.configuration(wkhtmltopdf=r"C:\Program Files\wkhtmltopdf\bin\wkhtmltopdf.exe")

    try:

        pdfkit.from_url(purl, pdfFileName, configuration=config)

    except:

        continue

结果：

chapter1.pdf

chapter2.pdf

chapter3.pdf

chapter4.pdf

chapter5.pdf

......

......

注意：如果使用的是windows需要安装一个wkhtmltopdf驱动，否则会报错。

python处理数据（一）的更多相关文章

python和数据科学(Anaconda)
Python拥有着极其丰富且稳定的数据科学工具环境.遗憾的是,对不了解的人来说这个环境犹如丛林一般(cue snake joke).在这篇文章中,我会一步一步指导你怎么进入这个PyData丛林. 你可 ...
用 Python 排序数据的多种方法
用 Python 排序数据的多种方法目录 [Python HOWTOs系列]排序 Python 列表有内置就地排序的方法 list.sort(),此外还有一个内置的 sorted() 函数将一个可迭 ...
python爬虫+数据可视化项目（关注、持续更新）
python爬虫+数据可视化项目(一) 爬取目标:中国天气网(起始url:http://www.weather.com.cn/textFC/hb.shtml#) 爬取内容:全国实时温度最低的十个城市气 ...
python调用数据返回字典dict数据的现象2
python调用数据返回字典dict数据的现象2 思考: 话题1连接:https://www.cnblogs.com/zwgbk/p/10248479.html在打印和添加时候加上内存地址id(),可 ...
python调用数据返回字典dict数据的现象1
python调用数据返回字典dict数据的现象1 思考: 可以看到这两种情况,区别在于构造函数make()里赋值给字典dict的方式不同.使用相同的调用方式,而结果却完全不同.可以看到第二种情况才是我 ...
python 小数据池,is and "==",decode ,encode
一:小数据池 1.python运行中的缓存: 2.目的:缓存我们字符串,整数,布尔值.在使用的时候不需要创建过多的对象 3.python 缓存数据:缓存:int, str, bool. ...
【转】Python用数据说明程序员需要掌握的技能
[转]Python用数据说明程序员需要掌握的技能 https://blog.csdn.net/HuangZhang_123/article/details/80497951 当下是一个大数据的时代,各 ...
MySQL实验准备(二)--Python模拟数据(MySQL数据库)
Python模拟数据(MySQL数据库) 数据模拟目的:模拟多个表的插入和查询数据的模拟,再通过基准测试脚本测试服务器性能和收集数据,仿真模拟. 备注: 如果需要基础的python环境,可以查看&l ...
数据挖掘（二）用python实现数据探索：汇总统计和可视化
今天我们来讲一讲有关数据探索的问题.其实这个概念还蛮容易理解的,就是我们刚拿到数据之后对数据进行的一个探索的过程,旨在了解数据的属性与分布,发现数据一些明显的规律,这样的话一方面有助于我们进行数据预处 ...
【转】Python之数据序列化（json、pickle、shelve）
[转]Python之数据序列化(json.pickle.shelve) 本节内容前言 json模块 pickle模块 shelve模块总结一.前言 1. 现实需求每种编程语言都有各自的数据类型 ...

随机推荐

postgresql 匿名函数（单独执行代码段）
do LANGUAGE plpgsql $$ declare top integer; row_org dbo.a_org_type%rowtype; begin /* Insert real cod ...
Docker 私有registry出现的证书问题
在上一篇最近搭建的私有registry里,参考的文章指出,在push时可能出现问题: 可能会出现无法push镜像到私有仓库的问题.这是因为我们启动的registry服务不是安全可信赖的.这是我们需要 ...
ShellExecute 启动外部程序参数详细介绍
ShellExecute的功能是运行一个外部程序(或者是打开一个已注册的文件.打开一个目录.打印一个文件等等),并对外部程序有一定的控制. 目录 1基本简介 2原型参数 3返回值 4例子 5特殊用法 ...
DOM-使用节点
节点类型 DOM规定:整个文档是一个文档节点,每个标签是一个元素节点,元素包含的文本是文本节点,元素的属性是一个属性节点,注释属于注释节点,如此等等: 每个节点都有一个nodeType属性,用于标明节 ...
2Java基础语法
1.标识符 1.1 标识符以字母.下划线.美元符开头 1.2 标识符由字母.下划线.美元符或数字组成 1.3 标识符区分大小写 1.4 不能与Java关键字同名 ...
CentOS普通用户没有sudo权限
sudo是linux系统管理指令,是允许系统管理员让普通用户执行一些或者全部的root命令的一个工具,如halt,reboot,su等等.这样不仅减少了root用户的登录和管理时间,同样也提高了安全 ...
防止TableView 上的tap手势隔断 cell的选择
遵循UIGestureRecognizerDelegate协议: 1.0添加手势 - (void)addTapGest { UITapGestureRecognizer *tap = [[U ...
SpringBean 工作原理详解
本文来自Github开源项目https://github.com/Snailclimb/JavaGuide,只供自己学习总结无商业用途,如有侵权,联系删除前言在 Spring 中,那些组成应用程序 ...
深入分析 Java 中的中文编码问题【转】
转:https://www.ibm.com/developerworks/cn/java/j-lo-chinesecoding/ 几种常见的编码格式为什么要编码不知道大家有没有想过一个问题,那就是 ...
【学习笔记】--- 老男孩学Python，day10, 函数, 动态参数命名空间\作用域 global nonlocal
1. 动态参数位置参数的动态参数: *args 关键字参数的动态参数 : **kwargs 顺序:位置---*args---默认值---**kwargs 在形参上*聚合, **聚合在实参上*打散, ...

python处理数据（一）