CSV文件存储

CSV 文件存储

　　CSV，全称为 Comma-Separated Values，中文可以叫作逗号分隔值或字符分隔值，其文件以纯文本形式存储表格数据。该文件是一个字符序列，可以由任意数目的记录组成，记录间以某种换行符分隔。每条记录由若干字段组成，字段间的分隔符是其他字符或字符串，最常见的是逗号或制表符。不过所有记录都有完全相同的字段序列，相当于一个结构化表的纯文本形式。它比 Excel 文件更加简洁，XLS 文本是电子表格，包含文本、数值、公式和格式等内容，而 CSV 中不包含这些内容，就是特定字符分隔的纯文本，结构简单清晰。所以，有时候用 CSV 来保存数据是比较方便的。本节时 Python 读取和写入 CSV 文件的过程。

写入

例子：

import csv

with open('data.csv', 'w') as csvfile:

    writer = csv.writer(csvfile)

    writer.writerow(['id', 'name', 'age'])

    writer.writerow(['10001', 'Mike', 20])

    writer.writerow(['10002', 'Bob', 22])

    writer.writerow(['10003', 'Jordan', 21])

　　打开 data.csv 文件，然后指定打开的模式为 w（即写入），获得文件句柄，随后调用 csv 库的 writer 方法初始化写入对象，传入该句柄，然后调用 writerow 方法传入每行的数据即可完成写入。

　　运行结束后，会生成一个名为 data.csv 的文件，此时数据就成功写入了。直接以文本形式打开的话，其内容如下：

id,name,age

10001,Mike,20

10002,Bob,22

10003,Jordan,21

　　写入的文本默认以逗号分隔，调用一次 writerow 方法即可写入一行数据。用 Excel 打开的结果如图所示。

　　如果想修改列与列之间的分隔符，可以传入 delimiter 参数，其代码如下：

import csv

with open('data.csv', 'w') as csvfile:

    writer = csv.writer(csvfile, delimiter=' ')

    writer.writerow(['id', 'name', 'age'])

    writer.writerow(['10001', 'Mike', 20])

    writer.writerow(['10002', 'Bob', 22])

    writer.writerow(['10003', 'Jordan', 21])

这里在初始化写入对象时传入 delimiter 为空格，此时输出结果的每一列就是以空格分隔了，内容如下：

id name age

10001 Mike 20

10002 Bob 22

10003 Jordan 21

　　也可以调用 writerows 方法同时写入多行，此时参数就需要为二维列表，例如：

import csv

with open('data.csv', 'w') as csvfile:

    writer = csv.writer(csvfile)

    writer.writerow(['id', 'name', 'age'])

    writer.writerows([['10001', 'Mike', 20], ['10002', 'Bob', 22], ['10003', 'Jordan', 21]])

输出效果是相同，内容如下：

id,name,age

10001,Mike,20

10002,Bob,22

10003,Jordan,21

　　但是一般情况下，爬虫爬取的都是结构化数据，一般会用字典来表示。在 csv 库中也提供了字典的写入方式，示例如下：

import csv

with open('data.csv', 'w') as csvfile:

    fieldnames = ['id', 'name', 'age']

    writer = csv.DictWriter(csvfile, fieldnames=fieldnames)

    writer.writeheader()

    writer.writerow({'id': '10001', 'name': 'Mike', 'age': 20})

    writer.writerow({'id': '10002', 'name': 'Bob', 'age': 22})

    writer.writerow({'id': '10003', 'name': 'Jordan', 'age': 21})

　　先定义 3 个字段，用 fieldnames 表示，然后将其传给 DictWriter 来初始化一个字典写入对象，接着可以调用 writeheader 方法先写入头信息，然后再调用 writerow 方法传入相应字典即可。最终写入的结果是完全相同的，内容如下：

id,name,age

10001,Mike,20

10002,Bob,22

10003,Jordan,21

　　这样就可以完成字典到 CSV 文件的写入了。

　　如果想追加写入的话，可以修改文件的打开模式，即将 open 函数的第二个参数改成 a，代码如下：

import csv  

with open('data.csv', 'a') as csvfile:

    fieldnames = ['id', 'name', 'age']

    writer = csv.DictWriter(csvfile, fieldnames=fieldnames)

    writer.writerow({'id': '10004', 'name': 'Durant', 'age': 22})

　　在上面的基础上再执行这段代码，文件内容便会变成：

id,name,age

10001,Mike,20

10002,Bob,22

10003,Jordan,21

10004,Durant,22

　　数据被追加写入到文件中。

　　如果要写入中文内容的话，可能会遇到字符编码的问题，此时需要给 open 参数指定编码格式。例如，这里再写入一行包含中文的数据，代码需要改写如下：

import csv

with open('data.csv', 'a', encoding='utf-8') as csvfile:

    fieldnames = ['id', 'name', 'age']

    writer = csv.DictWriter(csvfile, fieldnames=fieldnames)

    writer.writerow({'id': '10004', 'name': '李四', 'age': 22})

　　需要给 open 函数指定编码，否则可能发生编码错误。

　　如果接触过 pandas 等库的话，可以调用 DataFrame 对象的 to_csv 方法来将数据写入 CSV 文件中。

　　安装pandas库，安装命令：

pip3 install pandas

　　安装完之后，便可以使用pandas库将数据保存为CSV文件：

import pandas as pd

data = [

    {'id': '10001', 'name': 'Mike', 'age': 20},

    {'id': '10002', 'name': 'Fsdf', 'age': 22},

    {'id': '10003', 'name': 'Sdfs', 'age': 23}

]

df = pd.DataFrame(data)

df.to_csv('data.csv', index=False)

　　定义几条数据，每条数据都是一个字典，然后将其组成一个列表，赋值为data。紧接着使用pandas的DataFrame类新建了一个DataFrame对象，参数传入data，并把该对象赋值为df。最后调用df的to_csv方法也可以将数据保存为CSV对象。

读取

　　可以使用 csv 库来读取 CSV 文件。例如，将刚才写入的文件内容读取出来，相关代码如下：

import csv

with open('data.csv', 'r', encoding='utf-8') as csvfile:

    reader = csv.reader(csvfile)

    for row in reader:

        print(row)

运行结果：

['id', 'name', 'age']

['10001', 'Mike', '20']

['10002', 'Bob', '22']

['10003', 'Jordan', '21']

['10004', 'Durant', '22']

['10005', ' 李四 ', '22']

　　这里构造的是 Reader 对象，通过遍历输出了每行的内容，每一行都是一个列表形式。注意，如果 CSV 文件中包含中文的话，还需要指定文件编码。

　　也可以使用pandas 的 read_csv 方法将数据从 CSV 中读取出来，例如：

import pandas as pd

df = pd.read_csv('data.csv')

print(df)

运行结果：

      id  name  age

0  10001  Mike   20

1  10002  Fsdf   22

2  10003  Sdfs   23

　　这里的df实际上是一个DataFrame对象，如果对此比较熟悉，可以直接使用它完成一些数据的分析处理。

　　如果只想读取文件里面的数据，可以吧df再进一步转换为列表或元组：

import pandas as pd

df = pd.read_csv('data.csv')

data = df.values.tolist()

print(data)

　　这里调用了df的values属性，再调用tolist方法，即可将数据转化为列表形式，运行结果：

[[10001, 'Mike', 20], [10002, 'Fsdf', 22], [10003, 'Sdfs', 23]]

　　若直接对df进行遍历，同样能得到列表类型的结果：

import pandas as pd

df = pd.read_csv('data.csv')

for index, row in df.iterrows():

    print(row.tolist())

运行结果：

[10001, 'Mike', 20]

[10002, 'Fsdf', 22]

[10003, 'Sdfs', 23]

CSV文件存储的更多相关文章

Python3编写网络爬虫10-数据存储方式三-CSV文件存储
3.CSV文件存储 CSV 全称 Comma-Separated Values 中文叫做逗号分隔值或者字符分隔值,文件以纯文本形式存储表格数据.文件是一个字符序列可以由任意数目的记录组成相当于一个结 ...
json和csv文件存储
一. json 1:基本概念 1.1 Json和Javascript JSON, 全称JavaScript Object Notation,它通过对象和数组的组合来表示数据.在JavaScript中一 ...
爬虫存储介质之CSV文件存储
本文章来自度娘 CSV文件存储 CSV,全称为Comma-Separated Values,中文可以叫做逗号分隔值或字符分隔值,其文件以纯文本形式存储表格数据.该文件是一个字符序列,可以由任意数目的 ...
使用 CSV 文件存储
将爬取到的数据以 CSV 文件形式存储: import csv import requests req = requests.get("http://www.baidu.com/" ...
Go Web：数据存储(2)——CSV文件
存储到CSV文件中 1.内存存储 2.CSV文件存储 3.gob序列化存储本文接上一篇:内存存储. 关于CSV文件的说明,见csv文件格式当数据存储到了内存中,可以在需要的时候持久化保存到磁盘文件 ...
爬虫文件存储:txt文档，json文件，csv文件
5.1 文件存储文件存储形式可以是多种多样的,比如可以保存成 TXT 纯文本形式,也可以保存为 Json 格式.CSV 格式等,本节我们来了解下文本文件的存储方式. 5.1.1 TXT文本存储将数 ...
Python常用的数据文件存储的4种格式(txt/json/csv/excel)及操作Excel相关的第三方库(xlrd/xlwt/pandas/openpyxl)（2021最新版）
序言:保存数据的方式各种各样,最简单的方式是直接保存为文本文件,如TXT.JSON.CSV等,除此之外Excel也是现在比较流行的存储格式,通过这篇文章你也将掌握通过一些第三方库(xlrd/xlwt/ ...
【BOOK】数据存储—文件存储(TXT、JSON、CSV)
数据存储文本文件-TXT.JSON.CSV 关系型数据库-MySQL.SQLite.Oracle.SQL Server.DB2 非关系型数据库-MongoDB.Redis 文件打开 open() ...
技巧-如何通过hive开发平台上传csv文件
通过数据交换平台上传较大的文件时,经常会出现导入失败情况,换种方式通过新数据开发平台(stark)也可以轻松实现外部数据与hive的数据关联. --第一步.导入csv文件到hive --stark数据 ...
Selenium+java - 使用csv文件做数据驱动
前言早期我们使用TestNG 来做数据驱动进行测试,测试数据是写在测试用例脚本中.这会使得测试脚本的维护工作量很大.因此我们可以将测试的数据和脚本分开. 而我们经常使用会使用csv文件来做为导出数据 ...

随机推荐

ICBU可控文本生成技术详解
简介: 文本生成(Text Generation)是自然语言处理(Natural Language Processing,NLP)领域的一项重要且具有挑战的任务.顾名思义,文本生成任务的目的是生成近 ...
WPF 自己封装 Skia 差量绘制控件
使用 Skia 能做到在多个不同的平台使用相同的一套 API 绘制出相同界面效果的图片,可以将图片绘制到应用程序的渲染显示里面.在 WPF 中最稳的方法就是通过 WriteableBitmap 作为承 ...
NoSQL 数据库管理工具，搭载强大支持：Redis、Memcached、SSDB、LevelDB、RocksDB，为您的数据存储提供无与伦比的灵活性与性能！
NoSQL 数据库管理工具,搭载强大支持:Redis.Memcached.SSDB.LevelDB.RocksDB,为您的数据存储提供无与伦比的灵活性与性能! [官网地址]:http://www.re ...
累计预扣法个税，怎么算？（附excel）
累计预扣法个税计算依法纳税是每个公民的义务,但看着每个月递增的个税,你可能会发出疑问,这到底是怎么算的?这就要引出2019年1月1日实施新实施的个税法,累计预扣法.即自2019年1月1日起,居民个人 ...
Ubuntu更新源文件报错：E: 仓库 “http://ppa.launchpad.net/chris-lea/node.js/ubuntu bionic Release” 没有 Release 文件。
E: 仓库 "http://ppa.launchpad.net/chris-lea/node.js/ubuntu bionic Release" 没有 Release 文件. 一条 ...
2019年最新前端面试题，js程序设计题
都说机会是留给有准备的人的. 一年之计在于春,面对众多的前端技术,需要时刻充电自己. 我现在整理一些前端js面试程序题. 1.判断一个字符串中出现最多的字符,并计算出现的次数? 2.用css伪类实现下 ...
Git命令拾掇
修改commit信息 git commit --amend -m 'The new message' 使用ssh替换https:// 设置某个仓库 git remote set-url origin ...
可视化学习：使用极坐标参数方程和SDF绘制有趣的图案
前言本文将介绍如何使用极坐标参数方程和上一篇文章提到的距离场SDF来绘制有趣的图案. 说到曲线和几何图形的绘制,我们知道图形系统默认支持的是通过直角坐标绘制,但是有些曲线呢,不太容易使用直角坐标系来 ...
Sed 日常使用介绍
Sed 日常使用介绍简介 sed 是 unix 环境下常用的流处理工具, 可以处理字符流, 文件或者二进制文件流. 各个 unix/linux 发行版都会配备 sed 及其衍生的命令工具, 因此, ...
深入探讨Function Calling：实现外部函数调用的工作原理
引言 Function Calling 是一个允许大型语言模型(如 GPT)在生成文本的过程中调用外部函数或服务的功能. Function Calling允许我们以 JSON 格式向 LLM 模型描述 ...

CSV文件存储

CSV 文件存储

写入

读取

CSV文件存储的更多相关文章

随机推荐

热门专题