python数据存储-- CSV

CSV，其文件以纯文本形式存储表格数据（数字和文本），CSV记录简由某种换行符分隔字段间分隔又其他字符，常见逗号或者制表符，

例如：

#coding:utf-8

import csv

headers = ['ID','UserName','Password','Age','Country']

rows = [(1001,"guobao","1382_pass",21,"China"),

         (1002,"Mary","Mary_pass",20,"USA"),

         (1003,"Jack","Jack_pass",20,"USA"),

       ]

with open('guguobao.csv','w') as f:

    f_csv = csv.writer(f)

    f_csv.writerow(headers)

    f_csv.writerows(rows)

运行结果：

ID,UserName,Password,Age,Country

1001,guobao,1382_pass,21,China

1002,Mary,Mary_pass,20,USA

1003,Jack,Jack_pass,20,USA

里面的rows列表中数据元组，也可以字典数组，例如：

import csv

headers = ['ID','UserName','Password','Age','Country']

rows = [{'ID':1001,'UserName':"qiye",'Password':"qiye_pass",'Age':24,'Country':"China"},

{'ID':1002,'UserName':"Mary",'Password':"Mary_pass",'Age':20,'Country':"USA"},

{'ID':1003,'UserName':"Jack",'Password':"Jack_pass",'Age':20,'Country':"USA"},

]

with open('qiye.csv','w') as f:

    f_csv = csv.DictWriter(f,headers)

    f_csv.writeheader()

    f_csv.writerows(rows)

接下来是CSV的读取，要取出CSV文件，需要创建reader对象，例如：

import csv

with open('gugobao.csv','r') as f:

    f_csv = csv.reader(f)

    headers = next(f_csv)

    print headers

    for row in f_csv:

        print row

除了利用row[0]访问ID，row[3]访问age，由于索引访问引起混淆，因此可以考虑使用元组

from collections import namedtuple

import csv

with open('qiye.csv') as f:

    f_csv = csv.reader(f)

    headings = next(f_csv)

    Row = namedtuple('Row', headings)

    for r in f_csv:

        row = Row(*r)

        print row.UserName,row.Password

        print row

运行结果：

C:\Python27\python.exe F:/爬虫/5.1.2.py

qiye qiye_pass

Row(ID='1001', UserName='qiye', Password='qiye_pass', Age='24', Country='China')

Mary Mary_pass

Row(ID='1002', UserName='Mary', Password='Mary_pass', Age='20', Country='USA')

Jack Jack_pass

Row(ID='1003', UserName='Jack', Password='Jack_pass', Age='20', Country='USA')

Process finished with exit code 0

可以使用列名如row.UserName和row.Password代替下标访问。除了使用命名分组之外，另外一个解决办法就是读取一个字典序列中，如下：

import csv

with open('qiye.csv') as f:

    f_csv = csv.DictReader(f)

    for row in f_csv:

        print row.get('UserName'),row.get('Password')

运行结果：

import csv

with open('qiye.csv') as f:

    f_csv = csv.DictReader(f)

    for row in f_csv:

        print row.get('UserName'),row.get('Password')

最终使用CSV解析http://seputu.com首页的标题章节和连接

from lxml import etree

import requests

user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'

headers={'User-Agent':user_agent}

r = requests.get('http://seputu.com/',headers=headers)

#使用lxml解析网页

html = etree.HTML(r.text)

div_mulus = html.xpath('.//*[@class="mulu"]')#先找到所有的div class=mulu标签

pattern = re.compile(r'\s*\[(.*)\]\s+(.*)')

rows=[]

for div_mulu in div_mulus:

    #找到所有的div_h2标签

    div_h2 = div_mulu.xpath('./div[@class="mulu-title"]/center/h2/text()')

    if len(div_h2)> 0:

        h2_title = div_h2[0].encode('utf-8')

        a_s = div_mulu.xpath('./div[@class="box"]/ul/li/a')

        for a in a_s:

            #找到href属性

            href=a.xpath('./@href')[0].encode('utf-8')

            #找到title属性

            box_title = a.xpath('./@title')[0]

            pattern = re.compile(r'\s*\[(.*)\]\s+(.*)')

            match = pattern.search(box_title)

            if match!=None:

                date =match.group(1).encode('utf-8')

                real_title= match.group(2).encode('utf-8')

                # print real_title

                content=(h2_title,real_title,href,date)

                print content

                rows.append(content)

headers = ['title','real_title','href','date']

with open('qiye.csv','w') as f:

    f_csv = csv.writer(f,)

    f_csv.writerow(headers)

    f_csv.writerows(rows)

python数据存储-- CSV的更多相关文章

python数据存储--JSON
HTML正文存储为两种格式:JSON和CSV. 存储为JSON: 首先利用Requests访问http://seputu.com获取HTML文档: #!coding:utf-8 import requ ...
Python数据写入csv格式文件
(只是传递,基础知识也是根基) Python读取数据,并存入Excel打开的CSV格式文件内! 这里需要用到bs4,csv,codecs,os模块. 废话不多说,直接写代码!该重要的内容都已经注释了, ...
数据存储 csv
# # 保存csv格式的数据import csv csvFile = open('test.csv','w+',newline='') #文本方式可读写 try: writer = csv.write ...
python数据存储技巧
1.文本存储比如我们现在有10篇文章,每篇文章由三部分组成,题目,作者,内容(title,author,content),然后要求这三个部分明确展示出来,并且每篇文章之间用=====分割. 大致思路 ...
Python数据存储：pickle模块的使用讲解
在机器学习中,我们常常需要把训练好的模型存储起来,这样在进行决策时直接将模型读出,而不需要重新训练模型,这样就大大节约了时间.Python提供的pickle模块就很好地解决了这个问题,它可以序列化对象 ...
[转]pickle python数据存储
python的pickle模块实现了基本的数据序列和反序列化.通过pickle模块的序列化操作我们能够将程序中运行的对象信息保存到文件中去,永久存储:通过pickle模块的反序列化操作,我们能够从文件 ...
Python数据存储 — MySQL数据库操作
本地安装MySQL 调试环境python3.6,调试python操作mysql数据库,首先要在本地或服务器安装mysql数据库. 安装参考:https://mp.csdn.net/postedit/8 ...
Python - 数据存储与数据库简介
python数据储存
python数据储存 csv文件的操作安装csv包打开cmd 执行 pip install csv引入的模块名为csv 读取文件 with open("xx.csv"," ...

随机推荐

生成静态libevent
INCLUDE C:\Program Files (x86)\Microsoft SDKs\Windows\v7.1A\Include D:\vs2013\VC\include LIB C:\Prog ...
mybatic MapperScannerConfigurer的原理
原文地址:http://www.cnblogs.com/fangjian0423/p/spring-mybatis-MapperScannerConfigurer-analysis.html 前言本 ...
(五) 结构化查询语言SQL——3
4. 数据更新 1)增对应INSERT语句.格式为INSERT INTO T[(A1,…,Ak)] VALUES (C1,…,Ck),其中A代表表T的属性,C代表常量,A可以缺省,此时C必须严格按 ...
Java-UploadHelper工具类
/** * 上传文件类 */ import java.io.BufferedInputStream; import java.io.BufferedOutputStream; import java. ...
2. SaltStack数据系统: Grains、Pillar
1. SaltStack数据系统 Grains (谷物) Pillar (支柱) 2.Grains Grains存放着Salt命令启动时收集的信息,运行时不收集 2.1 信息查询收集资产网卡,i ...
MySQL常见内存不足启动失败的完美解决方法
Move to https://www.jb51.net/article/136432.htm
PHP回顾（面向对象）
类中的成员属性不能够用函数为其赋值.public age = rand(1,100);//这是错误的: __get() __set() __isset() __unset() final 用来修 ...
WPF程序发布有关事项
java中的排列组合
使用之前需要声明一个Combine的对象,调用startCombile方法,可返回想要的组合数或者个数,参数介绍很重要 public class Combine { private Object[] ...
2g 大文件上传
核心原理: 该项目核心就是文件分块上传.前后端要高度配合,需要双方约定好一些数据,才能完成大文件分块,我们在项目中要重点解决的以下问题. * 如何分片: * 如何合成一个文件: * 中断了从哪个分片开 ...

python数据存储-- CSV

CSV，其文件以纯文本形式存储表格数据（数字和文本），CSV记录简由某种换行符分隔字段间分隔又其他字符，常见逗号或者制表符，

接下来是CSV的读取，要取出CSV文件，需要创建reader对象，例如：

最终使用CSV解析http://seputu.com首页的标题章节和连接

python数据存储-- CSV的更多相关文章

随机推荐

热门专题