Python3爬虫（八）数据存储之TXT、JSON、CSV

Infi-chu:

http://www.cnblogs.com/Infi-chu/

TXT文本存储

TXT文本存储，方便，简单，几乎适用于任何平台。但是不利于检索。

1.举例：

使用requests获得网页源代码，然后使用pyquery解析库解析

import requests

from pyquery import PyQuery as pq

url = 'https://www.zhihu.com/explore'

header = {

    'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko)'

}

html = requests.get(url,headers=header).text

doc = pq(html)

items = doc('.explore-tab .feed-item').items()

for item in items:

    question = item.find('h2').text()

    author = item.find('.author-link-line').text()

    answer = pq(item.find('.content').html()).text()

    with open('test.txt','a',encoding='uft-8') as f:

        f.write('\n'.join([author,question,answer]))

        f.write('\n'.join('\n'+'='*50+'\n'))

2.打开方式：

rb+

wb+

ab+

【注】

w和a的区别相当于Linux中>和>> 的区别

JSON文件存储

JSON全称为（JavaScript Object Notation），JavaScript对象标记，通过对象和数组的组合来表示数据，构造简洁，结构化程度非常高，类似于Python当中的字典

1.对象&数组：

在JavaScript中，一切皆对象。

对象：

在JavaScript中使用{}来表示，可以理解为Python当中的字典，有键有值。

数组：

在JavaScript中使用[]来表示，可以理解为Python当中的列表。

2.读取JSON

我们可以调用Python的json库的loads()方法将JSON文本转化为JSON对象，使用dumps()方法将JSON对象转化为文本字符串。

使用get()方法得到键的名字后的值，如果没有值，则返回None，一般会自定义一个默认值，以防返回None

在JSON字符串中，要使用双引号，否则会抛出异常。

3.输出JSON

调用dumps()方法将JSON对象转化为文本字符串。

import json

data = [

{

'name':'Infi-chu',

'sex':'male',

'birthday':'2000.01.01'

}

]

with open('data.json','w+') as f:

    f.wirte(json.dumps(data))

'''

想要保存json的格式，可以加一个参数，indent

with open('data.json','w') as f:

    f.write(json.dumps(data,indent=2))

'''

CSV文件存储

CSV全称是（Comma-Separated Values），逗号分隔值或字符分隔值，它是以纯文本形式存储表格数据，相当于结构化的纯文本。

它比Excel更简洁，XLS文本是电子表格，它包含了文本、数值、公式和格式等内容，而CSV中不包含这些内容。

1.举例

import csv

with open('data.csv','w+') as cf:

    wirter = csv.writer(cf)

'''

wirter = csv.writer(cf,delimiter=' ')    # 此参数是增加分隔符

'''

    wirter.wirterow(['id','name','age'])    # writerows是同时写入多行，writerow是单行写入

    wirter.wirterow(['1','Infi',23])

    wirter.wirterow(['2','chu',23])

# 字典方式的写入发

import csv

with open('data.csv','w')as f:

    fieldname = ['id','name','age']

    wirter = csv.DictWriter(f,filednames=filename)    # DictWriter()方法初始化一个字典写入对象

    wirter.writheader()    # writheader()方法写入头信息

    wirter.wirterows({'id':'1','name':'n1','age':1},{'id':'2','name':'n2','age':2},{'id':'3','name':'n3','age':3})

　2.读取

# 通过csv库来读取CSV文件

import csv

with open('data.csv','r',encoding='utf-8') as f:

    reader = csv.reader(f)    # reader()方法便利出每行的内容

    for i in render:

        print(row)

# 通过pandas 读取

import pandas as pd

df = pd.read_csv('data.csv')

print(df)

Python3爬虫（八）数据存储之TXT、JSON、CSV的更多相关文章

scrapy爬虫事件以及数据保存为txt,json,mysql
今天要爬取的网页是虎嗅网我们将完成如下几个步骤: 创建一个新的Scrapy工程定义你所需要要抽取的Item对象编写一个spider来爬取某个网站并提取出所有的Item对象编写一个Item Pi ...
Python常用的数据文件存储的4种格式(txt/json/csv/excel)及操作Excel相关的第三方库(xlrd/xlwt/pandas/openpyxl)（2021最新版）
序言:保存数据的方式各种各样,最简单的方式是直接保存为文本文件,如TXT.JSON.CSV等,除此之外Excel也是现在比较流行的存储格式,通过这篇文章你也将掌握通过一些第三方库(xlrd/xlwt/ ...
（完整）爬取数据存储之TXT、JSON、CSV存储
一.文件存储 1. TXT文本存储例:知乎发现页面,获得数据存成TXT文本 import requests from pyquery import PyQuery as pq url="h ...
第十节：Web爬虫之数据存储与MySQL8.0数据库安装和数据插入
用解析器解析出数据之后,接下来就是存储数据了,保存的形式可以多种多样,最简单的形式是直接保存为文本文件,如 TXT.JSON.csv 另外,还可以保存到数据库中,如关系型数据库MySQL ,非关系型数 ...
python3之scrapy数据存储问题（MySQL）
这次我用的是python3.6,scrapy在python2.7,3.5的使用方法都不同所以要特别注意, 列如在python3.5的开发环境下scrapy 的主爬虫文件可以使用 from urlli ...
爬虫实践——数据存储到Excel中
在进行爬虫实践时,我已经爬取到了我需要的信息,那么最后一个问题就是如何把我所爬到的数据存储到Excel中去,这是我没有学习过的知识. 如何解决这个问题,我选择先百度查找如何解决这个问题. 百度查到的方 ...
Python3编写网络爬虫09-数据存储方式二-JSON文件存储
2.JSON文件存储全称为JavaScript Object Notation 通过对象和数组的组合来表示数据,构造简洁且结构化程度非常高.是一种轻量级的数据交换格式 2.1 对象和数组在Java ...
主流数据文件类型（.dat/.txt/.json/.csv）导入到python
手写很累,复制的同学请点赞犒劳下在下哦 ^_^ 一.对于.CSV类型的数据它们的数据导入都很简单且看下面一顿操作: 我平时一般是读取整个文件,直接这样就可以了: import pandas as ...
Scrapy爬虫案例 | 数据存储至MySQL
首先,MySQL创建好数据库和表然后编写各个模块 item.py import scrapy class JianliItem(scrapy.Item): name = scrapy.Field() ...

随机推荐

vue+node+mongoose踩过的坑
1.当你在cmd中输入npm run dev的时候,出现这种错误很有可能是目前的端口被占用了,可以把所有可能用到这个端口号的应用关闭或者你直接改一个新的端口号修改端口的方法:新打开一个cmd,然后 ...
Arcgis Javascript中geometryEngine报错’hq‘of undefined的解决方法
这个问题困扰了我一个星期,原因是使用geomagicbuffer时候,有的线可正常使用,有的就直接报错,一直没有解决,后来发现是api自己的bug导致的干脆直接读代码,在geometryEngine ...
Android（java）学习笔记41：Map集合功能概述
1. 下面通过代码引入Map集合: 如下 package cn.itcast_01; import java.util.HashMap; import java.util.Map; /* * 作为学生 ...
编程思想的理解（POP,OOP,SOA,AOP） x
http://blog.chinaunix.net/uid-29417436-id-4060980.html 1)POP--面向过程编程(Process-oriented programming ): ...
java线程池系列(1)-ThreadPoolExecutor实现原理
前言做java开发的,一般都避免不了要面对java线程池技术,像tomcat之类的容器天然就支持多线程. 即使是做偏后端技术,如处理一些消息,执行一些计算任务,也经常需要用到线程池技术. 鉴于线程池 ...
Consider defining a bean of type 'package' in your configuration [Spring-Boot]
https://stackoverflow.com/questions/40384056/consider-defining-a-bean-of-type-package-in-your-config ...
maven学习记录二——依赖管理
5 依赖管理 Jar包的管理需求:整合struts2 页面上传一个客户id 跳转页面 5.1 添加依赖: 打开maven仓库的视图: 5.2 重建索引 1. 创建m ...
Mysql之inner join，left join，right join详解
首先借用官方的解释下: inner join(等值连接):只返回两个表中联结字段相等的行: left join(左联接):返回包括左表中的所有记录和右表中联结字段相等的记录: right join(右 ...
LINQ to XML简介
我们的配置文件使用XML存储信息.ADO.NET的DataSet(利用扩展方法)可以方便的将数据保存(或加载)为XML..NET特有的XML API,如XmlReader/XmlWriter类.微端提 ...
video object detection
先说一下,我觉得近两年最好的工作吧.其他的,我就不介绍了,因为我懂得少. 微软的jifeng dai的工作. Deep Feature Flow github: https://github.co ...

Python3爬虫（八） 数据存储之TXT、JSON、CSV

Python3爬虫（八） 数据存储之TXT、JSON、CSV的更多相关文章

随机推荐

热门专题

Python3爬虫（八）数据存储之TXT、JSON、CSV

Python3爬虫（八）数据存储之TXT、JSON、CSV的更多相关文章