（完整）爬取数据存储之TXT、JSON、CSV存储

一、文件存储

1. TXT文本存储

代码有不明白的欢迎来微信公众号“他她自由行”找我，回复任何话都可以我都会回你哒~

例：知乎发现页面，获得数据存成TXT文本

import requests

from pyquery import PyQuery as pq

url="https://www.zhihu.com/explore"

headers={'User-Agent':'ozilla/5.0 (iPhone; CPU iPhone OS 11_3 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Mobile/15E5216a QQ/7.5.5.426 V1_IPH_SQ_7.5.5_1_APP_A Pixel/1080 Core/UIWebView Device/Apple(iPhone 8Plus) NetType/WIFI QBWebViewType/1'

        }

html=requests.get(url,headers=headers).text

doc=pq(html)

#问题列表

items=doc('.explore-tab .feed-item').items()

for item in items:

    question=item.find('h2').text()

    author=item.find('.author-link').text()

    answer=pq(item.find('.content').html()).text()

    with open('zhihu_explore.text','a',encoding='utf-8') as file:

        file.write('\n'.join([question,author,answer]))

        file.write('\n'+'='*50+'\n')

注意：

在用pyquery解析时，一定要找准属性进行匹配；
打开文件open()函数第二个参数设置为a，其他值：

   r:以只读方式打开文件

   w:以写入方式打开文件（覆盖之前文件）

   a:以追加方式打开文件（不覆盖之前文件，追加上）

   特：后面跟 + ：代表以读写方式打开文件

       后面跟 b ：代表以二进制方式打开文件

3.每次open()打开文件后都要用close()关闭，直接用 with as 语句，会自动关闭文件。

2.JSON文件存储

JSON，是JavaScript对象标记，通过对象和数组的组合来表示数据

对象：数据结构为{key1:value1,key2:value2,...}的键值对结构

数组：数据结构为['Java','javascript','vb',...]的索引结构

(1)读取JSON文件

loads():把数据从JSON文本字符串转为JSON对象

dumps():把数据从JSON对象转为文本字符串

data=json.loads(str)  //type(data)是list对象

str=json.dumps(data) //type(str)是字符串

获取属性值：

data[0]['name'] 或

data[0].get('name')     //两种方式获取第一个元素的name属性的值；

       .get('name',tom) //.get()方式更好：当没有name值时，会报None且可以用用第二个参数设定默认值

读取：

import json

 with open('data.json','r') as file:

    str=file.read()

    data=json.loads(str)

注意：

JSON的数据需要双引号来包围。
在data.json文件中是以字符串存在，读取时要用loads()转成JSON对象来应用，存储时用dumps()把JSON对象存成字符串。

(2)输出JSON，写入文件

with open('data.json','w') as file:

    file.write(json.dumps(data,indent=2,ensure_ascii=False)) //indent是缩进个数，ensure_ascii是防止中文被编译成ascii码

3.csv文件存储

csv,叫作逗号分隔值或字符分隔值，以纯文本形式存储表格数据。

(1) 写入

import csv

with open('data.csv','w') as csvfile:

    writer=csv.writer(csvfile)  //初始化写入对象

    writer.writerow(['id','name','age'])

    writer.writerow(['10001','Mike','20'])

    writer.writerow(['10002','Bob','23'])

    writer.writerow(['10003','Jordan','21'])

这样就会生成一个data.csv文件

特：

writer=csv.writer(csvfile,delimiter=' ') 意味着将列与列间的分隔符，变成空格分隔符
writer.writerow([['10001','Mike','20'],['10002','BOb','23'],['10003','Jordan','21']])

以二维列表的形式写入
字典形式写入：

    import csv

    with open('data.csv','w') as csvfile:

        filename=['id','name','age']  //定义写入名称

        writer=csv.DictWriter(csvfile,filename=filename) //初始化一个字典写入对象

        writer.writeheader()          //写入头信息

        writer.writerow({'id':'10001','name':'Mike','age':20})

        writer.writerow({'id':'10002','name':'Bob','age':23})

注意：如果name='李明'，则要改变编码方式open('data.csv','w',encoding='utf-8') 变成中文编码

(2)读取

（1 利用csv库读取：

import csv

with open('data.csv','r','utf-8') as csvfile:

    reader=csv.reader(csvfile)

    for row  in reader:

        print(row)

//按行输出数据

（2 利用pandas读取：

(pandas是数据分析当中非常重要的一个库，在我的数据分析博客中会提及很多次)

import pandas as pd

df=pd.read_csv('data.csv')

print(df)

代码有不明白的欢迎来微信公众号“他她自由行”找我，回复任何话都可以我都会回你哒~

（完整）爬取数据存储之TXT、JSON、CSV存储的更多相关文章

Scrapy持久化存储-爬取数据转义
Scrapy持久化存储爬虫爬取数据转义问题使用这种格式,会自动帮我们转义 'insert into wen values(%s,%s)',(item['title'],item['content' ...
scrapy爬虫事件以及数据保存为txt,json,mysql
今天要爬取的网页是虎嗅网我们将完成如下几个步骤: 创建一个新的Scrapy工程定义你所需要要抽取的Item对象编写一个spider来爬取某个网站并提取出所有的Item对象编写一个Item Pi ...
scrapy爬取数据的基本流程及url地址拼接
说明:初学者,整理后方便能及时完善,冗余之处请多提建议,感谢! 了解内容: Scrapy :抓取数据的爬虫框架异步与非阻塞的区别异步:指的是整个过程,中间如果是非阻塞的,那就是异步 ...
Java分布式爬虫Nutch教程——导入Nutch工程，执行完整爬取
Java分布式爬虫Nutch教程--导入Nutch工程,执行完整爬取 by briefcopy · Published 2016年4月25日 · Updated 2016年12月11日在使用本教程之 ...
Python使用Scrapy框架爬取数据存入CSV文件(Python爬虫实战4)
1. Scrapy框架 Scrapy是python下实现爬虫功能的框架,能够将数据解析.数据处理.数据存储合为一体功能的爬虫框架. 2. Scrapy安装 1. 安装依赖包 yum install g ...
关于js渲染网页时爬取数据的思路和全过程（附源码）
于js渲染网页时爬取数据的思路首先可以先去用requests库访问url来测试一下能不能拿到数据,如果能拿到那么就是一个普通的网页,如果出现403类的错误代码可以在requests.get()方法里 ...
爬取豆瓣电影TOP 250的电影存储到mongodb中
爬取豆瓣电影TOP 250的电影存储到mongodb中 1.创建项目sp1 PS D:\scrapy> scrapy.exe startproject douban 2.创建一个爬虫 PS D: ...
【Spider】使用CrawlSpider进行爬虫时，无法爬取数据，运行后很快结束，但没有报错
在学习<python爬虫开发与项目实践>的时候有一个关于CrawlSpider的例子,当我在运行时发现,没有爬取到任何数据,以下是我敲的源代码:import scrapyfrom UseS ...
python爬取豌豆荚中的详细信息并存储到SQL Server中
买了本书<精通Python网络爬虫>,看完了第6章,我感觉我好像可以干点什么:学的不多,其中的笔记我放到了GitHub上:https://github.com/NSGUF/PythonLe ...
如何提升scrapy爬取数据的效率
在配置文件中修改相关参数: 增加并发默认的scrapy开启的并发线程为32个,可以适当的进行增加,再配置文件中修改CONCURRENT_REQUESTS = 100值为100,并发设置成了为100. ...

随机推荐

SQL LEAD()函数 LAG()函数
lag ,lead 分别是向前,向后:lag 和lead 有三个参数,第一个参数是列名,第二个参数是偏移的offset,第三个参数是超出记录窗口时的默认值) SQL> select id,na ...
杭州.Net 相关大公司，希望对大家有帮助
本人目前大四,还在实习.北京工作辞职后,打算回杭州看看.发现杭州的大公司相对北京好少啊,招.Net相关的公司就更少了... (我认为刚毕业生还是去大公司比较靠谱,一方面也是实力的体现)大学生,而且之前 ...
log4net 日志打印不全
程序用的是log4net打印日志,偶现日志打印不全的问题,程序的log4net配置如下: <log4net> <root> <level value="ALL& ...
java 实验4 异常
异常(实际使用直接try-catch) 1.常见系统异常异常异常的解释 ClassNotFoundException 未找到要装载的类 ArrayIndexOutOfBoundsException ...
P5282 【模板】快速阶乘算法（多项式运算+拉格朗日插值+倍增）
题面传送门前置芝士优化后的\(MTT\)(四次\(FFT\)) 题解这里有多点求值的做法然而被\(shadowice\)巨巨吊起来打了一顿,所以来学一下倍增成功同时拿到本题最优解和最劣解-- ...
2018 ACM-ICPC 亚洲区域赛青岛现场赛 —— Problem F. Tournament
题面:http://acm.zju.edu.cn/contest-materials/qd2018/qd2018_problems.pdf 题意: n个骑士决斗K轮要求是每个骑士只能跟另外一个骑士决 ...
二手前端入门React项目
个人对ReactJS这门技术比较感兴趣,在基友的帮助下成功创建了一个React标准前端工程,过程中遇到了不少麻烦,今天作为笔记一般记录一下遇到的问题和解决方案. 基础环境手头一台Mac 使用OSX系 ...
Libra的第一天
wuli乖乖,今天是你降生第一天,以后的几年可能我们都会朝夕相处,你的成长就是我的向上,一起加油吧
实现函数 ToLowerCase()
/** * 实现函数 ToLowerCase(),该函数接收一个字符串参数 str, 并将该字符串中的大写字母转换成小写字母,之后返回新的字符串. * 输入: "Hello" * ...
vue项目微信回退按钮处理
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content ...

（完整）爬取数据存储之TXT、JSON、CSV存储

一、文件存储

1. TXT文本存储

代码有不明白的 欢迎来微信公众号“他她自由行”找我，回复任何话都可以 我都会回你哒~

2.JSON文件存储

3.csv文件存储

代码有不明白的 欢迎来微信公众号“他她自由行”找我，回复任何话都可以 我都会回你哒~

（完整）爬取数据存储之TXT、JSON、CSV存储的更多相关文章

随机推荐

热门专题

代码有不明白的欢迎来微信公众号“他她自由行”找我，回复任何话都可以我都会回你哒~

代码有不明白的欢迎来微信公众号“他她自由行”找我，回复任何话都可以我都会回你哒~