Python3编写网络爬虫08-数据存储方式一-文件存储

数据存储

用解析器解析出数据之后，就是存储数据了。保存的形式可以多种多样，最简单的形式是直接保存为文本文件，
如TXT JSON CSV等。另外还可以保存到数据库中，如关系型数据库MySQL 非关系型数据库MongoDB Redis等

一、文件存储

1.TXT文本存储

将数据保存到TXT文本的操作非常简单，而且TXT文本几乎兼容任何平台，缺点是不利于检索。
所以针对检索和数据结构要求不高，追求方便第一的话，可以采用TXT文本存储。

1.1 目标保存知乎上 “发现” 页面的 “热门话题”部分，提取标题、回答者、回答保存到文本，
统一保存成文本形式。

利用到的方法 requests pyquery解析库解析。

完整代码方法不一目标达成即可

import requests#导入requests模块

from pyquery import PyQuery as pq #导入pyquery解析库

url = 'http://www.zhihu.com/explore'#目标url

headers = {

'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.80 Safari/537.36'

}

html = requests.get(url,headers=headers).text#发送请求 响应网页内容

doc = pq(html)#初始化

items = doc('.explore-tab .feed-item').items()#找到目标节点 返回生成器

# print(items)

for item in items:

question = item.find('h2').text()# 标题 h2节点下的文本内容

author = item.find('.author-link-line').text()#回答者 span节点里a节点 文本

answer = pq(item.find('.content').html()).text()#回答 textarea标签中 文本 先提取HTML文本 在用text（）提取纯文本

file = open('explore.txt','a',encoding='utf-8')#打开文件 追加 编码格式

file.write('\n'.join([question,author,answer]))#join函数 连接字符串

file.write('\n' + '=' * 50 + '\n')#分割线

file.close()#关闭文件

1.2 文件打开方式

文件打开的几种访问模式
访问模式说明

r    以只读方式打开文件。文件的指针将会放在文件的开头。这是默认模式。

w    打开一个文件只用于写入。如果该文件已存在则将其覆盖。如果该文件不存在，创建新文件。

a    打开一个文件用于追加。如果该文件已存在，文件指针将会放在文件的结尾。也就是说，新的内容将会被写入到已有内容之后。如果该文件不存在，创建新文件进行写入。

rb    以二进制格式打开一个文件用于只读。文件指针将会放在文件的开头。这是默认模式。

wb    以二进制格式打开一个文件只用于写入。如果该文件已存在则将其覆盖。如果该文件不存在，创建新文件。

ab    以二进制格式打开一个文件用于追加。如果该文件已存在，文件指针将会放在文件的结尾。也就是说，新的内容将会被写入到已有内容之后。如果该文件不存在，创建新文件进行写入。

r+    打开一个文件用于读写。文件指针将会放在文件的开头。

w+    打开一个文件用于读写。如果该文件已存在则将其覆盖。如果该文件不存在，创建新文件。

a+    打开一个文件用于读写。如果该文件已存在，文件指针将会放在文件的结尾。文件打开时会是追加模式。如果该文件不存在，创建新文件用于读写。

rb+    以二进制格式打开一个文件用于读写。文件指针将会放在文件的开头。

wb+    以二进制格式打开一个文件用于读写。如果该文件已存在则将其覆盖。如果该文件不存在，创建新文件。

ab+    以二进制格式打开一个文件用于追加。如果该文件已存在，文件指针将会放在文件的结尾。如果该文件不存在，创建新文件用于读写。

1.3 简化写法

with as with 控制模块结束时文件会自动关闭

with open('explore.txt','a',encoding='utf-8') as file:

file.write('\n'.join([question,author,answer]))

file.write('\n' + '=' * 50 + '\n')

以上就是python将结果保存为TXT文件的方法简单易用，操作高效，是一种最基本的保存数据方法。

Python3编写网络爬虫08-数据存储方式一-文件存储的更多相关文章

python3编写网络爬虫13-Ajax数据爬取
一.Ajax数据爬取 1. 简介:Ajax 全称Asynchronous JavaScript and XML 异步的Javascript和XML. 它不是一门编程语言,而是利用JavaScript在 ...
Python3编写网络爬虫12-数据存储方式五-非关系型数据库存储
非关系型数据库存储 NoSQL 全称 Not Only SQL 意为非SQL 泛指非关系型数据库.基于键值对不需要经过SQL层解析数据之间没有耦合性性能非常高. 非关系型数据库可细分如下: 键值 ...
Python3编写网络爬虫11-数据存储方式四-关系型数据库存储
关系型数据库存储关系型数据库是基于关系模型的数据库,而关系模型是通过二维表保存的,所以它的存储方式就是行列组成的表.每一列是一个字段,每一行是一条记录.表可以看作某个实体的集合,而实体之间存在联系, ...
Python3编写网络爬虫10-数据存储方式三-CSV文件存储
3.CSV文件存储 CSV 全称 Comma-Separated Values 中文叫做逗号分隔值或者字符分隔值,文件以纯文本形式存储表格数据.文件是一个字符序列可以由任意数目的记录组成相当于一个结 ...
Python3编写网络爬虫09-数据存储方式二-JSON文件存储
2.JSON文件存储全称为JavaScript Object Notation 通过对象和数组的组合来表示数据,构造简洁且结构化程度非常高.是一种轻量级的数据交换格式 2.1 对象和数组在Java ...
python3编写网络爬虫18-代理池的维护
一.代理池的维护上面我们利用代理可以解决目标网站封IP的问题在网上有大量公开的免费代理或者我们也可以购买付费的代理IP但是无论是免费的还是付费的,都不能保证都是可用的因为可能此IP被其他人使用 ...
python3编写网络爬虫20-pyspider框架的使用
二.pyspider框架的使用简介 pyspider是由国人binux 编写的强大的网络爬虫系统 github地址 : https://github.com/binux/pyspider 官方文档 ...
python3编写网络爬虫23-分布式爬虫
一.分布式爬虫前面我们了解Scrapy爬虫框架的基本用法这些框架都是在同一台主机运行的爬取效率有限如果多台主机协同爬取爬取效率必然成倍增长这就是分布式爬虫的优势 1. 分布式爬虫基本原理 1 ...
05 Python网络爬虫的数据解析方式
一.爬虫数据解析的流程 1.指定url 2.基于requests模块发起请求 3.获取响应中的数据 4.数据解析 5.进行持久化存储二.解析方法 (1)正则解析 (2)bs4解析 (3)xpath解 ...

随机推荐

Java并发编程笔记之StampedLock锁源码探究
StampedLock是JUC并发包里面JDK1.8版本新增的一个锁,该锁提供了三种模式的读写控制,当调用获取锁的系列函数的时候,会返回一个long 型的变量,该变量被称为戳记(stamp),这个戳记 ...
当Elasticsearch遇见Kafka
欢迎大家前往腾讯云+社区,获取更多腾讯海量技术实践干货哦~ 本文由michelmu发表于云+社区专栏 Elasticsearch作为当前主流的全文检索引擎,除了强大的全文检索能力和高扩展性之外,对多种 ...
shiro教程1(HelloWorld)
shiro简介官网 Apache Shiro是一个强大且易用的Java安全框架,执行身份验证.授权.密码和会话管理.使用Shiro的易于理解的API,您可以快速.轻松地获得任何应用程序,从最小的移动 ...
Redis持久化存储与复制功能简述
一.分布式系统基础理论分布式系统的两个基础理论: 1.CAP理论如图: Consistency(强一致性):数据一致更新,所有数据变动都是同步的.Availability(可用性):好的响应性能. ...
c# 正则格式化文本防止SQL注入
/// <summary> /// 格式化文本(防止SQL注入) /// </summary> /// <param name="str">&l ...
LeetCode 键盘行-Python3.7<四>
500. 键盘行题目网址:https://leetcode-cn.com/problems/keyboard-row/hints/ 给定一个单词列表,只返回可以使用在键盘同一行的字母打印出来的单词. ...
[PHP]算法-最大子数组问题思路
最大子数组问题,股票价格示例: 1.在最高价格开始向左寻找之前的最低价格 2.在最低价格开始向右寻找之后的最高价格 3.暴力求解法,尝试每队可能的买进和卖出组合,保证卖出在买进之后 key buy s ...
在整合spring和mongodb中，提示at org.springframework.data.mapping.model.BasicPersistentEntity.findAnnotation(
遇到这种坑,找了好多资料.基本是都是因为springdata的jar包和spring的版本不兼容导致,除了这个错误之外,还有会比较多其他错误,也是版本不兼容导致的. at org.springfram ...
webpack4 系列教程: 前言
1. 什么是webpack? 前端目前最主流的javascript打包工具,在它的帮助下,开发者可以轻松地实现加密代码.多平台兼容.而最重要的是,它为前端工程化提供了最好支持.vue.react等大型 ...
linux最靠谱安装python3
linux环境编译安装python3, 最靠谱的安装方法了这个 1. 下载编译安装python的依赖软件包,只需要执行即可 yum install gcc patch libffi-devel pyt ...

Python3编写网络爬虫08-数据存储方式一-文件存储

Python3编写网络爬虫08-数据存储方式一-文件存储的更多相关文章

随机推荐

热门专题