python-day8爬虫基础之数据存储

数据存储，在爬虫中也是十分的重要，因为我们要把我们想要的数据保存到本地，其中最简单直接的就是保存为文件文本，比如：TXT、JSON、CSV等等，除此之外，我们还可以将其保存到数据库中，常见的数据库类型有关系型数据库（MySQL）和非关系型数据库（MongoDB、Redis）。今天主要是看着书学习了一下TXT文本存储。

TXT文本存储的操作比较简单，同样也有一个就是不利于检索，上代码（爬取知乎“发现”页面的热门话题）：

import requests

from pyquery import PyQuery as pq

url = 'http://www.zhihu.com/explore'

headers = {

    'Accept': 'image/webp,image/*,*/*;q=0.8',

    'Accept-Language':'zh-CN,zh;q=0.8',

    'Referer':'https://www.zhihu.com/explore',

    'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.221 Safari/537.36 SE 2.X MetaSr 1.0'

}

html = requests.get(url,headers = headers).text

# print(html)

doc = pq(html)

# print(doc)

items = doc('.explore-tab .feed-item').items()

for item in items:

    question = item.find('h2').text()

    author = item.find('.author-link-line').text()

    answer = pq(item.find('.content').html()).text()

    with open('zhuhu.txt', 'a',encoding='utf-8') as file:

        file.write('\n'.join([question,author,answer]))

        file.write('\n' + '=' *50 + '\n')

print("ok")

其中，我们主要用到了pyquery解析。还有一个需要解释的就是

with open('zhihu.txt', 'a',encoding='utf-8') as file:
中的zhihu.txt就是我们要保存的文件名称和类型，encoding='utf-8就是解码操作，如果不解码，返回的是二进制字符串，是无法正常阅读的，所以我们需要对其进行解码。

a代表的是以追加方式打开一个文件，如果该文件已经存在，文件指针就会自动放到文件结尾，如果文件不存在，就会创建新的文件来写入。除了a之外，还有几个，下边一一介绍：
r：以只读方式打开一个文件，文件的指针自动放到文件的开头。
rb：以二进制只读方式打开一个文件，文件的指针自动放到文件的开头。
r+：以读写方式打开一个文件，文件的指针自动放到文件的开头。
rb+：以二进制读写方式打开一个文件，文件的指针自动放到文件的开头。
w：以写入方式打开一个文件，如果文件已经存在，则将其覆盖，如果文件不存在，则创建新的文件。
wb：以二进制写入方式打开一个文件，如果文件已经存在，则将其覆盖，如果文件不存在，则创建新的文件。
w+：以读写方式打开一个文件，如果文件已经存在，则将其覆盖，如果文件不存在，则创建新的文件。
ab：以二进制追加方式打开一个文件，如果文件已经存在，则文件指针会放在文件结尾，如果有新的内容，会写入到已有内容的后边；如果文件不存在，则创建新的文件。
a+：以读写方式打开一个文件，如果文件已经存在，则文件指针会放在文件结尾，文件打开时会是追加模式，如果文件不存在，则创建新的文件。
ab+：以二进制追加方式打开一个文件。如果文件已经存在，则文件指针将会放在文件结尾，如果文件不存在，则创建新文件用于读写。

python-day8爬虫基础之数据存储的更多相关文章

Python多线程爬虫与多种数据存储方式实现(Python爬虫实战2)
1. 多进程爬虫对于数据量较大的爬虫,对数据的处理要求较高时,可以采用python多进程或多线程的机制完成,多进程是指分配多个CPU处理程序,同一时刻只有一个CPU在工作,多线程是指进程内部有多个类 ...
05.Python网络爬虫之三种数据解析方式
引入回顾requests实现数据爬取的流程指定url 基于requests模块发起请求获取响应对象中的数据进行持久化存储其实,在上述流程中还需要较为重要的一步,就是在持久化存储之前需要进行指 ...
05，Python网络爬虫之三种数据解析方式
回顾requests实现数据爬取的流程指定url 基于requests模块发起请求获取响应对象中的数据进行持久化存储其实,在上述流程中还需要较为重要的一步,就是在持久化存储之前需要进行指定数据 ...
《Python网络爬虫之三种数据解析方式》
引入回顾requests实现数据爬取的流程指定url 基于requests模块发起请求获取响应对象中的数据进行持久化存储其实,在上述流程中还需要较为重要的一步,就是在持久化存储之前需要进行指 ...
Python扫描器-爬虫基础
0x1.基础框架原理 1.1.爬虫基础爬虫程序主要原理就是模拟浏览器发送请求->下载网页代码->只提取有用的数据->存放于数据库或文件中 1.1.基础原理 1.发起HTTP请求 2 ...
Python网络爬虫之三种数据解析方式 (xpath, 正则, bs4)
引入回顾requests实现数据爬取的流程指定url 基于requests模块发起请求获取响应对象中的数据进行持久化存储其实,在上述流程中还需要较为重要的一步,就是在持久化存储之前需要进行指 ...
python从爬虫基础到爬取网络小说实例
一.爬虫基础 1.1 requests类 1.1.1 request的7个方法 requests.request() 实例化一个对象,拥有以下方法 requests.get(url, *args) r ...
Python归纳 | 爬虫基础知识
1. urllib模块库 Urllib是python内置的HTTP请求库,urllib标准库一共包含以下子包: urllib.error 由urllib.request引发的异常类 urllib.pa ...
<Android基础> (六) 数据存储 Part 1 文件存储方式
第六章数据存储 6.1 持久化技术持久化技术指将内存中的瞬时数据保存到存储设备中,保证即使在手机或电脑关机的情况下,这些数据仍然不会丢失. 主要有三种方式用于简单地实现数据持久化功能:文件存储.S ...

随机推荐

vue小练习--音乐播放器
1 首先建一个文件夹放几首歌曲 2 看代码 1)基本版本 <!DOCTYPE html> <html lang="zh-CN"> <head> ...
（二）requests模块
一 requests模块概念: python中原生的基于网络请求的模块,模拟浏览器进行请求发送,获取页面数据安装: pip install requests 二 requests使用的步骤 1 指 ...
UVA - 557 Burger（汉堡）（dp+概率）
题意:有n个牛肉堡和n个鸡肉堡给2n个孩子吃.每个孩子在吃之前都要抛硬币,正面吃牛肉堡,反面吃鸡肉堡.如果剩下的所有汉堡都一样,则不用抛硬币.求最后两个孩子吃到相同汉堡的概率. 分析: 1.先求最后两 ...
css设置兄弟节点的样式（相邻的前一个节点）
产品需求:想在鼠标移动到“移除”的时候,“1.产品匹配测试”添加下划线和更改字体颜色需求分析:从需求可以看出使用 :hover 就可以解决的问题,但是在实践中发现兄弟选择器(+)不好使,(+)只能是 ...
再战希捷：西部数据透露96层闪存已用于消费级SSD
导读 96层堆叠3D NAND闪存已经成为行业主流,包括西部数据这样的传统机械硬盘大厂,也在逐步普及96层闪存,并已经用于消费级SSD. 96层堆叠3D NAND闪存已经成为行业主流,包括西部数据这样 ...
LARGE_INTEGER 64位的输出格式
%016I64x 第一个016是指当最左边无数据时用00填充:后面的I64x是__int64的前缀要求格式十六进制输出.
大数据高可用集群环境安装与配置（09）——安装Spark高可用集群
1. 获取spark下载链接登录官网:http://spark.apache.org/downloads.html 选择要下载的版本 2. 执行命令下载并安装 cd /usr/local/src/ ...
Android自定义View——多边形网格属性图
1.初始化变量 2.属性图解 3.如果想切换到5.6.7边形等等,则必须修改下面几条数据 4.获取宽和高 5.绘制图形 1.开始画画前:我们要把画笔准备好,这里看代码就能明白意思了,接着把整个 ...
安装scrapy 爬虫框架
安装scrapy 爬虫框架个人根据学习需要,在Windows搭建scrapy爬虫框架,搭建过程种遇到个别问题,共享出来作为记录. 1.安装python 2.7 1.1下载下载地址 1.2配置环境变 ...
四、Antd组件扩展
注意:先安装扩展,在安装antd框架,否则会提示一.安装扩展 1.组件 dva 查看项目依赖原因是我全局安装,依赖为空, npm i dva 查看依赖 cli装global 当访问报错: Warn ...

python-day8爬虫基础之数据存储

python-day8爬虫基础之数据存储的更多相关文章

随机推荐

热门专题