python-day8爬虫基础之数据存储

数据存储，在爬虫中也是十分的重要，因为我们要把我们想要的数据保存到本地，其中最简单直接的就是保存为文件文本，比如：TXT、JSON、CSV等等，除此之外，我们还可以将其保存到数据库中，常见的数据库类型有关系型数据库（MySQL）和非关系型数据库（MongoDB、Redis）。今天主要是看着书学习了一下TXT文本存储。

TXT文本存储的操作比较简单，同样也有一个就是不利于检索，上代码（爬取知乎“发现”页面的热门话题）：

import requests

from pyquery import PyQuery as pq

url = 'http://www.zhihu.com/explore'

headers = {

    'Accept': 'image/webp,image/*,*/*;q=0.8',

    'Accept-Language':'zh-CN,zh;q=0.8',

    'Referer':'https://www.zhihu.com/explore',

    'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.221 Safari/537.36 SE 2.X MetaSr 1.0'

}

html = requests.get(url,headers = headers).text

# print(html)

doc = pq(html)

# print(doc)

items = doc('.explore-tab .feed-item').items()

for item in items:

    question = item.find('h2').text()

    author = item.find('.author-link-line').text()

    answer = pq(item.find('.content').html()).text()

    with open('zhuhu.txt', 'a',encoding='utf-8') as file:

        file.write('\n'.join([question,author,answer]))

        file.write('\n' + '=' *50 + '\n')

print("ok")

其中，我们主要用到了pyquery解析。还有一个需要解释的就是

with open('zhihu.txt', 'a',encoding='utf-8') as file:
中的zhihu.txt就是我们要保存的文件名称和类型，encoding='utf-8就是解码操作，如果不解码，返回的是二进制字符串，是无法正常阅读的，所以我们需要对其进行解码。

a代表的是以追加方式打开一个文件，如果该文件已经存在，文件指针就会自动放到文件结尾，如果文件不存在，就会创建新的文件来写入。除了a之外，还有几个，下边一一介绍：
r：以只读方式打开一个文件，文件的指针自动放到文件的开头。
rb：以二进制只读方式打开一个文件，文件的指针自动放到文件的开头。
r+：以读写方式打开一个文件，文件的指针自动放到文件的开头。
rb+：以二进制读写方式打开一个文件，文件的指针自动放到文件的开头。
w：以写入方式打开一个文件，如果文件已经存在，则将其覆盖，如果文件不存在，则创建新的文件。
wb：以二进制写入方式打开一个文件，如果文件已经存在，则将其覆盖，如果文件不存在，则创建新的文件。
w+：以读写方式打开一个文件，如果文件已经存在，则将其覆盖，如果文件不存在，则创建新的文件。
ab：以二进制追加方式打开一个文件，如果文件已经存在，则文件指针会放在文件结尾，如果有新的内容，会写入到已有内容的后边；如果文件不存在，则创建新的文件。
a+：以读写方式打开一个文件，如果文件已经存在，则文件指针会放在文件结尾，文件打开时会是追加模式，如果文件不存在，则创建新的文件。
ab+：以二进制追加方式打开一个文件。如果文件已经存在，则文件指针将会放在文件结尾，如果文件不存在，则创建新文件用于读写。

python-day8爬虫基础之数据存储的更多相关文章

Python多线程爬虫与多种数据存储方式实现(Python爬虫实战2)
1. 多进程爬虫对于数据量较大的爬虫,对数据的处理要求较高时,可以采用python多进程或多线程的机制完成,多进程是指分配多个CPU处理程序,同一时刻只有一个CPU在工作,多线程是指进程内部有多个类 ...
05.Python网络爬虫之三种数据解析方式
引入回顾requests实现数据爬取的流程指定url 基于requests模块发起请求获取响应对象中的数据进行持久化存储其实,在上述流程中还需要较为重要的一步,就是在持久化存储之前需要进行指 ...
05，Python网络爬虫之三种数据解析方式
回顾requests实现数据爬取的流程指定url 基于requests模块发起请求获取响应对象中的数据进行持久化存储其实,在上述流程中还需要较为重要的一步,就是在持久化存储之前需要进行指定数据 ...
《Python网络爬虫之三种数据解析方式》
引入回顾requests实现数据爬取的流程指定url 基于requests模块发起请求获取响应对象中的数据进行持久化存储其实,在上述流程中还需要较为重要的一步,就是在持久化存储之前需要进行指 ...
Python扫描器-爬虫基础
0x1.基础框架原理 1.1.爬虫基础爬虫程序主要原理就是模拟浏览器发送请求->下载网页代码->只提取有用的数据->存放于数据库或文件中 1.1.基础原理 1.发起HTTP请求 2 ...
Python网络爬虫之三种数据解析方式 (xpath, 正则, bs4)
引入回顾requests实现数据爬取的流程指定url 基于requests模块发起请求获取响应对象中的数据进行持久化存储其实,在上述流程中还需要较为重要的一步,就是在持久化存储之前需要进行指 ...
python从爬虫基础到爬取网络小说实例
一.爬虫基础 1.1 requests类 1.1.1 request的7个方法 requests.request() 实例化一个对象,拥有以下方法 requests.get(url, *args) r ...
Python归纳 | 爬虫基础知识
1. urllib模块库 Urllib是python内置的HTTP请求库,urllib标准库一共包含以下子包: urllib.error 由urllib.request引发的异常类 urllib.pa ...
<Android基础> (六) 数据存储 Part 1 文件存储方式
第六章数据存储 6.1 持久化技术持久化技术指将内存中的瞬时数据保存到存储设备中,保证即使在手机或电脑关机的情况下,这些数据仍然不会丢失. 主要有三种方式用于简单地实现数据持久化功能:文件存储.S ...

随机推荐

mysql多表关联更新
update 表A inner join 表B on 表A.关联字段 = 表B.关联字段 set 表a.待更新字段01 = 表B.字段01 , 表a.待更新字段021 = 表B.字段02 where ...
Java算法练习——回文数
题目链接题目描述判断一个整数是否是回文数.回文数是指正序(从左向右)和倒序(从右向左)读都是一样的整数. 示例 1 输入: 121 输出: true 示例 2 输入: -121 输出: false ...
Citrix 更新Vcenter 地址
背景:Vcenter崩溃,重新部署了一套,还是使用原有的IP地址,部署完成后Citrix无法发布虚拟机解决方案 1.Web访问Vcenter提示证书报错,安装证书,位置计算机>个人2.以管理员 ...
React + umi +antd+antv/g6 实现力图
官方示例效果:http://antv.alipay.com/zh-cn/g6/2.x/demo/net/2017-link-data.html 改编效果: 实现步骤: 环境:nodejs.yarn/n ...
C 的printf函数
头文件 #include <stdio.h> printf函数是最常用的格式化输出函数,原型为:int printf(char *format,......); printf函数会根据参数 ...
学习spring的第二天
对昨天的查漏:关于<bean>标签的scope属性,是由它决定原型和单例的,而不是说你java代码中用到了单例模式就是单例了. 其二就是lazy-init属性,它对于scope=" ...
trove database功能总结
我曾经以为trove只负责数据库(datastore)的部署,最近才发现trove可以进行数据库(database)的创建. 首先是列出某个实例上(instance)数据库(datastrore)上的 ...
unzip 小坑
unzip test.zip 直接将zip解压到当前目录下,保留test级目录. unzip test.war 直接将.war解压到当前目录,不保留test级目录,所以建议使用 unzip test. ...
Mysql时间范围分区（RANGE COLUMNS方式）
1.创建测试表 CREATE TABLE `t_test` ( `id` ), `dates` DATETIME ); ALTER TABLE t_test ADD PRIMARY KEY (id); ...
adaboost 基于错误提升分类器
引自(机器学习实战) 简单概念 Adaboost是一种弱学习算法到强学习算法,这里的弱和强学习算法,指的当然都是分类器,首先我们需要简单介绍几个概念. 1:弱学习器:在二分情况下弱分类器的错误率会低于 ...

python-day8爬虫基础之数据存储

python-day8爬虫基础之数据存储的更多相关文章

随机推荐

热门专题