学习使用pyquery解析器爬小说

一、背景：个人喜欢在网上看小说，但是，在浏览器中阅读小说不是很方便，喜欢找到小说的txt版下载到手机上阅读，但是有些小说不太好找txt版本，考虑自己从网页上爬一爬，自己搞定小说的txt版本。正好学习一下有关爬虫技术。

二、环境及爬取目标

1、linux centos7系统

2、小说网站：http://www.xbiquge.la/15/15158 ，小说名称《汉乡》。

三、爬取思路

1、爬取目录页面，生成小说章节标题和链接网址形成的字典。

2、根据上一步得到的字典中的章节链接网址，逐一爬取各章节内容，并写入预设的txt文件中。

四、代码实现(代码文件名称：test2.py)

#-*- coding:utf-8 -*-
import requests
from pyquery import PyQuery as pq

s = requests.session()
catalog_url="http://www.xbiquge.la/15/15158/"
#小说目录页面链接
novelname="汉乡_test2.txt"
#需要生成的小说文件名
count_begin=1 #爬取的起始章节号
count_end=1491
#爬取的结束章节号。在浏览器调试页面的console（控制台），使用命令$("dd").size()得到所有dd标签的数量为1491。

#获取网页内容
def get_html(url):
    headers =
{

'User-Agent':"Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:68.0)
Gecko/20100101 Firefox/68.0",

'Accept':"text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8",

'Referer':"http://www.xbiquge.la/",

'Host':"www.xbiquge.la",

'Connection':"keep-alive"
}
#headers字典内容从小说目录页面浏览器调试器中获取
    r =
s.get(url,headers=headers,verify=False)
    r.encoding =
'utf-8'
    return
r.text

#解析目录页面,返回“标题:章节链接”字典
def parse_catalog(html):

doc=pq(html)

catalog={}
for i in
range(count_begin,
count_end+1):
#range()为左闭右开，故括号右边界应设为count_end+1

url = "http://www.xbiquge.la" + str(doc("#list > dl >
dd:nth-child(" + str(i) + ") >
a").attr('href'))
#“#list”表示名称为list的ID选择器。

title = doc("#list > dl > dd:nth-child(" + str(i) + ") >
a").text()

catalog[title] = url
    return
catalog

#解析章节页面，获取页面文字内容
def parse_html(html):

doc=pq(html)

text=doc("#content").text()
#获取ID选择器为content的文字内容

return
text

catalog_html=get_html(catalog_url)
catalog=parse_catalog(catalog_html)
#print(catalog)

'''

#调试用代码段，用于显示获取的小说章节内容
for title, url in catalog.items():

html=get_html(url)

text=parse_html(html)

print(text)
'''
with open(novelname, mode="a", encoding="utf-8") as
f:

for title,
url in catalog.items():

html=get_html(url)

text=parse_html(html)

print("正在下载-----------", title)

f.write(title)

f.write("\r\n")

f.write("\r\n")

f.write(text)

f.write("\r\n")

f.write("\r\n")
f.close()

五、爬取测试

1、测试中发现，由于小说有1491个页面需要爬取，一次性全部爬取时，由于网络或其他原因，很难成功。会显示“requests.exceptions.ConnectionError”错误。

2、考虑进行分段爬取，可通过修改count_begin和count_end变量的值来实现分段爬取。

六、爬取程序运行显示（count_begin=6，count_end=10）：

(base) [python@ELK ~]$ python test2.py
正在下载----------- 第六章破茧
正在下载----------- 第七章穿衣为礼?
正在下载----------- 第八章生死?小事耳!
正在下载----------- 第九章努力成为一个贱人
正在下载----------- 第十章徐夫人的手艺

学习使用pyquery解析器爬小说的更多相关文章

学习使用re做解析器爬小说
一.背景:近期学习python爬虫中看到,在对网页内容进行解析的技术中,re正则表达式工具也是一个很好的工具,使用re编制爬虫工具正好熟悉re正则表达式的使用. 二.环境及爬取目标 1.linux c ...
day89 DjangoRsetFramework学习---restful规范,解析器组件,Postman等
DjangoRsetFramework学习---restful规范,解析器组件,Postman等本节目录一预备知识二 restful规范三 DRF的APIView和解析 ...
Python爬虫——使用 lxml 解析器爬取汽车之家二手车信息
本次爬虫的目标是汽车之家的二手车销售信息,范围是全国,不过很可惜,汽车之家只显示100页信息,每页48条,也就是说最多只能够爬取4800条信息. 由于这次爬虫的主要目的是使用lxml解析器,所以在信息 ...
Boost学习之语法解析器--Spirit
Boost.Spirit能使我们轻松地编写出一个简单脚本的语法解析器,它巧妙利用了元编程并重载了大量的C++操作符使得我们能够在C++里直接使用类似EBNF的语法构造出一个完整的语法解析器(同时也把C ...
springMVC学习七视图解析器
在springMVC中,如果不配置视图解析器,会走默认的视图解析器,但是有时候配置视图解析器,还有一定的作用 <bean id="viewResolver" class=&q ...
【P4语言学习】Parser解析器
参考文章:王垠:谈谈Parser 簡單介紹 P4 語言(一)- Parser 什么是Parser 传统的parser,一般出现在编译器和编译原理课程中,援引<谈谈Parser>的定义: 首 ...
学习SpringMVC——说说视图解析器
各位前排的,后排的,都不要走,咱趁热打铁,就这一股劲我们今天来说说spring mvc的视图解析器(不要抢,都有位子~~~) 相信大家在昨天那篇如何获取请求参数篇中都已经领略到了spring mvc注 ...
vert.x学习（四），使用模板解析器ClassLoaderTemplateResolver
在vert.x中使用模板解析,可以为我们带来很多方便.我这里学习了一下ClassLoaderTemplateResolver的简单使用.这次工程配置与上篇一样,不需要做任何多的配置.直接编写代码就可以 ...
DjangoRestFramework 学习之restful规范 APIview 解析器组件 Postman等
DjangoRestFramework学习一之restful规范.APIview.解析器组件.Postman等本节目录一预备知识二 restful规范三 DRF的APIView和解析器组件 ...

随机推荐

前端——Vue-cli 通过UI页面创建项目
在使用该教程创建项目时请先安装vue ui,具体安装方法请百度 1.打开CMD,输入vue ui 2.点击创建按钮,选择项目目录 3.填写项目名 4.配置项目选择项目所需要的模块
P1714切蛋糕(不定区间最值)
题面今天是小Z的生日,同学们为他带来了一块蛋糕.这块蛋糕是一个长方体,被用不同色彩分成了N个相同的小块,每小块都有对应的幸运值. 小Z作为寿星,自然希望吃到的第一块蛋糕的幸运值总和最大,但小Z最多又 ...
网络流 I - Fox And Dinner CodeForces - 510E
Fox Ciel is participating in a party in Prime Kingdom. There are n foxes there (include Fox Ciel). T ...
python地图投影转换
一.投影包osr与proj4的使用 1.osr投影转换示例 from osgeo import osr,ogr#定义投影#wgs84source=osr.SpatialReference()sourc ...
Appium+Python-项目实践一
一.前言前面讲了环境搭建和常用的元素定位,后续会持续以项目实践的方式去慢慢学习以及整理各方面的知识点,具体不会详细阐述,但会贴上完整代码,想要了 ...
【Spark】SparkStreaming和Kafka的整合
文章目录 Streaming和Kafka整合概述使用0.8版本下Receiver DStream接收数据进行消费步骤一.启动Kafka集群二.创建maven工程,导入jar包三.创建一个k ...
Linux之V4L2基础编程
Linux之V4L2基础编程本文内容来源于网络,本博客进行整理. 1. 定义 V4L2(Video For Linux Two) 是内核提供给应用程序访问音.视频驱动的统一接口. 2. 工作流程: ...
[hdu4576]dp
题意:1-n围成1圈,从1出发,第i次走a[i]步,问走m次后出现在[L,R]的概率L<=R. 思路:明显的DP,把编号变成0~n-1,令dp[i][j]表示走完i步之前停在了j上,则有dp[i ...
threading模块—Python多线程编程
Threading 模块 threading 模块除了提供基本的线程和锁定支持外,还提供了更高级别.功能更全面的线程管理.threading 模块支持守护线程,其工作方式是:守护线程一般是一个等待客户 ...
C++17结构化绑定
动机 std::map<K, V>的insert方法返回std::pair<iterator, bool>,两个元素分别是指向所插入键值对的迭代器与指示是否新插入元素的布尔值, ...

学习使用pyquery解析器爬小说

学习使用pyquery解析器爬小说的更多相关文章

随机推荐

热门专题