使用Xpath+多进程爬取诗词名句网的史书典籍类所有文章。update~

上次写了爬取这个网站的程序，有一些地方不完善，而且爬取速度较慢，今天完善一下并开启多进程爬取，速度就像坐火箭。。

# 需要的库

from lxml import etree

import requests

from multiprocessing import Pool

# 请求头

headers = {

    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36'

}

# 保存文本的地址

pathname=r'E:\爬虫\诗词名句网\\'

# 获取书籍名称的函数

def get_book(url):

    try:

        response = requests.get(url,headers)

        etrees = etree.HTML(response.text)

        url_infos = etrees.xpath('//div[@class="bookmark-list"]/ul/li')

        urls = []

        for i in url_infos:

            url_info = i.xpath('./h2/a/@href')

            book_name = i.xpath('./h2/a/text()')[0]

            print('开始下载.'+book_name)

            urls.append('http://www.shicimingju.com' + url_info[0])

            # print('http://www.shicimingju.com'+url_info[0])

            # get_index('http://www.shicimingju.com'+url_info[0])

        # 开启多进程

        pool.map(get_index,urls)

    except Exception:

        print('get_book failed')

# 获取书籍目录的函数

def get_index(url):

    try:

        response = requests.get(url, headers)

        etrees = etree.HTML(response.text)

        url_infos = etrees.xpath('//div[@class="book-mulu"]/ul/li')

        for i in url_infos:

            url_info = i.xpath('./a/@href')

            # print('http://www.shicimingju.com' + url_info[0])

            get_content('http://www.shicimingju.com' + url_info[0])

    except Exception as e:

        print(e)

# 获取书籍内容并写入.txt文件

def get_content(url):

    try:

        response = requests.get(url, headers)

        etrees = etree.HTML(response.text)

        title = etrees.xpath('//div[@class="www-main-container www-shadow-card "]/h1/text()')[0]

        content = etrees.xpath('//div[@class="chapter_content"]/p/text()')

        if not content:

            content = etrees.xpath('//div[@class="chapter_content"]/text()')

            content = ''.join(content)

            book_name = etrees.xpath('//div[@class="nav-top"]/a[3]/text()')[0]

            with open(pathname + book_name + '.txt', 'a+', encoding='utf-8') as f:

                f.write(title + '\n\n' + content + '\n\n\n')

                print(title + '..下载完成')

        else:

            content = ''.join(content)

            book_name=etrees.xpath('//div[@class="nav-top"]/a[3]/text()')[0]

            with open(pathname+book_name+'.txt','a+',encoding='utf-8') as f:

                f.write(title+'\n\n'+content+'\n\n\n')

                print(title+'..下载完成')

    except Exception:

        print('get_content failed')

# 程序入口

if __name__ == '__main__':

    url = 'http://www.shicimingju.com/book/'

    # 开启进程池

    pool = Pool()

    # 启动函数

    get_book(url)

控制台输出；

查看文件夹，可以发现文件是多个多个的同时在下载；

done。

使用Xpath+多进程爬取诗词名句网的史书典籍类所有文章。update~的更多相关文章

使用Xpath爬虫库下载诗词名句网的史书典籍类所有文章。
# 需要的库 from lxml import etree import requests # 请求头 headers = { 'User-Agent': 'Mozilla/5.0 (Windows ...
xpath+多进程爬取网易云音乐热歌榜。
用到的工具,外链转换工具网易云网站直接打开源代码里面并没有对应的歌曲信息,需要对url做处理, 查看网站源代码路径:发现把里面的#号去掉会显示所有内容, 右键打开的源代码路径:view-source ...
xpath+多进程爬取全书网纯爱耽美类别的所有小说。
# 需要的库 import requests from lxml import etree from multiprocessing import Pool import os # 请求头 heade ...
xpath+多进程爬取八零电子书百合之恋分类下所有小说。
代码 # 需要的库 import requests from lxml import etree from multiprocessing import Pool import os # 请求头 he ...
爬取斗图网图片,使用xpath格式来匹配内容,对请求伪装成浏览器, Referer 防跨域请求
6.21自我总结一.爬取斗图网 1.摘要使用xpath匹配规则查找对应信息文件将请求伪装成浏览器 Referer 防跨域请求 2.爬取代码 #导入模块 import requests #爬取网址 ...
python爬虫基础应用----爬取校花网视频
一.爬虫简单介绍爬虫是什么? 爬虫是首先使用模拟浏览器访问网站获取数据,然后通过解析过滤获得有价值的信息,最后保存到到自己库中的程序. 爬虫程序包括哪些模块? python中的爬虫程序主要包括,re ...
selenium爬取煎蛋网
selenium爬取煎蛋网直接上代码 from selenium import webdriver from selenium.webdriver.support.ui import WebDriv ...
Scrapy实战篇（一）之爬取链家网成交房源数据（上）
今天,我们就以链家网南京地区为例,来学习爬取链家网的成交房源数据. 这里推荐使用火狐浏览器,并且安装firebug和firepath两款插件,你会发现,这两款插件会给我们后续的数据提取带来很大的方便. ...
Python Scrapy 爬取煎蛋网妹子图实例（一）
前面介绍了爬虫框架的一个实例,那个比较简单,这里在介绍一个实例爬取煎蛋网妹子图,遗憾的是上周煎蛋网还有妹子图了,但是这周妹子图变成了随手拍, 不过没关系,我们爬图的目的是为了加强实战应用,管 ...

随机推荐

VC++ 学习笔记（六）：简单C++
到现在,我觉得终于找到学习和使用C++的基本原则了——务必简单.将其看成一个带类的C,或者将其看做标准库下的C++. C++太复杂——其实这种复杂性,所有语言都有,只是多数语言都隐藏了这种复杂性,只有 ...
设置table表格的单元格间距两种方式
table表格里设置单元格td之间的间距,通常用cellspacing设置单元格间距,有时候该属性可能无效,或需要用其他方式时,可用其他方式实现,例如在背景是白色背景的时候,设置单元格td的borde ...
使用 Nginx 阻止恶意 IP 访问
找到具有明显特征的访问记录,比如: /Dec/::: +] "-" "Ouija_x.86/2.0" "-" 也许是某个开源框架的漏洞,执行 ...
locale区域语言设置
查看当前配置 # 默认配置[maintain@localhost:~]$ locale LANG=zh_CN.utf8 LC_CTYPE="zh_CN.utf8" LC_NUMER ...
tcp端口扫描与syn扫描
连接网络设备时,一般都会在网络设备端选取0-65535之间的一个端口进行连接,端口扫描是指:检查网络设备上0-65535号端口哪些端口是开启状态.如果黑客扫描到某网络设备的80端口是开启状态,那么很有 ...
AspNetCore 限流中间件IpRateLimitMiddleware 介绍
IpRateLimitMiddleware(Github: AspNetCoreRateLimit) 是ASPNETCore的一个限流的中间件,用于控制客户端调用API的频次, 如果客户端频繁访问服务 ...
Eclipse项目上传和下载到码云上
本文将介绍如何将本地的项目提交到开源中国的码云(版本控制器)上.改教程讲解过程比较详细,跟着做实现起来很简单.由于自己本身也是一个新手,所以不做过多的解释,只是单纯的描述了该如何去做,大家一起学习共同 ...
IDEA+docker实践
1.下载 https://www.jetbrains.com/ 2.下载jdk 目前在官网下载jdk的时候需要登陆,这边分享一个账号,方便下载 2696671285@qq.com 密码:Oracle1 ...
用NDK生成cURL和OpenSSL库
最近在用Qt开发Android应用时需要获取https页面内容,但Qt内置的QNetworkAccessManager类只支持下面这些协议(调用其supportedSchemes成员函数获取): (& ...
Oracle Round 函式 (四捨五入)
Oracle Round 函式 (四捨五入)描述 : 傳回一個數值,該數值是按照指定的小數位元數進行四捨五入運算的結果.SELECT ROUND( number, [ decimal_places ] ...

使用Xpath+多进程爬取诗词名句网的史书典籍类所有文章。update~

使用Xpath+多进程爬取诗词名句网的史书典籍类所有文章。update~的更多相关文章

随机推荐

热门专题