xpath+多进程爬取八零电子书百合之恋分类下所有小说。

代码

# 需要的库

import requests

from lxml import etree

from multiprocessing import Pool

import os

# 请求头

headers = {

    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36'

}

# 创建存储路径

pathname = './八零电子书/'

if not os.path.exists(pathname):

    os.mkdir(pathname)

# 获取书籍列表

def get_booklist(url):

    try:

        response = requests.get(url=url,headers=headers)

        etrees = etree.HTML(response.text)

        sum = etrees.xpath('//a[@class="last"]/text()')[0]

        booklist = etrees.xpath('//div[@class="book_bg"]/a/@href')

        pool.map(get_book,booklist)

        urls = ['http://www.quanshuwang.com/list/3_{}.html'.format(i) for i in range(2,int(sum)+1)]

        pool.map(get_booklist,urls)

    except Exception:

        print('get_booklist failed')

# 获取具体书籍

def get_book(url):

    try:

        response = requests.get(url=url, headers=headers)

        etrees = etree.HTML(response.text)

        mulu = etrees.xpath('//a[@id="read_book"]/@href')[1]

        get_mulu(mulu)

    except  Exception:

        print('get_book failed')

# 获取书籍目录

def get_mulu(url):

    try:

        response = requests.get(url=url, headers=headers)

        etrees = etree.HTML(response.text)

        zhangjie = etrees.xpath('//div[@id="yulan"]/li/a/@href')

        for i in zhangjie:

            get_content(i)

    except Exception:

        print('get_mulu failed')

# 获取书籍内容

def get_content(url):

    try:

        response = requests.get(url=url, headers=headers)

        etrees = etree.HTML(response.text.encode(response.encoding).decode(response.apparent_encoding))

        book_name = etrees.xpath('//p[@class="text"]/a/text()')[1]

        zhangjie = etrees.xpath('//div[@class="date"]/h1/text()')[0]

        contents = etrees.xpath('//div[@id="content"]/text()')

        print(zhangjie+'..正在下载')

        f = open(pathname+book_name+'.txt','a+',encoding='utf-8')

        f.write(zhangjie+'\n\n')

        for con in contents:

            f.write(con+'\n')

        f.close()

    except Exception:

        print('get_content failed')

# 程序入口

if __name__ == '__main__':

    url = 'https://www.80txt.la/sort5/1.html'

    # 创建进程池

    pool = Pool()

    # 启动函数

    get_booklist(url)

控制台输出

E:\anaconda\python.exe E:/练习/最后阶段/0809/八零电子书.py

1第一章 捡到个小雌性..正在下载

01 遗嘱..正在下载

第一章 捡了东西不一定能换到钱..正在下载

2第二章 摔出了地球..正在下载

02 异变..正在下载

3第三章 这是个高科技世界..正在下载

第二章 爷爷！您是我的亲爷爷..正在下载

03 手镯..正在下载

第三章 不在新手村混的新手..正在下载

4第四章 所谓杌力..正在下载

第一章 我会打架..正在下载

04长生..正在下载

打开文件夹查看是否下载成功

done。

xpath+多进程爬取八零电子书百合之恋分类下所有小说。的更多相关文章

xpath+多进程爬取全书网纯爱耽美类别的所有小说。
# 需要的库 import requests from lxml import etree from multiprocessing import Pool import os # 请求头 heade ...
使用Xpath+多进程爬取诗词名句网的史书典籍类所有文章。update~
上次写了爬取这个网站的程序,有一些地方不完善,而且爬取速度较慢,今天完善一下并开启多进程爬取,速度就像坐火箭.. # 需要的库 from lxml import etree import reques ...
xpath+多进程爬取网易云音乐热歌榜。
用到的工具,外链转换工具网易云网站直接打开源代码里面并没有对应的歌曲信息,需要对url做处理, 查看网站源代码路径:发现把里面的#号去掉会显示所有内容, 右键打开的源代码路径:view-source ...
代理ip的使用以及多进程爬取
一.代理皮的简单使用简单的看一二例子即可 import requests #代理ip 高频的ip容易被封,所以使用ip代理 #免费代理 ip:www.goubanjia.com 快代理西祠代理 h ...
python+BeautifulSoup+多进程爬取糗事百科图片
用到的库: import requests import os from bs4 import BeautifulSoup import time from multiprocessing impor ...
requests+xpath+map爬取百度贴吧
# requests+xpath+map爬取百度贴吧 # 目标内容:跟帖用户名,跟帖内容,跟帖时间 # 分解: # requests获取网页 # xpath提取内容 # map实现多线程爬虫 impo ...
python爬取 “得到” App 电子书信息
前言文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: 静觅崔庆才 PS:如有需要Python学习资料的小伙伴可以加点击下 ...
python+正则+多进程爬取糗事百科图片
话不多说,直接上代码: # 需要的库 import requests import re import os from multiprocessing import Pool # 请求头 header ...
使用进程池模拟多进程爬取url获取数据，使用进程绑定的回调函数去处理数据
1 # 使用requests请求网页,爬取网页的内容 2 3 # 模拟使用进程池模拟多进程爬取网页获取数据,使用进程绑定的回调函数去处理数据 4 5 import requests 6 from mu ...

随机推荐

【转】kettle7.1资源库无法打开，找不到connect按钮的问题处理
转自:https://www.aboutyun.com/home.php?mod=space&uid=71645&do=blog&id=3535 kettle是一个比较好用的E ...
Python的网页解析库-PyQuery
PyQuery库也是一个非常强大又灵活的网页解析库,如果你有前端开发经验的,都应该接触过jQuery,那么PyQuery就是你非常绝佳的选择,PyQuery 是 Python 仿照 jQuery 的严 ...
IntelliJ Idea 常用10款插件（提高开发效率）
出自:https://blog.csdn.net/weixin_41846320/article/details/82697818 插件安装方式: 1.Background Image Plus 这款 ...
git中配置的.gitignore不生效的解决办法
通常我们希望放进仓库的代码保持纯净,即不要包含项目开发工具生成的文件,或者项目编译后的临时文件.但是,当我们使用git status查看工作区状态的时候,总会提示一些文件未被track.于是,我们想让 ...
kafka安装linux版
安装实战 kafka安装包下载(注意:这里选择的安装包是2.11系列的1.1.0版本的) wget https://archive.apache.org/dist/kafka/1.1.0/kafka_ ...
GPU机器安装paddle
安装基础包 yum -y install epel-release yum -y install kernel-devel yum -y install dkms 编辑文件 /etc/default/ ...
SpringBoot整合websocket
1.新增pom依赖 <dependency> <groupId>org.springframework.boot</groupId> <artifactId& ...
DataTable Distinct
DataView dataView = dtTemp.DefaultView; DataTable dataTableDistinct = dataView.ToTable(true, "U ...
Django框架之第二篇--app注册、静态文件配置、form表单提交、pycharm连接数据库、django使用mysql数据库、表字段的增删改查、表数据的增删改查
本节知识点大致为:静态文件配置.form表单提交数据后端如何获取.request方法.pycharm连接数据库,django使用mysql数据库.表字段的增删改查.表数据的增删改查一.创建app,创 ...
Linux基础(05)socket编程
Linux的核心思想之一 "一切皆文件" 内容 , socket在Linux内核的实现的代码及TCP和UDP的实现网络编程常用头文件: https://blog.csdn.net ...

xpath+多进程爬取八零电子书百合之恋分类下所有小说。

xpath+多进程爬取八零电子书百合之恋分类下所有小说。的更多相关文章

随机推荐

热门专题