python3爬虫-使用requests爬取起点小说

import requests

from lxml import etree

from urllib import parse

import os, time

def get_page_html(url):

    '''向url发送请求'''

    resoponse = session.get(url, headers=headers, timeout=timeout)

    try:

        if resoponse.status_code == 200:

            return resoponse

    except Exception:

        return None

def get_next_url(resoponse):

    '''获取下一页的url链接'''

    if resoponse:

        try:

            selector = etree.HTML(resoponse.text)

            url = selector.xpath("//a[@id='j_chapterNext']/@href")[0]

            next_url = parse.urljoin(resoponse.url, url)

            return next_url

        except IndexError:

            return None

def xs_content(resoponse):

    '''获取小说的章节名，内容'''

    if resoponse:

        selector = etree.HTML(resoponse.text)

        title = selector.xpath("//h3[@class='j_chapterName']/text()")[0]

        content_xpath = selector.xpath(

            "//div[contains(@class,'read-content') and contains(@class,'j_readContent')]//p/text()")

        return title, content_xpath

def write_to_txt(info_tuple: tuple):

    if not info_tuple: return

    path = os.path.join(BASE_PATH, info_tuple[0])

    if not os.path.exists(path):

        with open(path + ".txt", "wt", encoding="utf-8") as f:

            for line in info_tuple[1]:

                f.write(line + "\n")

            f.flush()

def run(url):

    '''启动'''

    html = get_page_html(url)

    next_url = get_next_url(html)

    info_tupe = xs_content(html)

    if next_url and info_tupe:

        print("正在写入")

        write_to_txt(info_tupe)

        time.sleep(sleep_time)  # 延迟发送请求的时间，减少对服务器的压力。

        print("正在爬取%s" % info_tupe[0])

        print("正在爬取%s" % next_url)

        run(next_url)

if __name__ == '__main__':

    session = requests.Session()

    sleep_time = 5

    timeout = 5

    BASE_PATH = r"D:\图片\LSZJ"  # 存放文件的目录

    url = "https://read.qidian.com/chapter/8iw8dkb_ZTxrZK4x-CuJuw2/fWJwrOiObhn4p8iEw--PPw2"  # 这是斗破苍穹第一章的url    需要爬取的小说的第一章的链接(url)

    headers = {

        "Referer": "read.qidian.com",

        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36"

    }

    print('开始运行爬虫')

    run(url)

python3爬虫-使用requests爬取起点小说的更多相关文章

python3爬虫-通过requests爬取图虫网
import requests from fake_useragent import UserAgent from requests.exceptions import Timeout from ur ...
python3爬虫-通过requests爬取西刺代理
import requests from fake_useragent import UserAgent from lxml import etree from urllib.parse import ...
Python3爬虫使用requests爬取lol英雄皮肤
本人博客:https://xiaoxiablogs.top 此次爬取lol英雄皮肤一共有两个版本,分别是多线程版本和非多线程版本. 多线程版本 # !/usr/bin/env python # -*- ...
使用scrapy爬虫,爬取起点小说网的案例
爬取的页面为https://book.qidian.com/info/1010734492#Catalog 爬取的小说为凡人修仙之仙界篇,这边小说很不错. 正文的章节如下图所示其中下面的章节为加密部 ...
python从爬虫基础到爬取网络小说实例
一.爬虫基础 1.1 requests类 1.1.1 request的7个方法 requests.request() 实例化一个对象,拥有以下方法 requests.get(url, *args) r ...
python3 爬虫教学之爬取链家二手房（最下面源码） //以更新源码
前言作为一只小白,刚进入Python爬虫领域,今天尝试一下爬取链家的二手房,之前已经爬取了房天下的了,看看链家有什么不同,马上开始. 一.分析观察爬取网站结构这里以广州链家二手房为例:http:/ ...
【Python3爬虫】我爬取了七万条弹幕，看看RNG和SKT打得怎么样
一.写在前面直播行业已经火热几年了,几个大平台也有了各自独特的“弹幕文化”,不过现在很多平台直播比赛时的弹幕都基本没法看的,主要是因为网络上的喷子还是挺多的,尤其是在观看比赛的时候,很多弹幕不是喷选 ...
python3 [爬虫实战] selenium 爬取安居客
我们爬取的网站:https://www.anjuke.com/sy-city.html 获取的内容:包括地区名,地区链接: 安居客详情一开始直接用requests库进行网站的爬取,会访问不到数据的, ...
【Python3 爬虫】14_爬取淘宝上的手机图片
现在我们想要使用爬虫爬取淘宝上的手机图片,那么该如何爬取呢?该做些什么准备工作呢? 首先,我们需要分析网页,先看看网页有哪些规律打开淘宝网站http://www.taobao.com/ 我们可以看到 ...

随机推荐

LGWR和DBWn的触发条件
Rolling Forward(前滚) Oracle启动实例并加载数据库,然后通过Online Redologs中的重做日志,重现实例崩溃前对数据库的修改操作.在恢复过程中对于已经提交的事务,但尚未写 ...
The Go scheduler
转载自:http://morsmachine.dk/go-scheduler Introduction One of the big features for Go 1.1 is the new sc ...
使用 Azure CLI 创建和管理 Linux VM
Azure 虚拟机提供完全可配置的灵活计算环境. 本教程介绍 Azure 虚拟机的基本部署项目,例如选择 VM 大小.选择 VM 映像和部署 VM. 你将学习如何执行以下操作: 创建并连接到 VM 选 ...
Oracle EBS 请求参数关联
spider-抓取页面内容
# -*- coding: UTF-8 -*- from HTMLParser import HTMLParser import sys,urllib2,string,re,json reload(s ...
linux rz上传文件及出错解决方案
在把Windows上的文件传至Linux端时用到SecureCRT,一般小文件都没有问题,文件太大时则出现了上传后的文件只有几K大小,当然大于2个G的是不可能传的上去的了.对于几百M到1G多的大文件要 ...
解决linux buffer/cache 消耗内存过高引发的问题
工作中接到DBA报障某台服务器跑一些大的数据,服务器就无法远程连接,报错,抓过日志叫DELL工程师检测也没问题,系统也重装过, 现在些一些较大的数据就会报如图错误,由于服务器远在异地城市IDC机房 ...
ASP.NET在IIS的启动优化设置
ASP.NET在IIS的启动优化设置约定: IIS=Internet Information Services Manager 概要因为ASP.NET 程序在第一次启动的时候需要等待太长时间,至少 ...
4-urllib库添加代理，添加请求头格式模板
urllib 库设置代理的方法案例如下:
为什么ConcurrentHashMap是弱一致的
为什么ConcurrentHashMap是弱一致的本文将用到Java内存模型的happens-before偏序关系(下文将简称为hb)以及ConcurrentHashMap的底层模型相关的知识.ha ...

python3爬虫-使用requests爬取起点小说

python3爬虫-使用requests爬取起点小说的更多相关文章

随机推荐

热门专题