使用requests爬取小说

实现：

import requests

import re

import time

def get_chapter(aim_url):

    '''

    获取小说章节名称和对应的url地址

    :param aim_url:小说目录页url

    :return:章节名和url的字典

    '''

    ret = requests.get(aim_url)

    content = ret.content.decode('gbk')

    li = re.findall('<li><a.*</li>',content)    #获取小说章节的地址

    url_dic = {}

    for i in li:

        print(i)

        chapter = re.search(r'">.*</a',i).group()[:-]

        url = aim_url + re.search(r'[0-9]{7}.html',i).group()

        url_dic[chapter] = url

    return url_dic

def get_content(chapter_url):

    '''

    获取小说内容

    :param chapter_url:章节名和url的字典

    :return:

    '''

    requests.adapters.DEFAULT_RETRIES = 

    for chapter,url in chapter_url.items():

        try:

            ret = requests.get(url).content.decode('gbk')

        except requests.exceptions.ConnectionError:

            print('连接太快了..等等')

            time.sleep()

            ret = requests.get(url).content.decode('gbk')

        #匹配正文

        ret = ret.replace('\n','')

        content = re.search(r'<div id="content" class="content">.*chapterpage',ret).group()[:]

        #替换正文中的html标签

        content = content.replace('&nbsp;',' ')

        content = content.replace('<br />', ' ')

        content = content.replace('&#039', '')

        #将内容写入文件中

        with open('novel.txt',mode='a',encoding='utf-8') as f:

            f.write(chapter+'\n')

            f.write(content)

            f.write('\n\n')

        print(chapter)

if __name__ == '__main__':

    li =  get_chapter('https://www.9dxs.com/2/2348/index.html')

    get_content(li)

遇到的问题：

爬取一半时，抛出了requests.exceptions.ConnectionError异常

分析：

请求连接数太多
请求速度过快

解决：

设置默认重连数：
```
requests.adapters.DEFAULT_RETRIES = 5
```

捕捉异常，等待5秒后再重试

try:

            ret = requests.get(url).content.decode('gbk')

except requests.exceptions.ConnectionError:

            print('连接太快了..等等')

            time.sleep()

            ret = requests.get(url).content.decode('gbk')

使用requests爬取小说的更多相关文章

python爬虫——爬取小说 | 探索白子画和花千骨的爱恨情仇(转载)
转载出处:药少敏 ,感谢原作者清晰的讲解思路! 下述代码是我通过自己互联网搜索和拜读完此篇文章之后写出的具有同样效果的爬虫代码: from bs4 import BeautifulSoup imp ...
Python3爬取小说并保存到文件
问题 python课上,老师给同学们布置了一个问题,因为这节课上学的是正则表达式,所以要求利用python爬取小说网的任意小说并保存到文件. 我选的网站的URL是'https://www.biquka ...
Python实战项目网络爬虫之爬取小说吧小说正文
本次实战项目适合,有一定Python语法知识的小白学员.本人也是根据一些网上的资料,自己摸索编写的内容.有不明白的童鞋,欢迎提问. 目的:爬取百度小说吧中的原创小说<猎奇师>部分小说内容 ...
requests爬取百度音乐
使用requests爬取百度音乐,我想把当前热门歌手的音乐信息爬下来. 首先进行url分析,可以看到: 歌手网页: 薛之谦网页: 可以看到,似乎这些路劲的获取一切都很顺利,然后可以写代码: # -*- ...
python之爬取小说
继上一篇爬取小说一念之间的第一章,这里将进一步展示如何爬取整篇小说 # -*- coding: utf- -*- import urllib.request import bs4 import re ...
用Python爬取小说《一念永恒》
我们首先选定从笔趣看网站爬取这本小说. 然后开始分析网页构造,这些与以前的分析过程大同小异,就不再多叙述了,只需要找到几个关键的标签和user-agent基本上就可以了. 那么下面,我们直接来看代码. ...
Scrapy爬取小说简单逻辑
Scrapy爬取小说简单逻辑一准备工作 1)安装Python 2)安装PIP 3)安装scrapy 4)安装pywin32 5)安装VCForPython27.exe ........... 具体 ...
Requests爬取网页的编码问题
Requests爬取网页的编码问题 import requests from requests import exceptions def getHtml(): try: r=requests.get ...
python3下BeautifulSoup练习一（爬取小说）
上次写博客还是两个月以前的事,今天闲来无事,决定把以前刚接触python爬虫时的一个想法付诸行动:就是从网站上爬取小说,这样可以省下好多流量(^_^). 因为只是闲暇之余写的,还望各位看官海涵:不足之 ...

随机推荐

HDU 4506
EASY题,快速幂... #include <iostream> #include <cstdio> #include <cstring> #include < ...
Android解决使用findViewById时须要对返回值进行类型转换问题的辅助类
在我们的开发工作时,findViewById可能是用得最多的函数之中的一个.但它特别讨厌的地方就是我们常常须要对返回的view进行类型转换,输入麻烦.代码丑陋,比如曾经我们在Activity中找一些子 ...
怎样预置Android 手机 APK
预制APK有下面4种情况: 1, 怎样将带源代码的 APK 预置进系统? 2, 怎样将无源代码的APK预置进系统? 3, 怎样预置APK使得用户能够卸载,恢复出厂设置时不能恢复? 4, 怎样预置APK ...
Opencv绘制最小外接矩形、最小外接圆
Opencv中求点集的最小外结矩使用方法minAreaRect,求点集的最小外接圆使用方法minEnclosingCircle. minAreaRect方法原型: RotatedRect minAre ...
day63-webservice 10.jquery的调用webservice小练习
客户端是采用jquery方式来做调用.但是这种调用,因为jquery这种调用你就得有消息体.我们得先拿到这种消息体.PersonService这个服务类有两个方法. http://localhost: ...
php保存远程图片
php获取远程图片并把它保存到本地来源: 时间:2013-09-05 19:26:57 阅读数:45006 分享到:1 [导读] 在php中我们经常使用写一些简单的采集功能,这样可以自动把远 ...
shp系列（五）——利用C++进行shp文件的写（创建）
之前介绍了shp文件.dbf文件和shx文件的的读取,接下来将分别介绍它们的创建过程.一般来说,读和写的一一对应的,写出的文件就是为了保存数据供以后读取的.写的文件要符合shapefile的标准.之前 ...
B - Expression
Problem description Petya studies in a school and he adores Maths. His class has been studying arith ...
JS form 表单收集数据 formSerialize
做后台系统的时候通常会用到form表单来做数据采集:每次一个字段一个字段的去收集就会很麻烦,网站也有form.js插件可以进行表单收集,并封装成一个对象,通过ajax方法传到后台:现在介绍一种直觉采集 ...
批量插入 SqlBulkCopy的测试
关于SqlBulkCopy的测试最近要做.net关于sql大量插入,找到了sqlbulkcopy(自己google下,应该很多说明了)这个好东西,于是测试下性能,用了三个方法对比: 1)直接用ado ...

使用requests爬取小说

使用requests爬取小说的更多相关文章

随机推荐

热门专题