【爬虫】biqukan抓取2.0版

#!python3.7

import requests,sys,time,logging,random

from lxml import etree

logging.basicConfig(level=logging.ERROR, format=' %(asctime)s - %(levelname)s： %(message)s') #DEBUG ERROR format显示格式可按自己喜好调整

#logging.disable(logging.CRITICAL) #调试日志是否显示开关

logging.debug('程序现在开始！') #调试日志开始标记

'''

时间：2019.3.15

功能：实现www.biqukan.com/1_1094/5403177.html小说下载为txt

版本：2.0

新增：加入了页面没有返回200成功码，异常处理；2.3功能合并；调试日志；

'''

global headers

headers={

    'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'

    }

##0.获取所有章节url

def get_url_list(catalog_url):

    res=requests.get(catalog_url,headers=headers)

    if res.status_code==200:

        text=res.text

        html=etree.HTML(text)

        hrefs=html.xpath('//div[@class="listmain"]/dl/dt[2]/following-sibling::*/a/@href')

        #logging.debug('0.获取到的章节列表是：',hrefs) #【调试0】

        return hrefs

    raise Exception('页面没有正确返回哦！'+res.text) #【调试】如果没有返回200则按错误抛出返回的状态码

##1.获取页面

def get_one_page(url):

    res=requests.get(url,headers=headers)

    if res.status_code==200:

        return res.text

    else:

        while res.status_code!=200:

            print('页面没有正确返回,正在重试请稍等哦！'+res.text)

            res=requests.get(url,headers=headers)

            time.sleep(random.randint(1, 5))

        return res.text

##2.解析页面 3.写入txt文件

def parse_one_page(text):

    html=etree.HTML(text)

    title=html.xpath('//div[@class="content"]/h1//text()')

    content=html.xpath('//div[@class="showtxt"]//text()') #去掉换行

    contents=''.join(content).replace('\xa0'*8,'\n'*2)#把列表转换为一整段文本，并把8个空格换为2个换行

    #logging.debug('2.解析到的标题是：',title)#【调试2】

    #logging.debug('2.解析到的内容是：',contents)

    #写入文件

    with open('一念永恒.txt','a',encoding='utf-8')as f:

        f.write(title[0]+'\n'+contents+'\n')

##主函数

def main():

    #0.获取章节列表的网址

    catalog_url='https://www.biqukan.com/1_1094/'

    urls=get_url_list(catalog_url)

    #把网址传入详情抓取页面，并保存

    for i in range(len(urls)):

        rel_url='https://www.biqukan.com'+urls[i]

        #1.获取一个页面text

        text=get_one_page(rel_url)

        #2.解析3.写入文件

        parse_one_page(text) 

        #显示下载进度

        sys.stdout.write("  已下载:%.3f%%" %  float(i/len(urls)) + '\n')

        sys.stdout.flush() 

##执行入口

if __name__=='__main__':

    main()

【爬虫】biqukan抓取2.0版的更多相关文章

Python爬虫：新浪新闻详情页的数据抓取（函数版）
上一篇文章<Python爬虫:抓取新浪新闻数据>详细解说了如何抓取新浪新闻详情页的相关数据,但代码的构建不利于后续扩展,每次抓取新的详情页时都需要重新写一遍,因此,我们需要将其整理成函数, ...
Golang分布式爬虫：抓取煎蛋文章|Redis/Mysql|56,961 篇文章
--- layout: post title: "Golang分布式爬虫:抓取煎蛋文章" date: 2017-04-15 author: hunterhug categories ...
Pyhton爬虫实战 - 抓取BOSS直聘职位描述和数据清洗
Pyhton爬虫实战 - 抓取BOSS直聘职位描述和数据清洗零.致谢感谢BOSS直聘相对权威的招聘信息,使本人有了这次比较有意思的研究之旅. 由于爬虫持续爬取 www.zhipin.com 网 ...
Python爬虫实战---抓取图书馆借阅信息
Python爬虫实战---抓取图书馆借阅信息原创作品,引用请表明出处:Python爬虫实战---抓取图书馆借阅信息前段时间在图书馆借了很多书,借得多了就容易忘记每本书的应还日期,老是担心自己会违约 ...
《吐血整理》高级系列教程-吃透Fiddler抓包教程(30)-Fiddler如何抓取Android7.0以上的Https包-番外篇
1.简介通过宏哥前边几篇文章的讲解和介绍想必大家都知道android7.0以上,有android的机制不在信任用户证书,导致https协议无法抓包.除非把证书装在系统信任的证书里,此时手机需要roo ...
【JAVA系列】Google爬虫如何抓取JavaScript的？
公众号:SAP Technical 本文作者:matinal 原文出处:http://www.cnblogs.com/SAPmatinal/ 原文链接:[JAVA系列]Google爬虫如何抓取Java ...
python爬虫数据抓取方法汇总
概要:利用python进行web数据抓取方法和实现. 1.python进行网页数据抓取有两种方式:一种是直接依据url链接来拼接使用get方法得到内容,一种是构建post请求改变对应参数来获得web返 ...
[Java]使用HttpClient实现一个简单爬虫，抓取煎蛋妹子图
第一篇文章,就从一个简单爬虫开始吧. 这只虫子的功能很简单,抓取到”煎蛋网xxoo”网页(http://jandan.net/ooxx/page-1537),解析出其中的妹子图,保存至本地. 先放结果 ...
Java广度优先爬虫示例(抓取复旦新闻信息)
一.使用的技术这个爬虫是近半个月前学习爬虫技术的一个小例子,比较简单,怕时间久了会忘,这里简单总结一下.主要用到的外部Jar包有HttpClient4.3.4,HtmlParser2.1,使用的开发 ...

随机推荐

Automation服务器不能创建对象（金税盘）
1. 安装防伪开票组件接口软件: 2. 把接口的注册文件放到%防伪开票系统的安装目录% \BIN下 3. 把%防伪开票系统的安装目录%\bin下的TaxCardX.dll文件复制至 c:\window ...
project proposal写作框架
主要有八个因素: 背景(Your Background):对于proposal有意义的要点,如国家职业证书.技能.经验.能力和实习经历等. 大纲(Outline Proposal):描述你明确的感兴趣 ...
Phone list（Trie树模板）
Phone List 共t组数据,给定n个长度不超过10的字符串,问其中是否存在两个数S,T,使得S是T的前缀. 存在则输出NO,不存在输出YES 输入样例#1: 2 3 911 97625999 9 ...
es6学习一 promise上
简单来说promise在异步操作上提供可读性.(原来es5的异步操作可读性实在太糟糕了,如下图) 瞬间眼前百万只奔腾的马,只不过这种马有个别名,羊驼. 一.创建形式 1. 使用的基本形式: let p ...
windows安装nginx并存放静态资源
1.将nginx-windows.zip下载下来,然后点击nginx.exe 如果一闪而过并且打开网页输入localhost显示无法访问,打开error.log文件:No mapping for th ...
MySQL 5.7 新特性大全和未来展望
引用美图公司数据库高级 DBA,负责美图后端数据存储平台建设和架构设计.前新浪高级数据库工程师,负责新浪微博核心数据库架构改造优化,以及数据库相关的服务器存储选型设计.之前在「高可用架构」发表的&l ...
ORACLE环境变量定义.md
export在linux的bash中可以理解为设置环境变量.设置后能够被当前的shell及子shell使用.这些变量的含义有一些有意义,可以查看相应的文档,我给你解释一些我知道的:ORACLE_HOM ...
010-java 表单方式或者base64方式上传图片，后端使用nutz的post转发图片到另一个请求
本地上传图片方式一.使用表单方式上传-enctype <form enctype="multipart/form-data" method="post" ...
由于找不到 MSVCR100.dll，无法继续执行代码
由于找不到 MSVCR100.dll,无法继续执行代码.重新安装程序可能会解决此问题 360软件管家中找到进行安装即可
cmd项目目录结构以及配置文件的升级编写
一.项目的目录结构: bin:执行文件夹 config:自定义配置文件 lib:公共的模块或者类文件 src:核心业务逻辑代码二.配置文件的编写 1)config代码如下 from lib.conf ...

【爬虫】biqukan抓取2.0版

【爬虫】biqukan抓取2.0版的更多相关文章

随机推荐

热门专题