python-爬虫-史书典籍

import requests

import os

from lxml import html

import time

def get_title_url(tree):

    '''一级  获取标题'''

    # 史书典籍

    # 格式：/book/sanguoyanyi.html

    History_book_url_list = tree.xpath("//div[@class='index-li'][3]/ul/li/a/@href")

    # 格式：三国演义

    History_book_name_list = tree.xpath("//div[@class='index-li'][3]/ul/li/a/text()")

    return History_book_url_list,History_book_name_list

def get_article_url(tree):

    '''二级  获取文章标题'''

    # 三国演义典籍

    # 格式：/book/sanguoyanyi/1.html

    book_url_list = tree.xpath("//div[@class='book-mulu']/ul/li/a/@href")

    # 格式：第一回·宴桃园豪杰三结义  斩黄巾英雄首立功

    book_name_list = tree.xpath("//div[@class='book-mulu']/ul/li/a/text()")

    return book_url_list,book_name_list

def get_article(tree):

    '''三级  获取文章内容'''

    # 第一回·宴桃园豪杰三结义  斩黄巾英雄首立功

    # 格式：/book/sanguoyanyi/1.html

    article_list = tree.xpath("//div[@class='chapter_content']/p/text()")

    return ''.join(article_list)

def get_request(url,headers):

    '''获取页面'''

    response = requests.get(url=url,headers=headers)

    tree = html.fromstring(response.text)

    return tree

def save_mkdir(two):

    '''三级  保存文章夹'''

    # 一级文件夹

    if os.path.exists('史书典籍'):

        pass

    else:

        os.mkdir('史书典籍')

    # 二级文件夹

    if os.path.exists('史书典籍/'+ two):

        pass

    else:

        os.mkdir('史书典籍/'+ two)

def police_2(a):

    '''二级中断检测'''

    b = None

    if os.path.exists('史书典籍/police_2.txt'):

        with open('史书典籍/police_2.txt', 'r') as f:

            b = f.read()

            f.close()

            if b is None:

                return True

            elif b is '':

                return True

            if a < int(b):

                return False

    # 写入并返回True

    with open('史书典籍/police_2.txt', 'w') as f:

        f.write(str(a))

        f.close()

        return True

def police_3(a):

    '''三级中断检测'''

    b = None

    if os.path.exists('史书典籍/police_3.txt'):

        with open('史书典籍/police_3.txt', 'r') as f:

            b = f.read()

            f.close()

            if b is None:

                return True

            elif b is '':

                return True

            if a < int(b):

                return False

    # 写入并返回True

    with open('史书典籍/police_3.txt', 'w') as f:

        f.write(str(a))

        f.close()

        return True

def main():

    '''主函数'''

    # 根路由

    root = 'http://www.shicimingju.com'

    # 头部

    headers = {

        'user-agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.87 Safari/537.36'

    }

    # 获取root页面

    tree1 = get_request(root,headers)

    # 获取一级名字和路由

    History_book_url_list, History_book_name_list = get_title_url(tree1)

    # 获取二级页面

    for i in range(len(History_book_url_list)):

        if police_2(i) is False:

            continue

        # 二级路由

        url2 = root + History_book_url_list[i]

        print("爬取>>>"+History_book_name_list[i]+'开始')

        tree2 = get_request(url2,headers)

        # 获取二级名字和路由

        book_url_list,book_name_list = get_article_url(tree2)

        # 文章夹保存

        save_mkdir(History_book_name_list[i])

        # 下载文章

        for j in range(len(book_url_list)):

            if police_3(j) is False:

                continue

            time.sleep(1)

            # 三级路由

            url3 = root + book_url_list[j]

            print("爬取:" + book_name_list[j])

            # 文章

            tree3 = get_request(url3, headers)

            txt = get_article(tree3)

            # 文章标题

            txt_name = book_name_list[j]

            # 文章保存

            file_path = '史书典籍/{}/{}.txt'.format(History_book_name_list[i],(txt_name.replace(' ','')).replace('·',''))

            with open(file_path,'w',encoding='utf-8') as f:

                f.write(txt)

                f.close()

        print("爬取>>>" + History_book_name_list[i] + '结束')

if __name__ == '__main__':

    main()

python-爬虫-史书典籍的更多相关文章

Python 爬虫模拟登陆知乎
在之前写过一篇使用python爬虫爬取电影天堂资源的博客,重点是如何解析页面和提高爬虫的效率.由于电影天堂上的资源获取权限是所有人都一样的,所以不需要进行登录验证操作,写完那篇文章后又花了些时间研究了 ...
python爬虫成长之路（一）：抓取证券之星的股票数据
获取数据是数据分析中必不可少的一部分,而网络爬虫是是获取数据的一个重要渠道之一.鉴于此,我拾起了Python这把利器,开启了网络爬虫之路. 本篇使用的版本为python3.5,意在抓取证券之星上当天所 ...
python爬虫学习(7) —— 爬取你的AC代码
上一篇文章中,我们介绍了python爬虫利器--requests,并且拿HDU做了小测试. 这篇文章,我们来爬取一下自己AC的代码. 1 确定ac代码对应的页面如下图所示,我们一般情况可以通过该顺序 ...
python爬虫学习(6) —— 神器 Requests
Requests 是使用 Apache2 Licensed 许可证的 HTTP 库.用 Python 编写,真正的为人类着想. Python 标准库中的 urllib2 模块提供了你所需要的大多数 H ...
批量下载小说网站上的小说（python爬虫）
随便说点什么因为在学python,所有自然而然的就掉进了爬虫这个坑里,好吧,主要是因为我觉得爬虫比较酷,才入坑的. 想想看,你可以批量自动的采集互联网上海量的资料数据,是多么令人激动啊! 所以我就被 ...
python 爬虫（二）
python 爬虫 Advanced HTML Parsing 1. 通过属性查找标签:基本上在每一个网站上都有stylesheets,针对于不同的标签会有不同的css类于之向对应在我们看到的标签可能 ...
Python 爬虫1——爬虫简述
Python除了可以用来开发Python Web之后,其实还可以用来编写一些爬虫小工具,可能还有人不知道什么是爬虫的. 一.爬虫的定义: 爬虫——网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区 ...
Python爬虫入门一之综述
大家好哈,最近博主在学习Python,学习期间也遇到一些问题,获得了一些经验,在此将自己的学习系统地整理下来,如果大家有兴趣学习爬虫的话,可以将这些文章作为参考,也欢迎大家一共分享学习经验. Pyth ...
[python]爬虫学习（一）
要学习Python爬虫,我们要学习的共有以下几点(python2): Python基础知识 Python中urllib和urllib2库的用法 Python正则表达式 Python爬虫框架Scrapy ...
python爬虫学习(1) —— 从urllib说起
0. 前言如果你从来没有接触过爬虫,刚开始的时候可能会有些许吃力因为我不会从头到尾把所有知识点都说一遍,很多文章主要是记录我自己写的一些爬虫所以建议先学习一下cuiqingcai大神的 Pyth ...

随机推荐

【idea】idea 2018.2 for mac永久破解激活方法（亲测2099）
1. 下载安装idea: 2. 下载激活Jar包链接:https://pan.baidu.com/s/1NaxYrDNi2eW66epjmk10dg 密码:aec5 3. 在访达中新建/Librar ...
Linux下mount存储盘遇到的错误
一.注意点 1.超过1T的盘,创建的分区要查看是否初始化为了GPT格式. 2.如果新添加的盘是从存储上挂载的,涉及到多路径的问题,挂载的是多路径的盘符,比如:/dev/mapper/mpatha(对应 ...
ant-design-vue 修改组件样式
/deep/ .ant-input { border-radius: 50px; }
java常见问题 ——运行报错1
错误1 打印乱码相关代码 response.getWriter().print(tbItem.toString()); response.setContentType("text/html ...
分析 JUnit 框架源代码
本文转载至http://www.ibm.com/developerworks/cn/java/j-lo-junit-src/ 分析 JUnit 框架源代码理解 JUnit 测试框架实现原理和设计模式 ...
【CUDA 基础】3.1 CUDA执行模型概述
title: [CUDA 基础]3.1 CUDA执行模型概述 categories: CUDA Freshman tags: CUDA SM SIMT SIMD Fermi Kepler toc: t ...
java中如何根据函数查询引用的jar包
选中函数,按Ctrl+Shift+T,就可以弹出对应的jar包地址例如:
mysql中in查询中排序
mysql中in查询条件的时候,很多时候排序是不规则的,如何按照in里面的条件进行排序呢? mysql中给出了办法,在in后面加order by field,order by field的首个条件是按 ...
Kamil and Making a Stream
E. Kamil and Making a Stream 参考:Codeforces Round #588 (Div. 2)-E. Kamil and Making a Stream-求树上同一直径上 ...
【知识库】-数据库_MySQL之高级数据查询:去重复、组合查询、连接查询、虚拟表
简书作者:seay 文章出处: 关系数据库SQL之高级数据查询:去重复.组合查询.连接查询.虚拟表回顾:[知识库]-数据库_MySQL之基本数据查询:子查询.分组查询.模糊查询 Learn [已经过 ...

python-爬虫-史书典籍

python-爬虫-史书典籍的更多相关文章

随机推荐

热门专题