初识python 之爬虫：使用正则表达式爬取“古诗文”网页数据

通过requests、re(正则表达式) 爬取“古诗文”网页数据。

详细代码如下：

#!/user/bin env python

# author:Simple-Sir

# time:2019/7/31 22:01

# 爬取古诗文网页数据

import re

import requests

def getHtml(page):

    '''

    获取网页数据

    :param page:  页数

    :return:  网页html数据(文本格式)

    '''

    headers = {

        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36'

    }

    url = 'https://www.gushiwen.org/default_{}.aspx'.format(page)  # 获取几页数据

    respons = requests.get(url,headers=headers)

    html = respons.text

    return html

def getText(html):

    titles = re.findall(r'<div class="cont">.*?<b>(.*?)</b>',html,re.DOTALL)  # 获取标题 re.DOTALL 匹配所有字符，包含\n（.无法匹配\n）

    caodai = re.findall(r'<p class="source">.*?<a.*?>(.*?)</a>',html,re.DOTALL)  # 获取朝代

    author = re.findall(r'<p class="source">.*?<a.*?>.*?<a.*?>(.*?)</a>',html,re.DOTALL)  # 获取朝代

    contents = re.findall(r'<div class="contson".*?>(.*?)</div>',html,re.DOTALL)  # 获取内容，包含标签符号

    con_texts =[] # 内容，不含标签符号

    for i in contents:

        rsub = re.sub('<.*?>','',i)

        con_texts.append(rsub.strip()) # strip 去空格

    si = []

    for v in zip(titles,caodai,author,con_texts):

        bt, cd, zz, nr = v

        s = {

            '标题':bt,

            '朝代': cd,

            '作者': zz,

            '内容': nr

        }

        si.append(s)

    return si

def main():

    p = int(input('您想要获取多少页的数据？\n'))

    for page in range(1,p+1):

        print('第{}页数据：'.format(page))

        html = getHtml(page)

        text = getText(html)

        for i in text:

            print(i)

if __name__ == '__main__':

    main()

爬取“古诗文”网页数据

执行结果：

初识python 之爬虫：使用正则表达式爬取“古诗文”网页数据的更多相关文章

Python网络爬虫与如何爬取段子的项目实例
一.网络爬虫 Python爬虫开发工程师,从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页 ...
Python 网络爬虫 002 (入门) 爬取一个网站之前，要了解的知识
网站站点的背景调研 1. 检查 robots.txt 网站都会定义robots.txt 文件,这个文件就是给网络爬虫来了解爬取该网站时存在哪些限制.当然了,这个限制仅仅只是一个建议,你可以遵守,也 ...
python从爬虫基础到爬取网络小说实例
一.爬虫基础 1.1 requests类 1.1.1 request的7个方法 requests.request() 实例化一个对象,拥有以下方法 requests.get(url, *args) r ...
基础爬虫，谁学谁会，用requests、正则表达式爬取豆瓣Top250电影数据！
爬取豆瓣Top250电影的评分.海报.影评等数据! 本项目是爬虫中最基础的,最简单的一例: 后面会有利用爬虫框架来完成更高级.自动化的爬虫程序. 此项目过程是运用requests请求库来获取h ...
python网络爬虫之四简单爬取豆瓣图书项目
一.爬虫项目一: 豆瓣图书网站图书的爬取: import requests import re content = requests.get("https://book.douban.com ...
【Python网络爬虫三】爬取网页新闻
学弟又一个自然语言处理的项目,需要在网上爬一些文章,然后进行分词,刚好牛客这周的是从一个html中找到正文,就实践了一下.写了一个爬门户网站新闻的程序需求: 从门户网站爬取新闻,将新闻标题,作者,时 ...
Python爬虫：为什么你爬取不到网页数据
前言: 之前小编写了一篇关于爬虫为什么爬取不到数据文章(文章链接为:Python爬虫经常爬不到数据,或许你可以看一下小编的这篇文章), 但是当时小编也是胡乱编写的,其实里面有很多问题的,现在小编重新发 ...
精通python网络爬虫之自动爬取网页的爬虫代码记录
items的编写 # -*- coding: utf-8 -*- # Define here the models for your scraped items # # See documentati ...
Python 网络爬虫实战：爬取 B站《全职高手》20万条评论数据
本周我们的目标是:B站(哔哩哔哩弹幕网 https://www.bilibili.com )视频评论数据. 我们都知道,B站有很多号称“镇站之宝”的视频,拥有着数量极其恐怖的评论和弹幕.所以这次我们的 ...

随机推荐

安装本地jar包到仓库
1. 下载并解压 sdk 包本地文件夹下 2. 进入项目目录执行以下操作之前,先确定 maven 的 settings 文件中配置的仓库地址是否为本项目的仓库地址,如果不是,则会安装到其他仓库 ...
【C/C++】vector 动态二维数组
声明 vector<vector<int> vec; //赋值思路可以从这个很基础的操作里看出来 vector<int> a; a.push_back(1); a.pus ...
Java常用类，这一次帮你总结好！
常用类常用类概述: 内部类 Object类包装类数学类时间类字符串 String Builder和StringBuffer DecimalFormat 一.内部类概念:在一个类内部再定义一 ...
Redis版本历史
目录 Redis4.0 Redis3.2 Redis3.0 Redis2.8 Redis2.6 Redis4.0 可能出乎很多人的意料,Redis3.2之后的版本是4.0,而不是3.4.3.6.3.8 ...
[BUUCTF]REVERSE——[GXYCTF2019]luck_guy
[GXYCTF2019]luck_guy 附件步骤: ida载入,shift+f12查看程序里的字符串,看到了关于flag的提示双击跟进跳转,ctrl+x找到关键函数 flag是由f1和f1拼接而 ...
Vlookup大叔与一对多查找（Excel函数集团）
所谓一对多查找,就是根据一个条件,把多个符合条件的结果全部找出来. 其实吧,一对多查找不是什么,尤其是O365的Filter函数横空出世震撼全场之后,简直就是瞬间把所有传统的数组解法甩出去七八十来条街 ...
基于GDI和D3D的抓屏技术
GDI32Api.Direct3D屏幕截图最近因为工作需要,认真研究了一下屏幕截图的方法. 最主要的方法有两种,一.调用windows GDI32 API函数.二.使用DirectX9.0来实现. ...
ACwing02.01背包问题
有\(N\)件物品和一个容量是\(V\)的背包.每件物品只能使用一次. 第\(i\)件物品的体积是\(v_i\),价值是\(w_i\). 求解将哪些物品装入背包,可使这些物品的总体积不超过背包容量,且 ...
SpringBoot 上传文件功能
注意事项: springboot默认有以下文件配置要求, 可以自行在配置文件里面修改 spring: servlet: multipart: enabled: true #是否处理上传 max-fil ...
7、滑动窗口套路算法框架——Go语言版
前情提示:Go语言学习者.本文参考https://labuladong.gitee.io/algo,代码自己参考抒写,若有不妥之处,感谢指正关于golang算法文章,为了便于下载和整理,都已开源放在 ...

初识python 之 爬虫：使用正则表达式爬取“古诗文”网页数据

初识python 之 爬虫：使用正则表达式爬取“古诗文”网页数据的更多相关文章

随机推荐

热门专题

初识python 之爬虫：使用正则表达式爬取“古诗文”网页数据

初识python 之爬虫：使用正则表达式爬取“古诗文”网页数据的更多相关文章