初识python 之爬虫：使用正则表达式爬取“糗事百科

详细代码如下：

#!/user/bin env python

# author:Simple-Sir

# time:2019/8/1 14:50

# 爬取糗事百科(文字)网页数据

import requests,re

URLHead = 'https://www.qiushibaike.com'

def getHtml(url):

    headers = {

        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36'

    }

    respons = requests.get(url,headers=headers)

    html = respons.text

    return html

def getInfos(url):

    html = getHtml(url)

    authors = re.findall(r'<h2>\n(.*?)\n</h2>',html,re.DOTALL)  # 获取作者

    author_sex_lvl = re.findall(r'<div class="articleGender (.*?)Icon">(\d*?)</div>',html,re.DOTALL)  # 获取作者性别、等级

    author_sex = []  # 性别

    author_lvl = []  # 等级

    for i in author_sex_lvl:

        author_sex.append(i[0])

        author_lvl.append(i[1])

    contentHerf = re.findall(r'<a href="(/article.*?)".*?class="contentHerf"',html,re.DOTALL)[1:]  # 获取“详细页”href

    cont = []  # 内容

    for contentUrl in contentHerf:

        contentHerf_all = URLHead + contentUrl

        contentHtml = getHtml(contentHerf_all)  # 详细页html

        contents = re.findall(r'<div class="content">(.*?)</div>',contentHtml,re.DOTALL)

        content_br = re.sub(r'<br/>','',contents[0])  # 剔除</br>标签

        content = re.sub(r'\\xa0','',content_br)

        cont.append(content)

    infos = []

    for i in zip(authors,author_sex,author_lvl,cont):

        author,sex,lvl,text=i

        info ={

            '作者':author,

            '性别': sex,

            '等级': lvl,

            '内容': text

        }

        infos.append(info)

    return infos

def main():

    page = int(input('您想获取前几页的数据？\n'))

    for i in range(1,page+1):

        url = 'https://www.qiushibaike.com/text/page/{}'.format(i)

        print('正在爬取第{}页数据：'.format(i))

        for t in getInfos(url):

            print(t)

        print('第{}页数据已爬取完成。'.format(i))

    print('所有数据已爬取完成！')

if __name__ == '__main__':

    main()

爬取糗事百科(文字)网页数据

执行结果：

初识python 之爬虫：使用正则表达式爬取“糗事百科 - 文字版”网页数据的更多相关文章

python+正则提取+ip代理爬取糗事百科文字信息
很多网站都有反爬措施,最常见的就是封ip,请求次数过多服务器会拒绝连接,如图: 在程序中设置一个代理ip,可有效的解决这种问题,代码如下: # 需要的库 import requests import ...
python_爬虫一之爬取糗事百科上的段子
目标抓取糗事百科上的段子实现每按一次回车显示一个段子输入想要看的页数,按 'Q' 或者 'q' 退出实现思路目标网址:糗事百科使用requests抓取页面 requests官方教程使用 ...
爬取糗事百科热门段子的数据并保存到本地，xpath的使用
和之前的爬虫类博客的爬取思路基本一致: 构造url_list,因为糗事百科的热门栏目默认是13页,所以这个就简单了遍历发送请求获取响应提取数据,这里用的是xpath提取,用的是Python的第三方 ...
芝麻HTTP：Python爬虫实战之爬取糗事百科段子
首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来. 友情提示糗事百科在前一段时间进行了改版,导致之前的代码没法用了,会导致无法输出和CPU占用过高的 ...
python 爬虫实战1 爬取糗事百科段子
首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来. 本篇目标抓取糗事百科热门段子过滤带有图片的段子实现每按一次回车显示一个段子的发布时间,发布人 ...
Python爬虫实战之爬取糗事百科段子
首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来. 友情提示糗事百科在前一段时间进行了改版,导致之前的代码没法用了,会导致无法输出和CPU占用过高的 ...
Python爬虫实战之爬取糗事百科段子【华为云技术分享】
首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来. 友情提示糗事百科在前一段时间进行了改版,导致之前的代码没法用了,会导致无法输出和CPU占用过高的 ...
2019基于python的网络爬虫系列，爬取糗事百科
**因为糗事百科的URL改变,正则表达式也发生了改变,导致了网上许多的代码不能使用,所以写下了这一篇博客,希望对大家有所帮助,谢谢!** 废话不多说,直接上代码. 为了方便提取数据,我用的是beaut ...
21天打造分布式爬虫-Spider类爬取糗事百科（七）
7.1.糗事百科安装 pip install pypiwin32 pip install Twisted-18.7.0-cp36-cp36m-win_amd64.whl pip install sc ...

随机推荐

【Matlab】find函数用法
find(A):返回向量中非零元素的位置注意返回的是位置的脚标 //类似python,还是很好用的如果是二维矩阵,是先横行后列的 b=find(a),a是一个矩阵,查询非零元素的位置如果X是一个 ...
Markdown随时记录
Markdown学习推荐文本编译器 Typora 标题(支持六级) 一级标题:# + 空格 + 内容二级标题:## + 空格 + 内容三级标题:### + 空格 + 内容 . . . 字体粗体 ...
C++11 标准库 bind 函数
bind 是什么? bind 顾名思义: 绑定通俗来讲呢,可以这么理解有点像函数指针的意思. 资料上是这么讲的:可以将 bind 函数看做一个通用函数的适配器,它接受一个可调用对象,生成一个新的可以 ...
how2heap学习(一)
接下来的时间会通过how2heap学习堆的知识,这个系列可能会更新很多篇,因为每天学习到的东西要保证吸收消化,所以一天不会学习很多,但是又想每天记录一下.所以开个系列. first_fit 此题的源码 ...
java 常用类库：格式化NumberFormat；SimpleDataFormat类(转换Data()对象)；DateTimeFormatter 转换LocalDateTime时间对象
NumberFormat类该类是一个做数字格式化的类,它是一个抽象类,无法实例化.它提供了parse()和format()方法,其中format用于将数值,格式转化成字符串,parse()用于把字符 ...
Python3 第五周大纲（模块，导入方法、import本质，导入优化，模块的分类）
1.定义: 模块:逻辑上组织python代码(变量.函数.类.逻辑:实现一个功能,本质是.py结尾的文件) 2.导入方法 import module_name,module_name2,...... ...
textarea控件好奇怪啊，用<s:if>标签居然不在一行回出现很多的空格，奇葩啊
textarea控件好奇怪啊,用<s:if>标签居然不在一行回出现很多的空格,奇葩啊
分享自己做的一个指定进程以及线程长时间cpu监控的工具
前言: 前面给大家分享过一个工作中用到的编译拷贝脚本,其实工作中还有一些其他工具的使用,今天再来分享一个自己纯手工的CPU监控的脚本.大家可以结合上篇文章与本篇文章一起学习shell. 主要实现功能: ...
SpringBoot整合Netty实现socket通讯简单demo
依赖 <dependency> <groupId>io.netty</groupId> <artifactId>netty-all</artifa ...
JAVA实现调用默认浏览器打开网页
/** * @title 使用默认浏览器打开 * @param url 要打开的网址 */ private static void browse2(String url) throws Excepti ...

初识python 之 爬虫：使用正则表达式爬取“糗事百科 - 文字版”网页数据

初识python 之 爬虫：使用正则表达式爬取“糗事百科 - 文字版”网页数据的更多相关文章

随机推荐

热门专题

初识python 之爬虫：使用正则表达式爬取“糗事百科 - 文字版”网页数据

初识python 之爬虫：使用正则表达式爬取“糗事百科 - 文字版”网页数据的更多相关文章