python_爬虫一之爬取糗事百科上的段子

目标

抓取糗事百科上的段子
实现每按一次回车显示一个段子
输入想要看的页数，按 'Q' 或者 'q' 退出

实现思路

目标网址：糗事百科
使用requests抓取页面 requests官方教程
使用bs4模块解析页面，获取内容 bs4官方教程

代码内容：

 import requests

 from bs4 import BeautifulSoup

 def get_content(pages):  # get jokes list

     headers = {'user_agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) Apple\

     WebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.87 Safari/537.36'}  # 用户代理

     content_list = []

     for page in range(1, pages+1):  # 想看多少页

         url = 'http://www.qiushibaike.com/text/page/' + str(page) + '/?s=4928950'

         response = requests.get(url, headers=headers)  # 获取网页内容

         html = response.text

         soup = BeautifulSoup(html, 'html5lib')  # 解析网页内容

         jokes = soup.find_all('div', class_='content')

         for each in jokes:

             each_joke = each.get_text()

             joke = each_joke.replace('\n', '')  # 将换行符替换

             content_list.append(joke)

     return content_list  # 返回段子列表

 if __name__ == "__main__":

     number = int(input("How many pages do you want to read?\nIf you want to quit, just press 'q'.\n"))  # 输入想要看的页数

     print()  # 换行，便于阅读

     for paragraph in get_content(number):

         print(paragraph)

         user_input = input()

         if user_input == 'q':  # 按'q'退出

             break

结果展示：

参考：

Python爬虫实战一之爬取糗事百科段子

http://www.jianshu.com/p/19c846daccb3

静谧的爬虫教程：https://cuiqingcai.com/990.html

爬取段子参考：http://www.jianshu.com/p/0e7d1c80b8c3

python_爬虫一之爬取糗事百科上的段子的更多相关文章

芝麻HTTP：Python爬虫实战之爬取糗事百科段子
首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来. 友情提示糗事百科在前一段时间进行了改版,导致之前的代码没法用了,会导致无法输出和CPU占用过高的 ...
python 爬虫实战1 爬取糗事百科段子
首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来. 本篇目标抓取糗事百科热门段子过滤带有图片的段子实现每按一次回车显示一个段子的发布时间,发布人 ...
Python爬虫实战之爬取糗事百科段子
首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来. 友情提示糗事百科在前一段时间进行了改版,导致之前的代码没法用了,会导致无法输出和CPU占用过高的 ...
Python爬虫实战之爬取糗事百科段子【华为云技术分享】
首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来. 友情提示糗事百科在前一段时间进行了改版,导致之前的代码没法用了,会导致无法输出和CPU占用过高的 ...
21天打造分布式爬虫-Spider类爬取糗事百科（七）
7.1.糗事百科安装 pip install pypiwin32 pip install Twisted-18.7.0-cp36-cp36m-win_amd64.whl pip install sc ...
2019基于python的网络爬虫系列，爬取糗事百科
**因为糗事百科的URL改变,正则表达式也发生了改变,导致了网上许多的代码不能使用,所以写下了这一篇博客,希望对大家有所帮助,谢谢!** 废话不多说,直接上代码. 为了方便提取数据,我用的是beaut ...
爬虫——URL模块爬取糗事百科段子
最简单的爬取网页找有用信息,难点应该是正则锁定有用信息部分,看了一些其他大神的正则,最后还是决定按照自己理解写一个,果然我头脑相对简单,写出来的粗糙而易理解,也完成了自己想要的需求,就这样了~ # - ...
爬虫--使用scrapy爬取糗事百科并在txt文件中持久化存储
工程目录结构 spiders下的first源码 # -*- coding: utf- -*- import scrapy from firstBlood.items import Firstblood ...
python爬虫——利用BeautifulSoup4爬取糗事百科的段子
import requests from bs4 import BeautifulSoup as bs #获取单个页面的源代码网页 def gethtml(pagenum): url = 'http: ...

随机推荐

Lind.DDD.Repositories.EF层介绍
回到目录 Lind.DDD.Repositories.EF以下简称Repositories.EF,之所以把它从Lind.DDD中拿出来,完全出于可插拔的考虑,让大家都能休会到IoC的魅力,用到哪种方法 ...
entityframework学习笔记--002-database first
1.实体框架紧紧地和Visual Studio集成在一起,为了在你的应用程序中使用实体框架,我们增加一个ADO.NET实体数据框架到你的项目.方法如下: 右键你的项目,然后选择 ➤New Item(新 ...
【原创-算法-实现】异步HTTP请求操作
一.说明 1) 这个类是我在真实项目中,优化解决真实问题时,不参考第三方代码,完全由自己查阅MSDN官方文档 , 完成的一个真实生产环境中使用的功能类 2) 读者在使用此类时,请尊重原创,在代码 ...
JS网站右下角悬浮视窗可关闭广告
效果体验:http://hovertree.com/texiao/js/4.htm 网站右下角悬浮视窗可关闭广告代码,可收缩.展开,关闭,内容区可自定义html,兼容IE8+.FireFox.Chro ...
Eclipse开发环境设置(Maven+Spring MVC+Flex)
1. 环境设置 1.1. Java环境设置 1)JAVA_HOME D:\GreenSoftware\Java\Java8X64\jdk1.8.0_91 2)PATH ;%JAVA_HOME%/bin ...
SharePoint 2013 自定义扩展菜单（二）
接博文<SharePoint 2013 自定义扩展菜单>,多加了几个例子,方便大家理解. 例七列表设置菜单扩展(listedit.aspx) 扩展效果 XML描述 <CustomA ...
教你开发asp.net的单点登录系统
单点登录系统,简称SSO.以下是我花了几个小时写的一个简单实现.特把实现思路和大家分享. 背景:某项目使用ASP.NET MemberShip来做会员系统,需要同时登录多个系统.而项目的开发人员无法在 ...
SqlServer--模糊查询-通配符
查询所有姓张的同学Select * from student where left(sName,1)='张' 看上去很美,如果改成查询名字中带亮的学生怎么做?换一种做法 like Select ...
MS SQL错误：SQL Server failed with error code 0xc0000000 to spawn a thread to process a new login or connection. Check the SQL Server error log and the Windows event logs for information about possible related problems
早晨宁波那边的IT人员打电话告知数据库无法访问了.其实我在早晨也发现Ignite监控下的宁波的数据库服务器出现了异常,但是当时正在检查查看其它服务器发过来的各类邮件,还没等到我去确认具体情 ...
python基础(八)面向对象的基本概念
作者:Vamei 出处:http://www.cnblogs.com/vamei 欢迎转载,也请保留这段声明.谢谢! 谢谢逆水寒龙,topmad和Liqing纠错 Python使用类(class)和对 ...

python_爬虫一之爬取糗事百科上的段子

目标

实现思路

代码内容：

结果展示：

python_爬虫一之爬取糗事百科上的段子的更多相关文章

随机推荐

热门专题