python爬虫——利用BeautifulSoup4爬取糗事百科的段子

 import requests

 from bs4 import BeautifulSoup as bs

 #获取单个页面的源代码网页

 def gethtml(pagenum):

     url = 'http://www.qiushibaike.com/hot/page/'+str(pagenum)+'/?s=4949992'

     req = requests.get(url,headers = Headers)

     html = req.text

     #print(html)

     return html

 #获取单个页面的所有段子

 def getitems(pagenum):

     html = gethtml(pagenum)

     soup = bs(html,"html.parser")

     f = soup.find_all('div','content')

     items =[]

     for x in f:

         #print(x.get_text())

         items.append(x.get_text())

     #print(items)

     return items

 #分别打印单个页面的所有段子

 def getduanzi(pagenum):

     n = 0

     for x in getitems(pagenum):

         n +=1

         print('第%d条段子：\n%s' % (n,x))

 #分别打印所有页面的段子

 def getall(bginpage,endpage):

     try:

         for pagenum in range(int(bginpage),int(endpage)+1):

             print(('----------华丽丽的分割线【第%d页】----------'% pagenum).center(66))

             getduanzi(pagenum)

     except:

         print('页码输入错误，只接收正整数输入。')   

 if __name__ == '__main__':

     Headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'}

     bginpage = input('输入起始页：').strip()

     endpage = input('输入终止页：').strip()

     getall(bginpage,endpage)

python爬虫——利用BeautifulSoup4爬取糗事百科的段子的更多相关文章

芝麻HTTP：Python爬虫实战之爬取糗事百科段子
首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来. 友情提示糗事百科在前一段时间进行了改版,导致之前的代码没法用了,会导致无法输出和CPU占用过高的 ...
python 爬虫实战1 爬取糗事百科段子
首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来. 本篇目标抓取糗事百科热门段子过滤带有图片的段子实现每按一次回车显示一个段子的发布时间,发布人 ...
Python爬虫实战之爬取糗事百科段子
首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来. 友情提示糗事百科在前一段时间进行了改版,导致之前的代码没法用了,会导致无法输出和CPU占用过高的 ...
Python爬虫实战之爬取糗事百科段子【华为云技术分享】
首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来. 友情提示糗事百科在前一段时间进行了改版,导致之前的代码没法用了,会导致无法输出和CPU占用过高的 ...
[爬虫]用python的requests模块爬取糗事百科段子
虽然Python的标准库中 urllib2 模块已经包含了平常我们使用的大多数功能,但是它的 API 使用起来让人感觉不太好,而 Requests 自称 “HTTP for Humans”,说明使用更 ...
python_爬虫一之爬取糗事百科上的段子
目标抓取糗事百科上的段子实现每按一次回车显示一个段子输入想要看的页数,按 'Q' 或者 'q' 退出实现思路目标网址:糗事百科使用requests抓取页面 requests官方教程使用 ...
爬取糗事百科热门段子的数据并保存到本地，xpath的使用
和之前的爬虫类博客的爬取思路基本一致: 构造url_list,因为糗事百科的热门栏目默认是13页,所以这个就简单了遍历发送请求获取响应提取数据,这里用的是xpath提取,用的是Python的第三方 ...
2019基于python的网络爬虫系列，爬取糗事百科
**因为糗事百科的URL改变,正则表达式也发生了改变,导致了网上许多的代码不能使用,所以写下了这一篇博客,希望对大家有所帮助,谢谢!** 废话不多说,直接上代码. 为了方便提取数据,我用的是beaut ...
21天打造分布式爬虫-Spider类爬取糗事百科（七）
7.1.糗事百科安装 pip install pypiwin32 pip install Twisted-18.7.0-cp36-cp36m-win_amd64.whl pip install sc ...

随机推荐

ThinkPHP3.2.3 PHPExcel读取excel插入数据库
版本 ThinkPHP3.2.3 下载PHPExcel 将这两个文件放到并更改名字 excel文件: 数据库表: CREATE TABLE `sh_name` ( `name` varchar(255 ...
最短路——spfa
适用范围:给定的图存在负权边,这时类似Dijkstra等算法便没有了用武之地,而Bellman-Ford算法的复杂度又过高,SPFA算法便派上用场了. 我们约定有向加权图G不存在负权回路,即最短路径一 ...
Linux命令之gdisk
gdisk -l [设备] gdisk又叫GPT fdisk,算是fdisk的延伸吧,主要使用的是GPT分区类型,用来划分容量大于2T的硬盘. 扩展1:分区类型GPT和MBR.GPT最大支持18EB( ...
centos 6.5 安装mysql 5.6.35--libc.so.6(GLIBC_2.14)(64bit)
[参考] http://blog.csdn.net/cpplang/article/details/8462768 http://www.linuxidc.com/Linux/2015-04/1160 ...
Python并发编程-进程
由于GIL(全局解释锁)的问题,多线程并不能充分利用多核处理器,如果是一个CPU计算型的任务,应该使用多进程模块 multiprocessing .它的工作方式与线程库完全不同,但是两种库的语法和接口 ...
BZOJ1016 JSOI2008最小生成树计数
定理,在所有最小生成树中,相同边权的边出现的次数相同. 由于重复边权小于10条,可以跑2^10暴力 #include<bits/stdc++.h> using namespace std; ...
POJ 2728 JZYZOJ 1636 分数规划最小生成树二分 prim
http://172.20.6.3/Problem_Show.asp?id=1636 复习了prim,分数规划大概就是把一个求最小值或最大值的分式移项变成一个可二分求解的式子. #include< ...
【9.7校内测试】【二分+spfa】【最长上升子序列】【状压DP+贪心（？）】
刘汝佳蓝书上的题,标程做法是从终点倒着$spfa$,我是二分答案正着$spfa$判断可不可行.效果是一样的. [注意]多组数据建边一定要清零啊QAQ!!! #include<iostream&g ...
bzoj 3238: [Ahoi2013]差异 -- 后缀数组
3238: [Ahoi2013]差异 Time Limit: 20 Sec Memory Limit: 512 MB Description Input 一行,一个字符串S Output 一行,一个 ...
Codeforces Round #302 (Div. 2) B. Sea and Islands 构造
B. Sea and Islands Time Limit: 20 Sec Memory Limit: 256 MB 题目连接 http://codeforces.com/contest/544/p ...

python爬虫——利用BeautifulSoup4爬取糗事百科的段子

python爬虫——利用BeautifulSoup4爬取糗事百科的段子的更多相关文章

随机推荐

热门专题