利用python的爬虫技术爬去糗事百科的段子

初次学习爬虫技术，在知乎上看了如何爬去糗事百科的段子，于是打算自己也做一个。

实现目标：1，爬取到糗事百科的段子

2，实现每次爬去一个段子，每按一次回车爬取到下一页

技术实现：基于python的实现，利用Requests库，re库，bs4库的BeautifulSoup方法来实现的

主要内容：首先我们要理清一下爬取实现的思路，我们来构建一下主体框架。第一步我们先写一个利用Requests库来获取网页的方法，第二步我们利用bs4库的BeautifulSoup方法来分析所获取的网页信息并利用正则表达式来匹配相关的段子信息。第三步我们来打印出获得的信息。以上方法我们都通过一个主函数来进行执行。

一，首先导入相关的库

import requests
from bs4 import BeautifulSoup
import bs4
import  re

二，首先进行网页信息的获取

def getHTMLText(url):
    try:
        user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
        headers = {'User-Agent': user_agent}
        r = requests.get(url,headers = headers)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return ""

三，把信息放到r后再进行解析

soup = BeautifulSoup(html,"html.parser")

我们需要的是段子的内容和发布人，通过网页的查看源代码我们知道段子的发布人在：

'div', attrs={'class': 'content'}中

段子的内容在

'div', attrs={'class': 'author clearfix'}中

所以我们通过bs4库的方法来提取这两个标签的具体内容

def fillUnivlist(lis,li,html,count):
    soup = BeautifulSoup(html,"html.parser")
    try:
        a = soup.find_all('div', attrs={'class': 'content'})
        ll = soup.find_all('div', attrs={'class': 'author clearfix'})

然后通过具体到正则表达式来获取信息

for sp in a:
    patten = re.compile(r'<span>(.*?)</span>',re.S)
    Info = re.findall(patten,str(sp))
    lis.append(Info)
    count = count + 1
for mc in ll:
    namePatten = re.compile(r'<h2>(.*?)</h2>', re.S)
    d = re.findall(namePatten, str(mc))
    li.append(d)

我们需要注意的是使用find_all以及re的findall方法返回的都是一个列表，使用正则表达式时我们只是粗略提取并没有把标签中的换行符去掉

接下来我们只需要把2个列表的内容进行组合输出就可以了

def printUnivlist(lis,li,count):
    for i in range(count):
        a = li[i][0]
        b = lis[i][0]
        print ("%s:"%a+"%s"%b)

然后我做一个输入控制函数，输入Q返回错误，退出，输入回车返回正确，进行下一页段子的加载

def input_enter():
    input1 = input()
    if input1 == 'Q':
        return False
    else:
        return True

我们通过主函数来实现所输入的控制，如果控制函数返回的是错误就不执行输出，如果返回的是正确就继续输出。我们通过一个for循环来进行加载下一页。

def main():
    passage = 0
    enable = True
    for i in range(20):
        mc = input_enter()
        if mc==True:
            lit = []
            li = []
            count = 0
            passage = passage + 1
            qbpassage = passage
            print(qbpassage)
            url = 'http://www.qiushibaike.com/8hr/page/' + str(qbpassage) + '/?s=4966318'
            a = getHTMLText(url)
            fillUnivlist(lit, li, a, count)
            number = fillUnivlist(lit, li, a, count)
            printUnivlist(lit, li, number)
        else:
            break

这里我们需要注意到是每一次for循环都会刷新一次lis【】和li【】，这样每次都可以正确输出该网页的段子内容

一下为源代码：

import requests
from bs4 import BeautifulSoup
import bs4
import  re

def getHTMLText(url):
    try:
        user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
        headers = {'User-Agent': user_agent}
        r = requests.get(url,headers = headers)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return ""

def fillUnivlist(lis,li,html,count):
    soup = BeautifulSoup(html,"html.parser")
    try:
        a = soup.find_all('div', attrs={'class': 'content'})
        ll = soup.find_all('div', attrs={'class': 'author clearfix'})
        for sp in a:
            patten = re.compile(r'<span>(.*?)</span>',re.S)
            Info = re.findall(patten,str(sp))
            lis.append(Info)
            count = count + 1
        for mc in ll:
            namePatten = re.compile(r'<h2>(.*?)</h2>', re.S)
            d = re.findall(namePatten, str(mc))
            li.append(d)
    except:
        return ""
    return count

def printUnivlist(lis,li,count):
    for i in range(count):
        a = li[i][0]
        b = lis[i][0]
        print ("%s:"%a+"%s"%b)

def input_enter():
    input1 = input()
    if input1 == 'Q':
        return False
    else:
        return True

def main():
    passage = 0
    enable = True
    for i in range(20):
        mc = input_enter()
        if mc==True:
            lit = []
            li = []
            count = 0
            passage = passage + 1
            qbpassage = passage
            print(qbpassage)
            url = 'http://www.qiushibaike.com/8hr/page/' + str(qbpassage) + '/?s=4966318'
            a = getHTMLText(url)
            fillUnivlist(lit, li, a, count)
            number = fillUnivlist(lit, li, a, count)
            printUnivlist(lit, li, number)
        else:
            break

main()

第一次做还是有很多可以优化的地方希望大家可以指出来。

利用python的爬虫技术爬去糗事百科的段子的更多相关文章

python网络爬虫--简单爬取糗事百科
刚开始学习python爬虫,写了一个简单python程序爬取糗事百科. 具体步骤是这样的:首先查看糗事百科的url:http://www.qiushibaike.com/8hr/page/2/?s=4 ...
利用python的爬虫技术爬取百度贴吧的帖子
在爬取糗事百科的段子后,我又在知乎上找了一个爬取百度贴吧帖子的实例,为了巩固提升已掌握的爬虫知识,于是我打算自己也做一个. 实现目标:1,爬取楼主所发的帖子 2,显示所爬去的楼层以及帖子题目 3,将爬 ...
[爬虫]用python的requests模块爬取糗事百科段子
虽然Python的标准库中 urllib2 模块已经包含了平常我们使用的大多数功能,但是它的 API 使用起来让人感觉不太好,而 Requests 自称 “HTTP for Humans”,说明使用更 ...
python爬虫之爬取糗事百科并将爬取内容保存至Excel中
本篇博文为使用python爬虫爬取糗事百科content并将爬取内容存入excel中保存·. 实验环境:Windows10 代码编辑工具:pycharm 使用selenium(自动化测试工具)+p ...
爬取糗事百科热门段子的数据并保存到本地，xpath的使用
和之前的爬虫类博客的爬取思路基本一致: 构造url_list,因为糗事百科的热门栏目默认是13页,所以这个就简单了遍历发送请求获取响应提取数据,这里用的是xpath提取,用的是Python的第三方 ...
python爬虫——利用BeautifulSoup4爬取糗事百科的段子
import requests from bs4 import BeautifulSoup as bs #获取单个页面的源代码网页 def gethtml(pagenum): url = 'http: ...
Python爬虫：爬取糗事百科
网上看到的教程,但是是用正则表达式写的,并不能运行,后面我就用xpath改了,然后重新写了逻辑,并且使用了双线程,也算是原创了吧#!/usr/bin/python# -*- encoding:utf- ...
python学习（十六）写爬虫爬取糗事百科段子
原文链接:爬取糗事百科段子利用前面学到的文件.正则表达式.urllib的知识,综合运用,爬取糗事百科的段子先用urllib库获取糗事百科热帖第一页的数据.并打开文件进行保存,正好可以熟悉一下之前学过 ...
Python爬虫实战之爬取糗事百科段子【华为云技术分享】
首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来. 友情提示糗事百科在前一段时间进行了改版,导致之前的代码没法用了,会导致无法输出和CPU占用过高的 ...

随机推荐

Python学习--15 日期和时间
获取当前时间 # coding: utf-8 from datetime import datetime now = datetime.now() print(now) print(now.strft ...
Program terminated with signal SIGKILL,Killed
车载后视镜机器,Liinux + qtUI形式,前后双路,前一天晚上开机用gdb run DvrUI,第二天早上回来一看,机器绿屏卡死了,录像预览停止刷新了,sd录像也停止了.点击无任何反应. 看gd ...
linux pagecache与内存占用
实验环境 CentOS Linux release 7.3.1611 (Core) 3.10.0-514.6.1.el7.x86_64 一.概念介绍 linux系统中通常使用free命 ...
asp.net core mvc权限控制：在视图中控制操作权限
在asp.net core mvc中提供了权限验证框架,前面的文章中已经介绍了如何进行权限控制配置,权限配置好后,权限验证逻辑自动就会执行,但是在某些情况下,我们可能需要在代码里或者视图中通过手工方式 ...
uml系列（八）——部署图与构件图
之前说了uml的设计图,现在说一下uml的最后两种图:构件图.部署图.这两种图之所以放在一起是因为它们都是软件的实现图. 构件图构件图是描述一组构件之间的组织与依赖关系的模型.那 ...
【物联网云端对接-1】通过HTTP协议与微软Azure IoT hub进行云端通信
在2015年曾写过一篇文章<从微软build 2015,展望微软未来发展>,提到了微软的Azure和Windows 10 IoT,那算是初次接触微软物联网技术.比较幸运的是在后续的时间里, ...
ES(二): Build ES Cluster on Azure VM
目录: 系统环境准备安装ES集群安装Kibana 安装x-pack 安装head 系统环境准备参见: HDP2.4安装(二):Centos7配置修改network: 修改hosts: 配置ss ...
使用scp命令,不同服务器之间拷备文件
使用scp命令,不同服务器之间拷备文件先将源服务器,目标服务器安装scp服务 yum -y install openssh-clients 命令格式 scp source dist usage: s ...
devexpress实现单元格根据条件显示不同的样式（颜色、字体、对齐方式，大小等）
1.devexpress控件库之所以被大家所喜爱,是因为它将许多常用的东西都封装成了属性.可以通过一些简单的配置,将以前某些需要大篇幅代码才可实现的效果展示出来.这里是一个实现了将[第二列数据在表格0 ...
Linux系统（四）负载均衡LVS集群之NAT模式
序言提到LVS,就从章文嵩博士开始吧,反正也不知道如何下笔来写这一篇.章大博士,读博时候创建这个lvs软件项目,但是他提倡开源精神,在用户的建议和反馈中,这个花了他两周时间开发的开源软件不断得到改建 ...

利用python的爬虫技术爬去糗事百科的段子

利用python的爬虫技术爬去糗事百科的段子的更多相关文章

随机推荐

热门专题