Python爬取糗事百科示例代码

参考链接：http://python.jobbole.com/81351/#comment-93968

主要参考自伯乐在线的内容，但是该链接博客下的源码部分的正则表达式部分应该是有问题，试了好几次，没试成功。后来在下面的评论中看到有个使用BeautifulSoup的童鞋，试了试，感觉BeautifulSoup用起来确实很便捷。

 # -*- coding:utf-8 -*-

 '''

 Author:LeonWen

 '''

 import urllib

 import urllib2

 # import re

 from bs4 import BeautifulSoup

 page = 1

 url = 'http://www.qiushibaike.com/hot/page/' + str(page)

 # set the headers

 user_agent = 'Mozilla/4.0(compatible;MSIE 5.5;Windows NT)'

 headers = {'User-Agent':user_agent}

 try:

     request = urllib2.Request(url,headers=headers)

     response = urllib2.urlopen(request)

     object_bs = BeautifulSoup(response.read())

     # print object_bs.prettify()

     # items 是一个list保存着返回结果

     items = object_bs.body.find_all("div",{"class":"article block untagged mb15"})

     # print items

     floor = 1

     tag = 0

     for item in items:

         if item.find("div",{"class":"thumb"}) == None:

             # class=thumb为带有图片的标签

             author = item.find("h2")

             upNum = item.find("i",{"class":"number"})

             content = item.find("div",{"class":"content"})

             # print content.prettify()

             # print content.text

             print u"===============",floor,u" 楼 ======================="

             print u"作者:",author.text

             print u"赞同数:",upNum.text

             print u"内容:",content.get_text()

             floor += 1

         else:

             tag += 1

     print u"图片个数:",tag

 except urllib2.URLError,e:

     if hasattr(e,"code"):

         print e.code

     if hasattr(e,"reason"):

         print e.reason

原文地址：http://www.cnblogs.com/leonwen/p/5721843.html

Python爬取糗事百科示例代码的更多相关文章

python爬取糗事百科段子
初步爬取糗事百科第一页段子(发布人,发布内容,好笑数和评论数) #-*-coding:utf--*- import urllib import urllib2 import re page = url ...
Python爬取糗事百科
import urllib import urllib.request from bs4 import BeautifulSoup """ 1.抓取糗事百科所有纯 ...
python 爬取糗事百科 gui小程序
前言:有时候无聊看一些搞笑的段子,糗事百科还是个不错的网站,所以就想用Python来玩一下.也比较简单,就写出来分享一下.嘿嘿环境:Python 2.7 + win7 现在开始,打开糗事百科网站,先 ...
8.Python爬虫实战一之爬取糗事百科段子
大家好,前面入门已经说了那么多基础知识了,下面我们做几个实战项目来挑战一下吧.那么这次为大家带来,Python爬取糗事百科的小段子的例子. 首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把 ...
Python爬虫实战一之爬取糗事百科段子
大家好,前面入门已经说了那么多基础知识了,下面我们做几个实战项目来挑战一下吧.那么这次为大家带来,Python爬取糗事百科的小段子的例子. 首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把 ...
python网络爬虫--简单爬取糗事百科
刚开始学习python爬虫,写了一个简单python程序爬取糗事百科. 具体步骤是这样的:首先查看糗事百科的url:http://www.qiushibaike.com/8hr/page/2/?s=4 ...
python爬虫之爬取糗事百科并将爬取内容保存至Excel中
本篇博文为使用python爬虫爬取糗事百科content并将爬取内容存入excel中保存·. 实验环境:Windows10 代码编辑工具:pycharm 使用selenium(自动化测试工具)+p ...
转 Python爬虫实战一之爬取糗事百科段子
静觅 » Python爬虫实战一之爬取糗事百科段子首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来. 友情提示糗事百科在前一段时间进行了改版,导致 ...
[爬虫]用python的requests模块爬取糗事百科段子
虽然Python的标准库中 urllib2 模块已经包含了平常我们使用的大多数功能,但是它的 API 使用起来让人感觉不太好,而 Requests 自称 “HTTP for Humans”,说明使用更 ...

随机推荐

Codeforces Round #594 (Div. 1) C. Queue in the Train 模拟
C. Queue in the Train There are
C语言程序设计100例之（5）：分解质因数
例5 分解质因数题目描述将一个正整数分解质因数.例如:输入90,输出 90=2*3*3*5. 输入输入数据包含多行,每行是一个正整数n (1<n <100000) . 输出对 ...
Linux网络基础协议和ip管理
1.简述osi七层模型和TCP/IP五层模型 osi七层模型分别是:物理层.数据链路层.网络层.传输层.会话层.表示层.应用层. 1)物理层:这一层的主要功能是二进制传输数据,界定连接器和网线的规格: ...
IntelliJ IDEA代码常用的快捷键（自查）
IntelliJ IDEA代码常用的快捷键有: Alt+回车导入包,自动修正 Ctrl+N 查找类 Ctrl+Shift+N 查找文件 Ctrl+Alt+L 格式化代码 Ctrl+Alt+O ...
laravel中控制器的创建和使用(五)
laravel中我们可以使用 artisan 命令来帮助我们创建控制器文件. php artisan make:controller TestController TestController 控制器 ...
WEB-INF文件夹作用
WEB-INF是Java的WEB应用的安全目录,客户端无法访问,只能通过服务端访问,从而实现了代码的安全.在WEB-INF中主要是系统运行的配置信息和环境主要有classes.config.lib文 ...
解决HttpServletRequest的输入流只能读取一次的问题
背景通常对安全性有要求的接口都会对请求参数做一些签名验证,而我们一般会把验签的逻辑统一放到过滤器或拦截器里,这样就不用每个接口都去重复编写验签的逻辑. 在一个项目中会有很多的接口,而不同的接口可能接 ...
黑马程序员面试宝典(Java)Beta6.0免费下载
场景 JavaSE基础面向对象特征以及理解访问权限修饰符区别理解clone对象 JavaSE语法 java有没有goto语句 &和&&的区别如何跳出当前的多重嵌套循环? ...
vuepress1.x入门使用
要点: 1.用npm操作会有各种问题,用yarn取代之; 2.yarn可以用npm全局安装,而npm是node环境自带,node环境去官网下载安装; 3.没有必要全局安装vuepress 操作: 1. ...
js中for循环的研究
转自:http://blog.csdn.net/lushuaiyin/article/details/8541500 <html> <body> <b><ce ...

Python爬取糗事百科示例代码

Python爬取糗事百科示例代码的更多相关文章

随机推荐

热门专题