Python爬虫：获取糗事百科笑话

为了收集笑话也是挺拼的，我就不相信你所有的都看过了。还有，请问哪位仁兄能指点之下怎么把网上抓取到的图片写到word里面，捉摸了好久都没弄出来。

糗百不需要登录，html直接解析，只要在request的时候加上header就行了，是本菜鸟入手的最佳选择。重点就是正则表达式的匹配上花了很多时间，然后利用bs4获取了热点笑话的页面总数，最后为了方便，就封装成类。该代码抓取了今天24小时内的网站所有热点笑话（当然，图片的笑话就还没实现，有时间在捉摸一下~），写到文件中。

代码(文件参见：https://github.com/zgcao/Claw)：

# -*- coding: utf-8 -*-

"""

Created on Mon Aug 10 10:40:03 2015

@author: zhigang

"""

import urllib

import re

from bs4 import BeautifulSoup

import time

class my_qiubai:

def __init__(self):

self.stories = []

self.output ="D:\\qiubai_hot_"+time.strftime('%Y-%m-%d',time.localtime(time.time()))+".txt"

self.user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'

self.headers = { 'User-Agent' : self.user_agent }

self.pagecount = 1

print('Spider has started...')

def getPageCount(self):

url = 'http://www.qiushibaike.com/hot/page/1'

nowcontent = urllib.request.urlopen(urllib.request.Request(url,headers = self.headers)).read().decode('utf-8')

soup = BeautifulSoup(nowcontent)

pagelist = soup.find("div", {"class": "pagenumber"}).stripped_strings

for page in pagelist:

self.pagecount = int(page)

def getPageContent(self,pagenumber):

url = 'http://www.qiushibaike.com/hot/page/' + str(pagenumber)

#prepare the headers which will be needed when get request for quishibaike

request = urllib.request.Request(url,headers = self.headers)

response = urllib.request.urlopen(request)

try:

content = response.read().decode('utf-8')

pattern = re.compile('.*?(.*?).*?(.*?)

(.*?)

',re.S)

items = re.findall(pattern,content)

for item in items:

#item0:author_name;item1:content;item2:img

hasImg = re.search('img',item[2])

if not hasImg:

story=(item[0].strip()+":\n"+item[1].strip()+'\n')

self.stories.append(story)

except urllib.error.HTTPError as e:

if(e.code=='404'):

return

else:

print(e.code)

return

def loadPage(self):

self.getPageContent(1)

def write(self):

with open(self.output,'w+',encoding='utf-8') as f:

for story in self.stories:

f.write(story)

print(self.output+' has been stored.')

def viewAll(self):

startindex = 1

self.getPageCount()

for i in range(startindex,self.pagecount+1):

self.getPageContent(1)

print('Page:'+str(i)+' has been fetched...')

print('All pages have been fetched...')

spider = my_qiubai()

spider.viewAll()

spider.write()

print('Spider program stoped...')

Python爬虫：获取糗事百科笑话的更多相关文章

Python爬虫_糗事百科
本爬虫任务: 爬虫糗事百科网站(https://www.qiushibaike.com/)--段子版块中所有的[段子].[投票数].[神回复]等内容步骤: 通过翻页寻找url规律,构造url列表查 ...
python scrapy实战糗事百科保存到json文件里
编写qsbk_spider.py爬虫文件 # -*- coding: utf-8 -*- import scrapy from qsbk.items import QsbkItem from scra ...
爬虫_糗事百科（scrapy）
糗事百科scrapy爬虫笔记 1.response是一个'scrapy.http.response.html.HtmlResponse'对象,可以执行xpath,css语法来提取数据 2.提取出来的数 ...
Python抓取糗事百科成人版图片
最近开始学习爬虫,一开始看的是静觅的爬虫系列文章,今天看到糗事百科成人版,心里就邪恶了一下,把图片都爬下来吧,哈哈~ 虽然后来实现了,但还是存在一些问题,暂且不提,先切入正题吧,没什么好说的,直接上代 ...
python 爬取糗事百科 gui小程序
前言:有时候无聊看一些搞笑的段子,糗事百科还是个不错的网站,所以就想用Python来玩一下.也比较简单,就写出来分享一下.嘿嘿环境:Python 2.7 + win7 现在开始,打开糗事百科网站,先 ...
python爬取糗事百科段子
初步爬取糗事百科第一页段子(发布人,发布内容,好笑数和评论数) #-*-coding:utf--*- import urllib import urllib2 import re page = url ...
Python爬取糗事百科
import urllib import urllib.request from bs4 import BeautifulSoup """ 1.抓取糗事百科所有纯 ...
python 抓取糗事百科糗图
1 首先看下要抓取的页面这是糗事百科里面的糗图页面,每一页里面有很多的图片,我们要做的就是把这些图片抓取下来. 2 分析网页源代码发现源代码里面的每张图是这样储存的,所以决定使用正则匹配出图片的u ...
<爬虫实战>糗事百科
1.糗事百科段子.py # 目标:爬取糗事百科段子信息(文字) # 信息包括:作者头像,作者名字,作者等级,段子内容,好笑数目,评论数目 # 解析用学过的几种方法都实验一下①正则表达式.②Beauti ...

随机推荐

JS判断是否为一个数组
function isArray(object){ return object && typeof object==='object' && Array == obje ...
jsp注释方式
1,HTML的注释方法  说明:使用该注释方法,其中的注释内容在客户端浏览中是看不见的.但是查看源代码时,客户是可以看 ...
已安装好的tengine编译添加未被安装的模块
nginx -V 可以查看原来编译时都带了哪些参数原来的参数: --prefix=/usr/local/tengine 需添加的参数: --with-http_stub_status_module ...
nopcommerce 二次开发
http://www.cnblogs.com/nopcommerce-b2c/ http://www.nopchina.net/ 数据库结构 http://www.xcode.me/open/docu ...
bzoj1563: [NOI2009]诗人小G
Description Input Output 对于每组数据,若最小的不协调度不超过1018,则第一行一个数表示不协调度若最小的不协调度超过1018,则输出"Too hard to arr ...
JS:window.onload的使用介绍
作者: 字体:[增加减小] 类型:转载时间:2013-11-13我要评论 window.onload在某些情况下还是比较实用的,比如加载时执行哪些脚本等等,下面有几个不错的示例,需要的朋友可以参考 ...
duplicate symbols for architecture arm64 (Xcode error)
比如 duplicate symbol _NewBase64Encode_soomla in: /Users/UnityGame/Libraries/Plugins/iOS/Soomla/libSoo ...
【Linux】常用命令-统计代码行数
公司人员流动大,经常有新的维护任务,交接时喜欢看看新来的模块的代码量,那么问题来了, 如何统计代码行数? 1,最先想到的肯定是 wc. wc -l *.h 将查看[当前目录]下头文件的代码行数,输出结 ...
Ruby on Rails创始人DHH谈如何进行混合移动APP开发
混合型APP兼具原生型APP软件良好用户交互体验的优势和网页型APP软件跨平台开发的优势,并且其开发成本和网页型APP软件接近,其开发效率也远高于原生型APP软件.混合型APP已经被众多企业所认可.最 ...
GPIO模拟串口注意是事项
GPIO模拟串口需要注意的事项如下:(程序见我的博客第一篇) 1.由于串口是异步通信,则串口发送必须满足宽度要求. (1)假设串口的波特率是9600bps(1s传输9600个bit),则传输1bit需 ...

Python爬虫：获取糗事百科笑话

Python爬虫：获取糗事百科笑话的更多相关文章

随机推荐

热门专题