python网络爬虫--简单爬取糗事百科

　　刚开始学习python爬虫，写了一个简单python程序爬取糗事百科。

　　具体步骤是这样的：首先查看糗事百科的url：http://www.qiushibaike.com/8hr/page/2/?s=4959489，可以发现page后的数据代表第几页。

　　然后装配request，注意要设置user_agent

 user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'

 headers = {'User-Agent': user_agent}

 request=urllib2.Request(url,headers=headers)

 response=urllib2.urlopen(request)

　　然后获取返回的数据

content=response.read().decode('utf-8')

　　然后是关键，使用正则匹配出所有的具体内容。这里可以使用浏览器的检查功能查看页面结构，写出相对应的正则式，比如我们对下面的<div class="content">...</div>进行匹配的正则式如下

pattern=re.compile('<div class="content">....<span>(.*?)</span>...</div>',re.S)

items=re.findall(pattern,content)

　　(.*?) ：表示组，该部分为一个整体，将该部分匹配到字符串作为返回值返回，findall表示找到所有匹配的字符串，以序列的形式返回

　　参数re.S表示"."点号匹配所有字符包括换行

下面是完整代码

 import urllib

 import urllib2

 import re

 import time

 page=2

 f=open("D:\qiushi.txt","r+")

 user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'

 headers = {'User-Agent': user_agent}

 while page<100:

     url="http://www.qiushibaike.com/8hr/page/"+str(page)+"/?s=4959460"

     print url

     try:

         request=urllib2.Request(url,headers=headers)

         response=urllib2.urlopen(request)

         content=response.read().decode('utf-8')

         # print content

         pattern=re.compile('<div class="content">....<span>(.*?)</span>...</div>',re.S)

         items=re.findall(pattern,content)

         f.write((url+"\n").encode('utf-8'))

         for item in items:

             print "------"

             item=item+"\n"

             print item

             f.write("------\n".encode('utf-8'))

             f.write(item.replace('<br/>','\n').encode('utf-8'))

     except urllib2.URLError,e:

         if hasattr(e,"code"):

             print e.code

         if hasattr(e,"reason"):

             print e.reason

     finally:

         page+=1

         time.sleep(1)

这里我是将找到的输出到d盘下的qiushi.txt文件

python网络爬虫--简单爬取糗事百科的更多相关文章

python爬虫之爬取糗事百科并将爬取内容保存至Excel中
本篇博文为使用python爬虫爬取糗事百科content并将爬取内容存入excel中保存·. 实验环境:Windows10 代码编辑工具:pycharm 使用selenium(自动化测试工具)+p ...
[爬虫]用python的requests模块爬取糗事百科段子
虽然Python的标准库中 urllib2 模块已经包含了平常我们使用的大多数功能,但是它的 API 使用起来让人感觉不太好,而 Requests 自称 “HTTP for Humans”,说明使用更 ...
利用python的爬虫技术爬去糗事百科的段子
初次学习爬虫技术,在知乎上看了如何爬去糗事百科的段子,于是打算自己也做一个. 实现目标:1,爬取到糗事百科的段子 2,实现每次爬去一个段子,每按一次回车爬取到下一页技术实现:基于python的实现, ...
Python爬虫：爬取糗事百科
网上看到的教程,但是是用正则表达式写的,并不能运行,后面我就用xpath改了,然后重新写了逻辑,并且使用了双线程,也算是原创了吧#!/usr/bin/python# -*- encoding:utf- ...
8.Python爬虫实战一之爬取糗事百科段子
大家好,前面入门已经说了那么多基础知识了,下面我们做几个实战项目来挑战一下吧.那么这次为大家带来,Python爬取糗事百科的小段子的例子. 首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把 ...
Python爬虫实战一之爬取糗事百科段子
大家好,前面入门已经说了那么多基础知识了,下面我们做几个实战项目来挑战一下吧.那么这次为大家带来,Python爬取糗事百科的小段子的例子. 首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把 ...
转 Python爬虫实战一之爬取糗事百科段子
静觅 » Python爬虫实战一之爬取糗事百科段子首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来. 友情提示糗事百科在前一段时间进行了改版,导致 ...
初识python 之爬虫：使用正则表达式爬取“糗事百科 - 文字版”网页数据
初识python 之爬虫:使用正则表达式爬取"古诗文"网页数据的兄弟篇. 详细代码如下: #!/user/bin env python # author:Simple-Sir ...
python学习（十六）写爬虫爬取糗事百科段子
原文链接:爬取糗事百科段子利用前面学到的文件.正则表达式.urllib的知识,综合运用,爬取糗事百科的段子先用urllib库获取糗事百科热帖第一页的数据.并打开文件进行保存,正好可以熟悉一下之前学过 ...

随机推荐

PHP的一些语句 if...else...elseif - Switch - while - for
条件语句用于基于不同条件执行不同的动作 PHP 条件语句在您编写代码时,经常会希望为不同的决定执行不同的动作.您可以在代码中使用条件语句来实现这一点. 在 PHP 中,我们可以使用以下条件语句: ...
TCP/IP提供网络传输速率
丢包(超时)->减少超时时间->ECN(有网络设备通知终端,有丢包发生)->DCTCP(优化快恢复) 丢包是超时的充分条件,但不是必要条件,因此也可通过其他方式获得丢包是否发生,比如 ...
php常用的时间函数
测试环境:php5.3.29 unix时间戳(从Unix 纪元(January 1 1970 00:00:00 GMT)到给定时间的秒数.).以下简称时间戳. 设置默认时区 date_default_ ...
JS实现最短路径之迪杰斯特拉(Dijkstra)算法
最短路径: 对于网图来说,最短路径是指两个顶点之间经过的边上权值和最少的路径,我们称第一个顶点是源点,最后一个顶点是终点迪杰斯特拉 ( Dijkstra) 算法是并不是一下子就求出了 Vo 到V8 ...
【13】MD5编码、Zlib压缩解压缩
1.MD5加密 /// <summary> /// 使用MD5加密算法 /// </summary> /// <param name="md5MessageSt ...
Asp.Net 之Jquery知识点运用
1.先把要用的body内的代码写好. <div id="ulBox"> <h3>下面的Ulid为"ulList1"</h3> ...
一、Java多线程基础
一.简介 1.操作系统在早起的裸机时代,计算机非常地昂贵,而且也没有操作系统的概念,计算机从头到尾只能执行一个程序.如果程序在执行一个耗时的操作,那么在这个过程中,计算机就有大量的资源闲置在那里,这 ...
【SSH网上商城项目实战07】Struts2和Json的整合
转自:https://blog.csdn.net/eson_15/article/details/51332758 上一节我们完成了DataGrid显示jason数据,但是没有和后台联系在一起,只是单 ...
Lua脚本语言基础知识
注释在Lua中,你可以使用单行注释和多行注释. 单行注释中,连续两个减号"--"表示注释的开始,一直延续到行末为止.相当于C++语言中的"//". 多行注 ...
CSS知多少
1.Cascading Style Sheets 层叠样式表 2.层叠就是浏览器对多个样式来源进行叠加,最终确定结果的过程. 3. 样式的5大来源:浏览器默认样式.浏览器用户自定义样式.行内样式.内部 ...

python网络爬虫--简单爬取糗事百科

python网络爬虫--简单爬取糗事百科的更多相关文章

随机推荐

热门专题