爬虫入门（四）：urllib2

李建明180 2024-10-08 21:47:32 原文

主要使用python自带的urllib2进行爬虫实验。

写在前面的蠢事：
本来新建了一个urllib2.py便于好认识这是urllib2的实验，结果始终编译不通过，错误错误。不能用Python的关键字（保留字）来命名py文件，改了就好了。

正则表达式与re

Python 通过 re 模块提供对正则表达式的支持。使用 re 的一般步骤是：
Step1：先将正则表达式的字符串形式编译为Pattern实例。
Step2：然后使用Pattern实例处理文本并获得匹配结果（一个Match实例）。
Step3：最后使用Match实例获得信息，进行其他的操作。

#!/usr/bin/env python

# -*- coding: utf-8 -*-

# @Date    : 2016-10-14 21:16:25

# @Author  : Nicolo (1241251168@qq.com)

# @Link    : http://www.xiaosablog.cf/

# @Version : $Id$

#一个简单的re实例，匹配字符串中的hello字符串

#导入re模块

import re

# 将正则表达式编译成Pattern对象，注意hello前面的r的意思是“原生字符串”

pattern = re.compile(r'hello')

# 使用Pattern匹配文本，获得匹配结果，无法匹配时将返回None

match1 = pattern.match('hello world!')

match2 = pattern.match('helloo world!')

match3 = pattern.match('helllo world!')

#如果match1匹配成功

if match1:

# 使用Match获得分组信息

    print match1.group()

else:

    print 'match1匹配失败！'

#如果match2匹配成功

if match2:

# 使用Match获得分组信息

    print match2.group()

else:

    print 'match2匹配失败！'

#如果match3匹配成功

if match3:

# 使用Match获得分组信息

    print match3.group()

else:

    print 'match3匹配失败！'

编译结果：

hello

hello

match3匹配失败！

糗事百科的网络爬虫

import urllib2

import urllib

import re

import thread

import time    

#----------- 加载处理糗事百科 -----------

class Spider_Model:    

    def __init__(self):

        self.page = 1

        self.pages = []

        self.enable = False    

    # 将所有的段子都扣出来，添加到列表中并且返回列表

    def GetPage(self,page):

        myUrl = "http://m.qiushibaike.com/hot/page/" + page

        user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'

        headers = { 'User-Agent' : user_agent }

        req = urllib2.Request(myUrl, headers = headers)

        myResponse = urllib2.urlopen(req)

        myPage = myResponse.read()

        #encode的作用是将unicode编码转换成其他编码的字符串

        #decod 大专栏  爬虫入门（四）：urllib2e的作用是将其他编码的字符串转换成unicode编码

        unicodePage = myPage.decode("utf-8")    

        # 找出所有class="content"的div标记

        #re.S是任意匹配模式，也就是.可以匹配换行符

        myItems = re.findall('
(.*?)',unicodePage,re.S)

        items = []

        for item in myItems:

            # item 中第一个是div的标题，也就是时间

            # item 中第二个是div的内容，也就是内容

            items.append([item[0].replace("n",""),item[1].replace("n","")])

        return items    

    # 用于加载新的段子

    def LoadPage(self):

        # 如果用户未输入quit则一直运行

        while self.enable:

            # 如果pages数组中的内容小于2个

            if len(self.pages) < 2:

                try:

                    # 获取新的页面中的段子们

                    myPage = self.GetPage(str(self.page))

                    self.page += 1

                    self.pages.append(myPage)

                except:

                    print '无法链接糗事百科！'

            else:

                time.sleep(1)    

    def ShowPage(self,nowPage,page):

        for items in nowPage:

            print u'第%d页' % page , items[0]  , items[1]

            myInput = raw_input()

            if myInput == "quit":

                self.enable = False

                break    

    def Start(self):

        self.enable = True

        page = self.page    

        print u'正在加载中请稍候......'    

        # 新建一个线程在后台加载段子并存储

        thread.start_new_thread(self.LoadPage,())    

        #----------- 加载处理糗事百科 -----------

        while self.enable:

            # 如果self的page数组中存有元素

            if self.pages:

                nowPage = self.pages[0]

                del self.pages[0]

                self.ShowPage(nowPage,page)

                page += 1    

#----------- 程序的入口处 -----------

print u"""

---------------------------------------

   程序：糗百爬虫

   操作：输入quit退出阅读糗事百科

   功能：按下回车依次浏览今日的糗百热点

---------------------------------------

"""  

print u'请按下回车浏览今日的糗百内容：'

raw_input(' ')

myModel = Spider_Model()

myModel.Start()

爬虫入门（四）：urllib2的更多相关文章

Python爬虫入门四之Urllib库的高级用法

1.设置Headers 有些网站不会同意程序直接用上面的方式进行访问,如果识别有问题,那么站点根本不会响应,所以为了完全模拟浏览器的工作,我们需要设置一些Headers 的属性. 首先,打开我们的浏览 ...

转 Python爬虫入门四之Urllib库的高级用法

静觅 » Python爬虫入门四之Urllib库的高级用法 1.设置Headers 有些网站不会同意程序直接用上面的方式进行访问,如果识别有问题,那么站点根本不会响应,所以为了完全模拟浏览器的工作,我 ...

爬虫入门四 re

title: 爬虫入门四 re date: 2020-03-14 16:49:00 categories: python tags: crawler 正则表达式与re库 1 正则表达式简介编译原理学 ...

python爬虫入门四：BeautifulSoup库(转)

正则表达式可以从html代码中提取我们想要的数据信息,它比较繁琐复杂,编写的时候效率不高,但我们又最好是能够学会使用正则表达式. 我在网络上发现了一篇关于写得很好的教程,如果需要使用正则表达式的话,参 ...

4.Python爬虫入门四之Urllib库的高级用法

Python爬虫入门之Urllib库的高级用法

3.Python爬虫入门三之Urllib和Urllib2库的基本使用

1.分分钟扒一个网页下来怎样扒网页呢?其实就是根据URL来获取它的网页信息,虽然我们在浏览器中看到的是一幅幅优美的画面,但是其实是由浏览器解释才呈现出来的,实质它是一段HTML代码,加 JS.CSS ...

python爬虫入门（一）urllib和urllib2

爬虫简介什么是爬虫? 爬虫:就是抓取网页数据的程序. HTTP和HTTPS HTTP协议(HyperText Transfer Protocol,超文本传输协议):是一种发布和接收 HTML页面的 ...

爬虫入门之urllib库详解(二)

爬虫入门之urllib库详解(二) 1 urllib模块 urllib模块是一个运用于URL的包 urllib.request用于访问和读取URLS urllib.error包括了所有urllib.r ...

随机推荐

Mac电脑没声音了怎么办？苹果电脑没声音的解决方法

在使用Mac电脑的过程中,偶尔会出现电脑没声音?发出奇怪的声音?连接外部音频设备出问题等音频故障,遇到这种情况该怎么办呢?小编有妙招! 检查音量首先检查Mac是否被静音,按住F12快捷键或滑动菜单栏 ...

matlab设置mex失败

更新使用matlab2017b时,又报错, >> mex -setup 警告: Xcode is installed, but its license has not been acce ...

C++ lock_guard 互斥锁

概述根据对象的析构函数自动调用的原理,c++11推出了std::lock_guard自动释放锁,其原理是:声明一个局部的lock_guard对象,在其构造函数中进行加锁,在其析构函数中进行解锁.最终的 ...

day52-线程-队列

#1.线程的队列是使用import queue,如果使用from threading import Queue会报错,因为threading模块没有Queue. #也就是说,线程队列Queue是在qu ...

ZJNU 1129 - The sum problem——中级

枚举区间可能的长度len,将m减去1~len构成的序列和后如果结果是len的倍数,则可以构成答案区间. /* Written By. StelaYuri */ #include<stdio.h& ...

Opencv笔记（五）——把鼠标当画笔

学习目标: 学习使用 OpenCV 处理鼠标事件学会使用函数cv2.setMouseCallback() 简单演示: 首先我们来创建一个鼠标事件回调函数,但鼠标事件发生是他就会被执 ...

【Java杂货铺】JVM#虚拟机加载机制

代码编译的结果从本地机器码变为字节码,是储存格式发展的一小步,却是编程语言发展的一大步--<深入理解Java虚拟机> 虚拟机把描述类的数据从Class文件加载到内存,并对数据进行校验.转化 ...

php 连接oracle插入多张图片的方法

php连接oracle数据库的时候,其查询.更新.删除数据和MySQL类似,但是增加数据.特别是图片的时候就很不一样,这里面涉及到要创建一个blob对象,用blod对象去保存php图片,下面是当插入多 ...

SAP PM：参考维护工单创建测量凭证

(1)使用FM:CO_BC_ORDER_POST获取工单资料(Aufnr, aufpo and materials etc): (2)使用FM:MEASUREM_DOCUM_RFC_SINGLE_00 ...

PAT甲级——1042 Shuffling Machine

1042 Shuffling Machine Shuffling is a procedure used to randomize a deck of playing cards. Because s ...

爬虫入门（四）：urllib2

爬虫入门（四）：urllib2的更多相关文章

随机推荐

热门专题