转载请注明出处http://blog.csdn.net/evankaka

摘要：本文将使用Python3.4爬网页、爬图片、自己主动登录。并对HTTP协议做了一个简单的介绍。在进行爬虫之前，先简单来进行一个HTTP协议的解说。这样以下再来进行爬虫就是理解更加清楚。

一、HTTP协议

HTTP是Hyper Text Transfer Protocol（超文本传输协议）的缩写。

它的发展是万维网协会（World Wide Web Consortium）和Internet工作小组IETF（Internet Engineering Task Force）合作的结果，（他们）终于公布了一系列的RFC。RFC 1945定义了HTTP/1.0版本号。当中最著名的就是RFC 2616。RFC 2616定义了今天普遍使用的一个版本号——HTTP 1.1。

HTTP协议（HyperText Transfer Protocol。超文本传输协议）是用于从WWWserver传输超文本到本地浏览器的传送协议。它能够使浏览器更加高效，使网络传输降低。

它不仅保证计算机正确高速地传输超文本文档。还确定传输文档中的哪一部分。以及哪部分内容首先显示(如文本先于图形)等。

HTTP的请求响应模型

HTTP协议永远都是client发起请求，server回送响应。见下图：

这样就限制了使用HTTP协议，无法实如今client没有发起请求的时候。server将消息推送给client。

HTTP协议是一个无状态的协议。同一个client的这次请求和上次请求是没有相应关系。

工作流程

一次HTTP操作称为一个事务。其工作过程可分为四步：

1）首先客户机与server须要建立连接。仅仅要单击某个超级链接，HTTP的工作開始。

2）建立连接后。客户机发送一个请求给server。请求方式的格式为：统一资源标识符（URL）、协议版本号号。后边是MIME信息包括请求修饰符、客户机信息和可能的内容。

3）server接到请求后，给予相应的响应信息，其格式为一个状态行，包括信息的协议版本号号、一个成功或错误的代码，后边是MIME信息包括server信息、实体信息和可能的内容。

4）client接收server所返回的信息通过浏览器显示在用户的显示屏上，然后客户机与server断开连接。

假设在以上过程中的某一步出现错误，那么产生错误的信息将返回到client，有显示屏输出。

对于用户来说。这些过程是由HTTP自己完毕的，用户仅仅要用鼠标点击，等待信息显示就能够了

请求报头
请求报头同意client向server端传递请求的附加信息以及client自身的信息。
经常使用的请求报头
Accept
Accept请求报头域用于指定client接受哪些类型的信息。eg：Accept：image/gif。表明client希望接受GIF图象格式的资源。Accept：text/html，表明client希望接受html文本。
Accept-Charset
Accept-Charset请求报头域用于指定client接受的字符集。eg：Accept-Charset:iso-8859-1,gb2312.假设在请求消息中没有设置这个域，缺省是不论什么字符集都能够接受。
Accept-Encoding
Accept-Encoding请求报头域相似于Accept，可是它是用于指定可接受的内容编码。eg：Accept-Encoding:gzip.deflate.假设请求消息中没有设置这个域server假定client对各种内容编码都能够接受。

Accept-Language
Accept-Language请求报头域相似于Accept，可是它是用于指定一种自然语言。eg：Accept-Language:zh-cn.假设请求消息中没有设置这个报头域，server假定client对各种语言都能够接受。
Authorization
Authorization请求报头域主要用于证明client有权查看某个资源。当浏览器訪问一个页面时，假设收到server的响应代码为401（未授权），能够发送一个包括Authorization请求报头域的请求，要求server对其进行验证。

Host（发送请求时，该报头域是必需的）
Host请求报头域主要用于指定被请求资源的Internet主机和端口号。它通常从HTTP URL中提取出来的，eg：
我们在浏览器中输入：http://www.guet.edu.cn/index.html
浏览器发送的请求消息中，就会包括Host请求报头域。例如以下：
Host：www.guet.edu.cn
此处使用缺省端口号80，若指定了端口号，则变成：Host：www.guet.edu.cn:指定端口号
User-Agent
我们上网登陆论坛的时候，往往会看到一些欢迎信息。当中列出了你的操作系统的名称和版本号，你所使用的浏览器的名称和版本号，这往往让非常多人感到非常奇妙，实际上，server应用程序就是从User-Agent这个请求报头域中获取到这些信息。User-Agent请求报头域同意client将它的操作系统、浏览器和其他属性告诉server。只是。这个报头域没必要的。假设我们自己编写一个浏览器。不使用User-Agent请求报头域。那么server端就无法得知我们的信息了。

请求报头举例：
GET /form.html HTTP/1.1 (CRLF)
Accept:image/gif,image/x-xbitmap,image/jpeg,application/x-shockwave-flash,application/vnd.ms-excel,application/vnd.ms-powerpoint,application/msword,*/* (CRLF)
Accept-Language:zh-cn (CRLF)
Accept-Encoding:gzip,deflate (CRLF)
If-Modified-Since:Wed,05 Jan 2007 11:21:25 GMT (CRLF)
If-None-Match:W/"80b1a4c018f3c41:8317" (CRLF)
User-Agent:Mozilla/4.0(compatible;MSIE6.0;Windows NT 5.0) (CRLF)
Host:www.guet.edu.cn (CRLF)
Connection:Keep-Alive (CRLF)
(CRLF)

GET /form.html HTTP/1.1 (CRLF)Accept:image/gif,image/x-xbitmap,image/jpeg,application/x-shockwave-flash,application/vnd.ms-excel,application/vnd.ms-powerpoint,application/msword,*/* (CRLF)Accept-Language:zh-cn (CRLF)Accept-Encoding:gzip,deflate (CRLF)If-Modified-Since:Wed,05 Jan 2007 11:21:25 GMT (CRLF)If-None-Match:W/"80b1a4c018f3c41:8317" (CRLF)User-Agent:Mozilla/4.0(compatible;MSIE6.0;Windows NT 5.0) (CRLF)Host:www.guet.edu.cn (CRLF)Connection:Keep-Alive (CRLF)(CRLF)

响应报头
响应报头同意server传递不能放在状态行中的附加响应信息。以及关于server的信息和对Request-URI所标识的资源进行下一步訪问的信息。
经常使用的响应报头
Location
Location响应报头域用于重定向接受者到一个新的位置。Location响应报头域经常使用在更换域名的时候。
Server
Server响应报头域包括了server用来处理请求的软件信息。

与User-Agent请求报头域是相相应的。以下是
Server响应报头域的一个样例：
Server：Apache-Coyote/1.1
WWW-Authenticate
WWW-Authenticate响应报头域必须被包括在401（未授权的）响应消息中，client收到401响应消息时候，并发送Authorization报头域请求server对其进行验证时，服务端响应报头就包括该报头域。
eg：WWW-Authenticate:Basic realm="Basic Auth Test!" //能够看出server对请求资源採用的是基本验证机制。

二、Python3.4爬虫编程

1、第一个演示样例，我们要来进行简单的爬虫来爬别人的网页

#python3.4 爬虫教程

#一个简单的演示样例爬虫

#林炳文Evankaka(博客：http://blog.csdn.net/evankaka/)

import urllib.request

url = "http://www.douban.com/"

webPage=urllib.request.urlopen(url)

data = webPage.read()

data = data.decode('UTF-8')

print(data)

print(type(webPage))

print(webPage.geturl())

print(webPage.info())

print(webPage.getcode())

这是爬回来的网页输出：

这中间究竟发生了什么事呢？让我们打开Fiddler来看看吧：

左边标红的就表示我们本次訪问成功，为http 200

右边上方这是python生成的请求报头。不清楚看以下：

非常easy的一个报头。然后再来看看响应回来的html

这里响应回来的就是我们上面在python的idle中打印出来的网页了！

2、伪装成浏览器来爬网页

有些网页，比方登录的。假设你不是从浏览器发起的起求，这就不会给你响应，这时我们就须要自己来写报头。然后再发给网页的server，这时它就以为你就是一个正常的浏览器。从而就能够爬了！

#python3.4 爬虫教程

#一个简单的演示样例爬虫

#林炳文Evankaka(博客：http://blog.csdn.net/evankaka/)

import urllib.request

weburl = "http://www.douban.com/"

webheader = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:23.0) Gecko/20100101 Firefox/23.0'}

req = urllib.request.Request(url=weburl, headers=webheader)

webPage=urllib.request.urlopen(req)

data = webPage.read()

data = data.decode('UTF-8')

print(data)

print(type(webPage))

print(webPage.geturl())

print(webPage.info())

print(webPage.getcode())

来看看请求报头，就是和我们设置的一个样。

返回的是一样的：

再来一个复杂一点的请求报头：

#python3.4 爬虫教程

#一个简单的演示样例爬虫

#林炳文Evankaka(博客：http://blog.csdn.net/evankaka/)

import urllib.request

weburl = "http://www.douban.com/"

webheader1 = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:23.0) Gecko/20100101 Firefox/23.0'}

webheader2 = {

    'Connection': 'Keep-Alive',

    'Accept': 'text/html, application/xhtml+xml, */*',

    'Accept-Language': 'en-US,en;q=0.8,zh-Hans-CN;q=0.5,zh-Hans;q=0.3',

    'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64; Trident/7.0; rv:11.0) like Gecko',

    #'Accept-Encoding': 'gzip, deflate',

    'Host': 'www.douban.com',

    'DNT': '1'

    }

req = urllib.request.Request(url=weburl, headers=webheader2)

webPage=urllib.request.urlopen(req)

data = webPage.read()

data = data.decode('UTF-8')

print(data)

print(type(webPage))

print(webPage.geturl())

print(webPage.info())

print(webPage.getcode())

看看生成的结果:

返回还是：

3、爬取站点上的图片

前面我们能够爬网页了，下一步我们就能够批量的自己主动下载该网页上的各种数据了～，比方。这里我要下载该网页上的全部图片

#python3.4 爬虫教程

#爬取站点上的图片

#林炳文Evankaka(博客：http://blog.csdn.net/evankaka/)

import urllib.request

import socket

import re

import sys

import os

targetDir = r"D:\PythonWorkPlace\load"  #文件保存路径

def destFile(path):

    if not os.path.isdir(targetDir):

        os.mkdir(targetDir)

    pos = path.rindex('/')

    t = os.path.join(targetDir, path[pos+1:])

    return t

if __name__ == "__main__":  #程序执行入口

    weburl = "http://www.douban.com/"

    webheaders = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:23.0) Gecko/20100101 Firefox/23.0'}

    req = urllib.request.Request(url=weburl, headers=webheaders)  #构造请求报头

    webpage = urllib.request.urlopen(req)  #发送请求报头

    contentBytes = webpage.read()

    for link, t in set(re.findall(r'(http:[^\s]*?

(jpg|png|gif))', str(contentBytes))):  #正則表達式查找全部的图片

        print(link)

        try:

            urllib.request.urlretrieve(link, destFile(link)) #下载图片

        except:

            print('失败') #异常抛出

这是正在执行的过程：

打开电脑上相应的目录，然后来看看图片。这里仅仅是一部分哦！！

。。

真实的网页上的图片

4、保存爬取回来的报文

def saveFile(data):

    save_path = 'D:\\temp.out'

    f_obj = open(save_path, 'wb') # wb 表示打开方式

    f_obj.write(data)

    f_obj.close()

# 这里省略爬虫代码

# ...

# 爬到的数据放到 dat 变量里

# 将 dat 变量保存到 D 盘下

saveFile(dat)

比方：

#python3.4 爬虫教程

#一个简单的演示样例爬虫

#林炳文Evankaka(博客：http://blog.csdn.net/evankaka/)

import urllib.request

def saveFile(data):

    save_path = 'D:\\temp.out'

    f_obj = open(save_path, 'wb') # wb 表示打开方式

    f_obj.write(data)

    f_obj.close()

weburl = "http://www.douban.com/"

webheader1 = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:23.0) Gecko/20100101 Firefox/23.0'}

webheader2 = {

    'Connection': 'Keep-Alive',

    'Accept': 'text/html, application/xhtml+xml, */*',

    'Accept-Language': 'en-US,en;q=0.8,zh-Hans-CN;q=0.5,zh-Hans;q=0.3',

    'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64; Trident/7.0; rv:11.0) like Gecko',

    #'Accept-Encoding': 'gzip, deflate',

    'Host': 'www.douban.com',

    'DNT': '1'

    }

req = urllib.request.Request(url=weburl, headers=webheader2)

webPage=urllib.request.urlopen(req)

data = webPage.read()

saveFile(data)# 将data变量保存到 D 盘下

data = data.decode('UTF-8')

print(data)

print(type(webPage))

print(webPage.geturl())

print(webPage.info())

print(webPage.getcode())

然后看看D盘：

用NotePad打开：

嗯嗯。

是对的。网页已经被爬下来了。

三、Python3.x 自己主动登录

一般情况下我们输入邮箱和密码后，登录。

来看看。

这就是提交表单的内容

python3.4代码编写：

import gzip

import re

import http.cookiejar

import urllib.request

import urllib.parse

#解压函数

def ungzip(data):

    try:        # 尝试解压

        print('正在解压.....')

        data = gzip.decompress(data)

        print('解压完毕!')

    except:

        print('未经压缩, 无需解压')

    return data

#获取_xsrf

def getXSRF(data):

    cer = re.compile('name=\"_xsrf\" value=\"(.*)\"', flags = 0)

    strlist = cer.findall(data)

    return strlist[0]

#构造文件头

def getOpener(head):

    #设置一个cookie处理器，它负责从server下载cookie到本地。而且在发送请求时带上本地的cookie

    cj = http.cookiejar.CookieJar()

    pro = urllib.request.HTTPCookieProcessor(cj)

    opener = urllib.request.build_opener(pro)

    header = []

    for key, value in head.items():

        elem = (key, value)

        header.append(elem)

    opener.addheaders = header

    return opener

#构造header，一般header至少要包括一下两项。

这两项是从抓到的包里分析得出的。

header = {

    'Connection': 'Keep-Alive',

    'Accept': 'text/html, application/xhtml+xml, */*',

    'Accept-Language': 'en-US,en;q=0.8,zh-Hans-CN;q=0.5,zh-Hans;q=0.3',

    'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64; Trident/7.0; rv:11.0) like Gecko',

    'Accept-Encoding': 'gzip, deflate',

    'Host': 'www.zhihu.com',

    'DNT': '1'

}

url = 'http://www.zhihu.com/'

opener = getOpener(header)

op = opener.open(url)

data = op.read()

data = ungzip(data)     # 解压

_xsrf = getXSRF(data.decode())

#post数据接收和处理的页面（我们要向这个页面发送我们构造的Post数据）

url += 'login/email'

id = '这里写自己的邮箱'

password = '这里写自己的密码'

#构造Post数据，他也是从抓大的包里分析得出的。

postDict = {

        '_xsrf':_xsrf, #特有数据。不同站点可能不同

        'email': id,

        'password': password,

        'rememberme': 'y'

}

#须要给Post数据编码

postData = urllib.parse.urlencode(postDict).encode()

op = opener.open(url, postData)

data = op.read()

data = ungzip(data)

print(data.decode())

来看看结果：

这时执行返回的

发送出去的请求头

接收回来的报头

返回的数据是什么意思呢：

非常easy，我们转码下：

Python3.x爬虫教程：爬网页、爬图片、自己主动登录的更多相关文章

简单的python爬虫教程：批量爬取图片
python编程语言,可以说是新型语言,也是这两年来发展比较快的一种语言,而且不管是少儿还是成年人都可以学习这个新型编程语言,今天南京小码王python培训机构变为大家分享了一个python爬虫教程. ...
Python3简单爬虫抓取网页图片
现在网上有很多python2写的爬虫抓取网页图片的实例,但不适用新手(新手都使用python3环境,不兼容python2), 所以我用Python3的语法写了一个简单抓取网页图片的实例,希望能够帮助到 ...
Python爬虫技术(从网页获取图片)+HierarchicalClustering层次聚类算法，实现自动从网页获取图片然后根据图片色调自动分类—Jason niu
网上教程太啰嗦,本人最讨厌一大堆没用的废话,直接上,就是干! 网络爬虫?非监督学习? 只有两步,只有两个步骤? Are you kidding me? Are you ok? 来吧,follow me ...
python3版爬虫了解
摘要:本文将使用Python3.4爬网页.爬图片.自动登录.并对HTTP协议做了一个简单的介绍.在进行爬虫之前,先简单来进行一个HTTP协议的讲解,这样下面再来进行爬虫就是理解更加清楚. 一.HTTP ...
爬虫入门（三）——动态网页爬取：爬取pexel上的图片
Pexel上有大量精美的图片,没事总想看看有什么好看的自己保存到电脑里可能会很有用但是一个一个保存当然太麻烦了所以不如我们写个爬虫吧(๑•̀ㅂ•́)و✧ 一开始学习爬虫的时候希望爬取pexel上的 ...
python网络爬虫之解析网页的正则表达式(爬取4k动漫图片)[三]
前言 hello,大家好本章可是一个重中之重,因为我们今天是要爬取一个图片而不是一个网页或是一个json 所以我们也就不用用到selenium模块了,当然有兴趣的同学也一样可以使用selenium去 ...
python网络爬虫之解析网页的BeautifulSoup(爬取电影图片)[三]
目录前言一.BeautifulSoup的基本语法二.爬取网页图片扩展学习后记前言本章同样是解析一个网页的结构信息在上章内容中(python网络爬虫之解析网页的正则表达式(爬取4k动漫图 ...
python3爬取女神图片，破解盗链问题
title: python3爬取女神图片,破解盗链问题 date: 2018-04-22 08:26:00 tags: [python3,美女,图片抓取,爬虫, 盗链] comments: true ...
Python网络爬虫（6）--爬取淘宝模特图片
经过前面的一些基础学习,我们大致知道了如何爬取并解析一个网页中的信息,这里我们来做一个更有意思的事情,爬取MM图片并保存.网址为https://mm.taobao.com/json/request_t ...

随机推荐

浅谈购物车中cookie的使用
购物车对于电商网站来说是一个非常重要的模块.最近自己的项目中也用到了,所以拿出来说说事! 购物车是用户选择商品的一个缓存的地方.其中包含了商品的基本信息,例如:商品的描述,商品的价格,商品的数量等等. ...
ASP.NET MVC 中使用JavaScriptResult
在浏览器地址栏输入地址,在页面上想通过脚本弹出一个框,看到Controller下有个JavaScript方法,返回的类型是JavaScriptResult,于是想用这个方法弹出框, public Ac ...
邮件协议POP3/IMAP/SMTP服务的区别
2016年09月09日 09時51分 wanglinqiang整理通过网上查找的资料和自己的总结完成了下面的文章,看完之后相信大家对这三种协议会有更深入的理解.如有错误的地方望指正. POP3 PO ...
java怎么连接sql server,需要注意的几点
一.JAVA连接SQL的语句 JAVA连接SQL2000语句为: Class.forName("sun.jdbc.odbc.JdbcOdbcDriver"); Drive ...
AndroidStudio 更新gradle Error:Failed to complete Gradle execution. Cause: Connection reset
Android Studio 报错:Error:Failed to complete Gradle execution. Cause: Connection reset.把最新可以运行的项目中g ...
[BZOJ - 2631] tree 【LCT】
题目链接:BZOJ - 2631 题目分析 LCT,像线段树区间乘,区间加那样打标记. 这道题我调了一下午. 提交之后TLE了,我一直以为是写错了导致了死循环. 于是一直在排查错误.直到.. 直到我看 ...
golang入门--一个简单的http client
看完<Go Web 编程>的前两章就可以开始写代码了. import ( "fmt" "io/ioutil" "log" &qu ...
关于 width；height
IE Firefox Chrome Safari window(width|height) no yes yes document.body document.documentElement 网页 ...
JPA2.1 中三个提升应用性能的新功能
经常在网上看到开发者们抱怨 JPA 性能低下的帖子或文章,但如果仔细查看这些性能问题,常会发现导致问题的根本原因大致包括以下几个: 使用过多的 SQL 查询从数据库中获取所需的实体信息,即我们常说的n ...
【POJ2773】Happy 2006 欧几里德
题目描述: 分析: 根据欧几里德,我们有gcd(b×t+a,b)=gcd(a,b) 则如果a与b互质,则b×t+a与b也一定互质,如果a与b不互质,则b×t+a与b也一定不互质. 所以与m互质的数对m ...

Python3.x爬虫教程：爬网页、爬图片、自己主动登录

一、HTTP协议

二、Python3.4爬虫编程

三、Python3.x 自己主动登录

Python3.x爬虫教程：爬网页、爬图片、自己主动登录的更多相关文章

随机推荐

热门专题