爬虫——GET请求和POST请求

urllib.parse.urlencode()和urllib.parse.unquote()

编码工作使用urllib.parse的urlencode()函数，帮我们将key:value这样的键值对转换成"key=value"这样的字符串，解码工作可以使用urllib的unquote()函数。

# python3.5控制台中测试结果

>>> import urllib

>>> word = {"wd":"爬虫"}

# 通过urllib.parse.urlencode()方法，将字典键值对按URL编码转换，从而能被wed服务器接受。

>>> urllib.parse.urlencode(word)

'wd=%E7%88%AC%E8%99%AB'

# 通过urllib.parse.unquote()方法，把URL编码字符串，转换回原先的字符串。

>>> urllib.parse.unquote(word)

'wd=爬虫'

一般HTTP请求提交数据，需要编码成URL编码格式，然后做为URL的一部分，或者作为参数传到Request对象中。

GET方式

GET请求一般用于我们向服务器获取数据，比如说，我们用百度搜索爬虫：https://www.baidu.com/s?wd=爬虫（https://www.baidu.com/s?wd=%E7%88%AC%E8%99%AB）

我们可以看到在请求部分里，http://www.baidu.com/s? 之后出现一个长长的字符串，其中就包含我们要查询的关键词“爬虫”，于是我们可以尝试用默认的GET方式来发送请求。

#!/usr/bin/python3

# -*- coding:utf-8 -*-

__author__ = 'mayi'

# 导入库

import urllib.request

import urllib

url = "http://www.baidu.com/s?"

word = {"wd":"爬虫"}

# 转换成url编码格式

word = urllib.parse.urlencode(word)

# 拼接成完整的url

full_url = url + word

# chrome 的 User-Agent，包含在 header里

header = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.71 Safari/537.36'}

# url 连同 headers，一起构造Request请求，这个请求将附带 chrome 浏览器的User-Agent

request = urllib.request.Request(full_url, headers = header)

# 向服务器发送这个请求

response = urllib.request.urlopen(request)

html = response.read()

fo = open("baidu.html", "wb")

fo.write(html)

fo.close()

批量爬取贴吧页面数据

首先我们创建一个python文件：tiebaSpider.py，我们要完成的功能是，输入一个百度贴吧的地址，比如：百度贴吧LOL吧

第一页：http://tieba.baidu.com/f?kw=lol&ie=utf-8&pn=0

第二页：http://tieba.baidu.com/f?kw=lol&ie=utf-8&pn=50

第三页：http://tieba.baidu.com/f?kw=lol&ie=utf-8&pn=100

……

爬取以上页面的内容

#!/usr/bin/python3

# -*- coding:utf-8 -*-

__author__ = 'mayi'

"""

功能：批量爬取贴吧页面数据

目标地址：百度贴吧LOL吧

分析：

    第一页：https://tieba.baidu.com/f?kw=lol&ie=utf-8&pn=0

    第二页：http://tieba.baidu.com/f?kw=lol&ie=utf-8&pn=50

    第三页：http://tieba.baidu.com/f?kw=lol&ie=utf-8&pn=100

    ……

规律：

    贴吧中每个页面URL不同之处，就是最后的pn值，其余的都是一样的。其pn = (page - 1) * 50

    url = "https://tieba.baidu.com/f?kw=lol&ie=utf-8&pn="

    pn = (page - 1) * 50

    full_url = url + str(pn)

"""

# 导入库

import urllib

import urllib.request

# 根据url地址，获取服务器响应文件

def loadPage(url):

    """

    功能：根据url地址，获取服务器响应文件

    :param url: url地址

    :return: 获取的服务器响应文件信息

    """

    # chrome 的User-Agent 头

    header = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.71 Safari/537.36'}

    # url 连同 headers，一起构造Request请求，这个请求将附带 chrome 浏览器的User-Agent

    request = urllib.request.Request(url, headers = header)

    # 向服务器发送这个请求

    reponse = urllib.request.urlopen(request)

    # 获取响应文件中的全部内容

    html = reponse.read()

    return html

# 存储文件

def writeFile(html, file_name):

    """

    功能：存服务器响应文件到本地磁盘文件里

    :param html: 服务器响应文件内容

    :param file_name: 本地磁盘文件名

    :return: None

    """

    with open(file_name, "wb") as f:

        f.write(html)

# 贴吧爬虫函数

def tiebaSpider(url, begin_page, end_page):

    """

    功能：处理从begin_page到end_page的url页面

    :param url: url地址

    :param begin_page: 需爬取的起始页

    :param end_page: 需爬取的终止页

    :return:

    """

    for page in range(begin_page, end_page + 1):

        pn = (page - 1) * 50

        full_url = url + str(pn)

        file_name = "第" + str(page) + "页.html"

        print("正在爬取" + file_name)

        # 获取full_url对应的html文件信息

        html = loadPage(full_url)

        print("正在存储" + file_name)

        # 存储full_url对应的html文件信息

        writeFile(html, file_name)

# 主函数

if __name__ == '__main__':

    url = "https://tieba.baidu.com/f?"

    # 输入需爬取的贴吧

    kw = input("请输入需要爬取的贴吧：")

    # 输入需爬取的起始页和终止页

    begin_page = int(input("请输入起始页："))

    end_page = int(input("请输入终止页："))

    key = urllib.parse.urlencode({"kw":kw})

    # 组合的的url示例：https://tieba.baidu.com/f?kw=lol&ie=utf-8&pn=

    url = url + key + "&ie=utf-8&pn="

    # 调用贴吧爬虫函数，爬取数据

    tiebaSpider(url, begin_page, end_page)

POST方式

Request请求对象里有data参数，这就是用在POST里的，我们要传送的数据就是这个参数data，data是一个字典，里面要有匹配键值对。

以下以有道词典翻译网站为例为模拟POST请求。

#!/usr/bin/python3

# -*- coding:utf-8 -*-

__author__ = 'mayi'

"""

POST方式：以有道词典翻译网站为例

url = "http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule&smartresult=ugc&sessionFrom=null"

"""

# 导入库

import urllib.request

import urllib

url = "http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule&smartresult=ugc&sessionFrom=null"

# chrome 的 User-Agent，包含在 header里

header = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.71 Safari/537.36'}

word = input("请输入需要翻译的词条：")

from_data = {

    "i":word,

    "from":"AUTO",

    "to":"AUTO",

    "smartresult":"dict",

    "doctype":"json",

    "version":"2.1",

    "keyfrom":"fanyi.wed"

}

data = urllib.parse.urlencode(from_data)

data = data.encode(encoding="utf-8")  # str转bytes

request = urllib.request.Request(url, data = data, headers = header)

response = urllib.request.urlopen(request)

html = response.read().decode(encoding = "utf-8").strip()

print(html)

获取AJAX加载的内容

有些网页内容是使用AJAX加载的，AJAX一般返回的是JSON，直接对AJAX地址进行POST或GET，就能返回JSON数据

#!/usr/bin/python3

# -*- coding:utf-8 -*-

__author__ = 'mayi'

"""

获取AJAX加载的数据

有些网页内容使用AJAX加载，只要记得，AJAX一般返回的是JSON,直接对AJAX地址进行post或get，就返回JSON数据了。

以豆瓣为例：

url = "https://movie.douban.com/j/chart/top_list?type=11&interval_id=100:90&action&start=0&limit=100"

"""

# 导入库

import urllib

import urllib.request

url = "https://movie.douban.com/j/chart/top_list?"

# chrome 的 User-Agent，包含在 header里

header = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.71 Safari/537.36'}

from_data = {

    'type':'11',

    'interval_id':'100:90',

    'action':'',

    'start':'0',

    'limit':'100'

}

data = urllib.parse.urlencode(from_data)

data = data.encode(encoding="utf-8")  # str转bytes

request = urllib.request.Request(url, data = data, headers = header)

response = urllib.request.urlopen(request)

html = response.read().decode(encoding = "utf-8")

print(html)

爬虫——GET请求和POST请求的更多相关文章

Ajax中get请求和post请求
我们在使用Ajax向服务器发送数据时,可以采用Get方式请求服务器,也可以使用Post方式请求服务器,那么什么时候该采用Get方式,什么时候该采用Post方式呢? Get请求和Post请求的区别: 1 ...
slave IO流程之二：注册slave请求和dump请求
slave IO流程已经在http://www.cnblogs.com/onlyac/p/5815566.html中有介绍这次我们要探索注册slave请求和dump请求的报文格式和主要流程. 一.注 ...
loadrunner录制脚本如何选择使用get请求和post请求的方式
在loadrunner工具里录制脚本时常常会用到get请求和post请求,有关loadrunner常用的这两类的请求主要有: get请求: web_url 和 web_link post请求: web ...
iOS开发网络篇—GET请求和POST请求
iOS开发网络篇—GET请求和POST请求一.GET请求和POST请求简单说明创建GET请求 // 1.设置请求路径 NSString *urlStr=[NSString stringWithFo ...
普通请求和ajax请求的区别
普通请求和ajax请求的区别? 下面的action返回一个json文件,文件内容为sts.*,data1
iOS开发网络篇—GET请求和POST请求(转)
一.GET请求和POST请求简单说明创建GET请求 1 // 1.设置请求路径 2 NSString *urlStr=[NSString stringWithFormat:@"http:/ ...
GET请求和POST请求的区别
request获取请求参数最为常见的客户端传递参数方式有两种: 浏览器地址栏直接输入:一定是GET请求: 超链接:一定是GET请求: 表单:可以是GET,也可以是POST,这取决与<form& ...
使用SoapUI工具做get请求和post请求接口测试
祝大家节日快乐啦. 之前写过的一篇帖子已经介绍了SoapUI工具的基本使用,所以在此不再重复讲解关于建工程.建测试套件.添加用例等操作,可查看该篇文章详解:http://www.cnblogs.com ...
Ajax相关——get请求和post请求的区别
一.完整的URL由以下几部分组成: scheme:通信协议,常用的有:http/ftp. host:主机,服务器(计算机)域名或IP地址 port:端口,整数,可选,省略时使用默认端口,http的默认 ...

随机推荐

Web测试中定位bug方法
在web测试过程中,经常会遇到页面中内容或数据显示错误,甚至不显示,第一反应就是BUG,没错,确实是BUG.进一步了解这个BUG的问题出在那里,是测试人员需要掌握的,可以简单的使用浏览器自带开发者工具 ...
DLRS(深度学习应用于推荐系统论文汇总--2017年8月整理)
Recommender Systems with Deep Learning Alessandro:ADAAlessandro Suglia, Claudio Greco, Cataldo Musto ...
python 继承式多线程
Thread是线程类,有两种使用方法,直接传入要运行的方法或从Thread继承并覆盖run(): Thread继承 import threading import time class MyThrea ...
SQL Server中的高可用性----复制
在本系列文章的前两篇对高可用性的意义和单实例下的高可用性做了阐述.但是当随着数据量的增长,以及对RTO和RPO要求的严格,单实例已经无法满足HA/DR方面的要求,因此需要做多实例的高可用性.本文着重对 ...
javascript面向对象的写法01
类和对象其他面向对象的语言类的语法是内置的,自然而然的事.javascript中有对象,但没有类的语法,类的实现需要模拟出来. 只需要把对象想成一个容器,里面存放一些属性或方法,把类想象成一个对象的 ...
Siebel escript学习笔记
Siebel(escript)的学习:1.Siebel的数据类型Primitive(原始的)---Number,Integer,Hexadecimal(十六进制),Octal(八进制),Floatin ...
Flask博客类登录注册验证模块代码(十四)
1 文件系统 blog #博客类 App forms #表单 __init__.py user.py models #模型 __init__.py user.py static #静态文件 templ ...
关于Visio的vba操作，遍历目录，对所有vsd文件操作，导入excel文件
1.vba遍历要添加引用,runtime 2.不能打开单独的application,因为在获取到shape的picture属性时候,新打开的application不能够获取到.提示自动化错误. 3.定 ...
bind 详解
请看我的有道云笔记: http://note.youdao.com/noteshare?id=eaf4194473cf4294776fbc263ffe6b89&sub=5CB214C594E0 ...
数组：获取数组中最后一个数据end()函数
今天来学习一下end()函数 1.案例:直接获取数组中最后一个数据代码部分结果: 2.案例:从url中获取最后一个数据代码部分: 结果: 总结: 1.有时候我们需要去获取数据库中,id最大的那个 ...