requests模块

什么是request模块：requests是python原生一个基于网络请求的模块，模拟浏览器发起请求。

requests-get请求

# get请求

import requests

# 指定url

url = 'https://www.sogou.com/'

# 发起get请求：get方法会返回请求成功的响应对象

response = requests.get(url)

if response.status_code == 200:

    with open('sougo.html','w') as f:

        f.write(response.text)

else:

    print('页面获取失败')

response常用属性

# get请求

import requests

# 指定url

url = 'https://www.sogou.com/'

# 发起get请求：get方法会返回请求成功的响应对象

response = requests.get(url)

if response.status_code == 200:

    # print(response.text) # 文本

    print(response.status_code) # 返回一个响应状态码

    print(response.content) # content获取的是response对象中二进制(byte)类型的页面数据

    print(response.headers) # 获取响应头信息

    print(response.url) # 获取请求的url

else:

    print('页面获取失败')

携带参数的get请求

方式1

import requests

# 指定url,参数不需要进行编码处理

url = 'https://www.sogou.com/web?query=周杰伦&ie=utf-8'

# 发起get请求：get方法会返回请求成功的响应对象

response = requests.get(url)

if response.status_code == 200:

    with open('jay.html','wb') as f:

        f.write(response.content)

else:

    print('页面获取失败')

方式2

import requests

url = 'https://www.sogou.com/web'

params = {

    'query':'周杰伦',

    'ie':'utf-8'

}

response = requests.get(url,params=params)

if response.status_code == 200:

    with open('jay.html','wb') as f:

        f.write(response.content)

else:

    print('页面获取失败')

get请求自定义请求头信息

# 自定义请求头信息

import requests

url = 'https://www.sogou.com/web'

# 自定义的请求头信息放在该字典中，然后发请求的时候传到headers参数中

headers = {

    'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36',

}

params = {

    'query':'林宥嘉',

    'ie':'utf-8'

}

response = requests.get(url=url,params=params,headers=headers)

print(response.status_code)

requests-post请求

# post请求

# 指定url

url = 'https://github.com/session'

data = {

    'commit': 'Sign in',

    'utf8': '✓',

    'authenticity_token': 'IRdX8jflo9hKJAZ9mOzQBNnVnOFD7z9MfKvSYCOvrVN4uWz/LDQ81b6wWWy4d8YrvYobfiuLYS92zoK6XgH/LQ==',

    'login': '1032298871@qq.com',

    'password': '09212427zlh'

}

headers = {

    'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36',

}

response = requests.post(url=url,data=data,headers=headers)

with open('github.html','w',encoding='utf-8') as f:

    f.write(response.text)

requests模块ajax的get请求

# 基于ajax的get请求

import requests

url = 'https://movie.douban.com/j/new_search_subjects?'

data = {

    'sort': 'U',

    'range':'0,10',

    'tags': '电影',

    'start': '40'

}

headers = {

    'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36',

}

response = requests.get(url=url,data=data,headers=headers)

# ajax返回的数据类型是json字符串类型

print(response.text)

requests模块ajax的post请求

# 基于ajax的post请求

import requests

import json

url = 'https://fanyi.baidu.com/sug'

data = {

    'kw': '西瓜'

}

headers = {

    'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36',

}

response = requests.post(url=url,headers=headers,data=data)

json_text =response.text

json_data = json.loads(json_text)

print(json_data)

爬取多页数据

# 爬取带有分页的数据

import requests

import os

if not os.path.exists('./page'):

    os.mkdir('page')

url = 'https://zhihu.sogou.com/zhihu?'

work= input('想搜索什么内容')

page_number = input('想获取前几页的内容')

for page in range(1,int(page_number)+1):

    print(page)

    params = {

        'query': work,

        'sut': '13598',

        'lkt': '1,1546144033954,1546144033954',

        'sst0': '1546144034930',

        'page': page,

        'ie': 'utf8'

    }

    response = requests.get(url=url,params=params)

    page_text = response.text

    page_file = './page/%s%s.html'%(work,page)

    with open(page_file,'w',encoding='utf-8') as f:

        f.write(page_text)

requests模块高级：

cookie作用：服务器端使用cookie来记录客户端的状态信息

import requests

session = requests.session()

#1.发起登录请求：将cookie获取，切存储到session对象中

login_url = 'https://accounts.douban.com/login'

data = {

    "source": "None",

    "redir": "https://www.douban.com/people/185687620/",

    "form_email": "15027900535",

    "form_password": "bobo@15027900535",

    "login": "登录",

}

headers={

    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36',

    }

#使用session发起post请求

login_response = session.post(url=login_url,data=data,headers=headers)

#2.对个人主页发起请求（session（cookie）），获取响应页面数据

url = 'https://www.douban.com/people/185687620/'

response = session.get(url=url,headers=headers)

page_text = response.text

with open('./douban110.html','w',encoding='utf-8') as fp:

    fp.write(page_text)

requests使用ip代理

# 使用代理ip爬取百度搜索ip

import requests

url = 'http://www.baidu.com/s?ie=UTF-8&wd=ip'

# 传入的代理ip是个字典，key是协议，value是ip：端口

proxy = {

    'http':'115.28.209.249:3128'

}

response = requests.get(url=url,proxies=proxy)

with open('daili.html','w') as f:

    f.write(response.text)

requests模块的使用的更多相关文章

爬虫requests模块 1
让我们从一些简单的示例开始吧. 发送请求¶ 使用 Requests 发送网络请求非常简单. 一开始要导入 Requests 模块: >>> import requests 然后,尝试 ...
requests 模块
发送请求使用Requests发送网络请求非常简单. 一开始要导入Requests模块: >>> import requests 然后,尝试获取某个网页.本例子中,我们来获取Gith ...
requests模块--python发送http请求
requests模块在Python内置模块(urllib.urllib2.httplib)的基础上进行了高度的封装,从而使得Pythoner更好的进行http请求,使用Requests可以轻而易举的 ...
Python requests模块学习笔记
目录 Requests模块说明 Requests模块安装 Requests模块简单入门 Requests示例参考文档 1.Requests模块说明 Requests 是使用 Apache2 Li ...
Python高手之路【八】python基础之requests模块
1.Requests模块说明 Requests 是使用 Apache2 Licensed 许可证的 HTTP 库.用 Python 编写,真正的为人类着想. Python 标准库中的 urllib2 ...
Python requests模块
import requests 下面就可以使用神奇的requests模块了! 1.向网页发送数据 >>> payload = {'key1': 'value1', 'key2': [ ...
基于python第三方requests 模块的HTTP请求类
使用requests模块构造的下载器,首先安装第三方库requests pip install requests 1 class StrongDownload(object): def __init_ ...
使用requests模块爬虫
虽然干技术多年了,但从没有写过博客,想来甚是惭愧,本篇作为我博客的第一篇,也是测试篇.不为写的好,只为博诸君一眸而已. 使用python爬虫,有几个比较常用的,获取html_content的模块url ...
[实战演练]python3使用requests模块爬取页面内容
本文摘要: 1.安装pip 2.安装requests模块 3.安装beautifulsoup4 4.requests模块浅析 + 发送请求 + 传递URL参数 + 响应内容 + 获取网页编码 + 获取 ...
python爬虫之requests模块介绍
介绍 #介绍:使用requests可以模拟浏览器的请求,比起之前用到的urllib,requests模块的api更加便捷(本质就是封装了urllib3) #注意:requests库发送请求将网页内容下 ...

随机推荐

nginx 中 ulimit 使用修改文件句柄数
使用ulimit -a 可以查看当前系统的所有限制值, 使用ulimit -n<可以同时打开的文件数>设置用户可以同时打开的最大文件数 linux系统默认的只要1024 当做负载较大的服 ...
Docker Swarm 常用命令
# 管理配置文件 docker config # 查看已创建配置文件 - docker config ls # 将已有配置文件添加到docker配置文件中 - dock ...
Python selectors实现socket并发
selectors模块此模块允许基于选择模块原语构建高级别和高效的I / O多路复用. 鼓励用户使用此模块,除非他们想要精确控制使用的os级别的原语. 注:selectors也是包装了select高 ...
【Alpha】Scrum Meeting 5
目录前言任务分配燃尽图会议照片签入记录遇到的困难前言时间: 4.9日中午11.30 地点:F-220 本次会议旨在统计各位同学的进度以及催促任务的进展. 任务分配姓名当前阶段任务 ...
UVA1203 Argus
思路用堆维护每个触发器的下一个事件,每次取出一个事件再把对应触发器的下一个事件加入堆即可代码 #include <cstdio> #include <algorithm> ...
Qt自定义阴影效果和QOpenGLWidget冲突导致控件不刷新
Qt5.6.2版本存在这样一个问题(其它版本未测试),当main函数中设置了application.setAttribute(Qt::AA_NativeWindows)(用于使得每个子界面都可以获取w ...
Fix Python 3 on Windows error Microsoft Visual C++ 14.0 is required
Fix Python 3 on Windows error Microsoft Visual C++ 14.0 is required Fix the error for Python 3.6 and ...
Springboot解决资源文件404,503等特殊报错,无法访问
Springboot解决资源文件404,503等特殊报错原文链接:https://www.cnblogs.com/blog5277/p/9324609.html 原文作者:博客园--曲高终和寡 ** ...
day5.am--拷贝构造与拷贝赋值
Array& operator = Array(Array const& that){ //避免自赋值 if(&that != this){ //释放旧资源 if(m_arra ...
全文检索：haystack+elasticsearch
优点: 1.查询速度快 2.支持中文分词准备工作:安装es软件 1.拷贝到ubuntu 2.docker load -i 文件路径 3.配置修改ip地址 4.docker run -dti --ne ...

requests模块的使用

requests模块

requests-get请求

requests-post请求

requests模块ajax的get请求

requests模块ajax的post请求

爬取多页数据

requests模块高级：

requests使用ip代理

requests模块的使用的更多相关文章

随机推荐

热门专题