requests（爬虫常用）库的使用

Requests库的使用

基于urllib改写的库

示例：

import requests

response=requests.get('http://www.baidu.com')#get请求

print(response.status_code,response.url,response.cookies,response.text,sep='\n')

import requests

response=requests.post('http://httpbin.org/post')#post请求

print(response.text)#.text得到的都是字符串类型的值

带参数的get请求

import requests

data={

    'name':'abc',

    'age':15

}

response=requests.get('http://httpbin.org/get',params=data)#post的参数请求时data=data

print(response.text)

----------------------------------------------

#或者直接将参数拼接在url上
import requests

response=requests.get('http://httpbin.org/get？name=adas&age=12')

print(response.text)

将返回的结果变为json格式

import requests

import json

response=requests.get('http://httpbin.org/get')

print(response.json())

print(json.loads(response.text))#等价于上面的

获取二进制数据

 import requests

 response=requests.get('https://weibo.com/favicon.ico')

 print(response.content)

 with open('weibo.ico','wb')as f:

     f.write(response.content)

添加http的headers属性

 import requests

 headers={

 "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.108 Safari/537.36"

 }

 response=requests.get('https://zhihu.com/',headers=headers)

 print(response.status_code)

 print(response.text)

带参数的post请求

import requests

data={

    'name':'wang',

    'age':88

}

headers={

    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.108 Safari/537.36"

}

response=requests.post('http://httpbin.org/post',data=data,headers=headers)

print(response.text)

response的一些属性

 import requests

 response=requests.get('http://www.baidu.com')

 print(response.headers)

 print(response.text)

 print(response.status_code)

 print(response.content)

 print(response.cookies)

 #...还有就省略了

response状态码的判断

 import requests

 response=requests.get('http://www.baidu.com')

 # if response.status_code==requests.codes.ok:

 if response.status_code==200:

     print('ok')

 else:

     print('error')

文件上传

import requests

files={

    'file':open('weibo.ico','rb')

}

response=requests.post('http://httpbin.org/post',files=files)

print(response.text)

获取cookie

import requests

response=requests.get('htt

cook=response.cookies

print(type(cook))

for key,value in cook.item

    print(key,'=',value)

维持会话

模拟登陆

import requests

s=requests.Session()#声明session对象，通过session请求网站

s.get('http://httpbin.org/cookies/set/name/123')

response=s.get('http://httpbin.org/cookies')

print(response.text)

证书验证

import requests

from requests.packages import urllib3

urllib3.disable_warnings()#去除py警告

response=requests.get('https://www.12306.cn',verify=False)#去除证书验证

print(response.status_code)

代理ip

import requests

proxies={

    'http': 'http://47.89.10.103:80/'

}

response=requests.get('http://www.geogle.com',proxies=proxies)

print(response.text)

有密码的代理ip

import requests

proxies={

    'http':'http://user.password@47.89.10.103:80'

}

response=requests.get('http://www.geogle.com',proxies=proxies)

print(response.text)

超时设置

import requests

from requests.exceptions import ReadTimeout

try:

    response=requests.get('https://taobao.com',timeout=0.1)

except ReadTimeout as e:

    print('timeout')

认证设置(需要直接登陆才能查看网站)

import requests

from requests import HTTPBasicAuth

response=requests.get('http://115.44.48.789:8888',auth=HTTPBasicAuth('user',''))

print(response.status_code)

异常处理

import requests

from requests import ReadTimeout,ConnectionError,RequestException

try:

    response=requests.get('http://www.baidu.com',timeout=0.5)

    print(response.status_code)

except ReadTimeout:

    print('timeout')

except ConnectionError:

    print('connectionerror')

except RequestException:

    print('requesterror')

requests（爬虫常用）库的使用的更多相关文章

爬虫-Python爬虫常用库
一.常用库 1.requests 做请求的时候用到. requests.get("url") 2.selenium 自动化会用到. 3.lxml 4.beautifulsoup 5 ...
Python爬虫学习==>第五章：爬虫常用库的安装
学习目的: 爬虫有请求库(request.selenium).解析库.存储库(MongoDB.Redis).工具库,此节学习安装常用库的安装正式步骤 Step1:urllib和re库这两个库在安装 ...
Python爬虫常用库安装
建议更换pip源到国内镜像,下载会快很多:https://www.cnblogs.com/believepd/p/10499844.html requests pip3 install request ...
python爬虫常用库和安装 -- windows7环境
1:urllib python自带 2:re python自带 3:requests pip install requests 4:selenium 需要依赖chrome ...
爬虫常用库之pyquery 库
pyquery库是jQuery的Python实现,可以用于解析HTML网页内容,我个人写过的一些抓取网页数据的脚本就是用它来解析html获取数据的.他的官方文档地址是:http://packages. ...
Python 爬虫常用库（九）
[python爬虫]Requests-BeautifulSoup-Re库方案--Requests库介绍
[根据北京理工大学嵩天老师“Python网络爬虫与信息提取”慕课课程编写文章中部分图片来自老师PPT 慕课链接:https://www.icourse163.org/learn/BIT-10018 ...
[python爬虫]Requests-BeautifulSoup-Re库方案--robots协议与Requests库实战
[根据北京理工大学嵩天老师“Python网络爬虫与信息提取”慕课课程编写慕课链接:https://www.icourse163.org/learn/BIT-1001870001?tid=100223 ...
Python 爬虫常用的库
一.常用库 1.requests 做请求的时候用到. requests.get("url") 2.selenium 自动化会用到. 3.lxml 4.beautifulsoup 5 ...
$python爬虫系列（2）—— requests和BeautifulSoup库的基本用法
本文主要介绍python爬虫的两大利器:requests和BeautifulSoup库的基本用法. 1. 安装requests和BeautifulSoup库可以通过3种方式安装: easy_inst ...

随机推荐

十分钟了解HTTP协议
概念 HTTP(Hypertext Transfer Protocol,超文本传输协议)是TCP/IP协议的应用(封装). HTTP协议是单向通讯,无状态,主要应用于B/S模型的网络软件,客户端一(多 ...
python 学习分享-购物车实操篇
程序要求如下: '''购物车程序: 启动程序后,输入用户名密码后,如果是第一次登录,让用户输入工资,然后打印商品列表允许用户根据商品编号购买商品用户选择商品后,检测余额是否够,够就直接扣款,不够就 ...
day01_01.了解php
1.了解PHP 第一个程序 echo 'hello world'; 和python的区别,python是 print (hello world) 并且python结尾没有;2.X版本不需要加括号,但是 ...
linux随笔四
1.ps -ef : -e 显示系统上运行的所有进程,-f 显示一些有用的信息列 UID:负责启动进程的用户 PID:进程的ID PPID:父进程的PID(某个进程由另一个进程启动) C: ...
【LeetCode】Remove Duplicates from Sorted Array(删除排序数组中的重复项)
这道题是LeetCode里的第26道题. 题目描述: 给定一个排序数组,你需要在原地删除重复出现的元素,使得每个元素只出现一次,返回移除后数组的新长度. 不要使用额外的数组空间,你必须在原地修改输入数 ...
VirtualBox 安装XP虚拟机，安装DB2
个人随笔记录,也许说的不太清楚. 1. 用google搜索VirtualBox, 找到下载地址,下载,我的是win7,下载64bit的. 2. 下载后,安装VBox软件,这个没遇到问题. 3. 因为我 ...
IO Streams：字符流
简介 Java平台使用Unicode约定存储字符值.字符流I / O自动将此内部格式转换为本地字符集.在西方,本地字符集通常是ASCII的8位超集. 对于大多数应用,具有字符流的I / O并不比具有字 ...
【Luogu】P4358密钥破解（Pollard Rho）
题目链接容易发现如果我们求出p和q这题就差不多快变成一个sb题了. 于是我们就用Pollard Rho算法进行大数分解. 至于这个算法的原理,emmm 其实也不是很清楚啦 #include<c ...
PHP的发展史,功能与特点
web1.0时代:所有的代码都是在浏览器端执行的静态脚本,用户请求的也都是服务器上事先已经存在的静态网页,用户和服务器之间不能进行任何的交互!(不需要数据库的支持) web2.0时代:用户和服务器之间 ...
poj 3068 "Shortest" pair of paths
"Shortest" pair of paths Time Limit: 1000MS Memory Limit: 65536K Total Submissions: 1407 ...

requests（爬虫常用）库的使用

requests（爬虫常用）库的使用的更多相关文章

随机推荐

热门专题