Python 爬虫神器 requests 工具

2024-05-27 10:48:53 原文

一、模块安装

pip install requests

二、常用方法

在实际的爬虫中，其实真正用到的只有 GET、POST，像其他的方法基本用不到，比如：DELETE、HEAD、PUT 等。

1、GET 方法

headers = {'user-agent': 'my-app/0.0.1'}

payload = {'key1': 'value1', 'key2': 'value2'}

requests.get(url, params=payload, headers=headers)

2、POST 方法

headers = {'user-agent': 'my-app/0.0.1'}

payload = {'key1': 'value1', 'key2': 'value2'}

requests.post(url, data=payload, headers=headers)

3、参数设置

禁用证书验证

verify = False

如果爬取的目标网站是 HTTPS 的，那么需要设置下这个参数。

代理设置

proxies = {

'http': 'http://10.10.1.10:3128',

'https': 'http://10.10.1.10:1080',

}

proxies = proxies

设置代理的目的是隐藏真实的IP地址，防止被禁IP地址。

HTTP Auth 认证

auth = HTTPBasicAuth('admin', 'admin')

如果网站设置了 Auth 认证，需要配置这个参数传递账号密码。

附：

requests地址 https://requests.readthedocs.io

三、案例

搞爬虫都是注重效率的，俗话说："工欲善其，必先利其器"。那我们在这里利用一个工具将 CURL 请求直接生成 Python 代码。

复制网络请求的 CURL 命令。

将 CURL 命令转换成 Python 代码

最终生成的 Python 代码

附：

目标网址 https://spa1.scrape.center/

工具地址 https://curlconverter.com/python/

四、小结

1、requests 工具是编写爬虫程序中最常用的模块。

2、为了提高爬虫程序的编写效率直接使用 curlconverter 工具，将 curl 命令转换成 Python 代码。

3、本篇文章主要是作为笔记记录下，希望这些内容能够对你有帮助。

Python 爬虫神器 requests 工具的更多相关文章

孤荷凌寒自学python第六十七天初步了解Python爬虫初识requests模块
孤荷凌寒自学python第六十七天初步了解Python爬虫初识requests模块 (完整学习过程屏幕记录视频地址在文末) 从今天起开始正式学习Python的爬虫. 今天已经初步了解了两个主要的模块: ...
Python爬虫练习(requests模块)
Python爬虫练习(requests模块) 关注公众号"轻松学编程"了解更多. 一.使用正则表达式解析页面和提取数据 1.爬取动态数据(js格式) 爬取http://fund.e ...
python爬虫之requests库
在python爬虫中,要想获取url的原网页,就要用到众所周知的强大好用的requests库,在2018年python文档年度总结中,requests库使用率排行第一,接下来就开始简单的使用reque ...
Python爬虫之requests
爬虫之requests 库的基本用法基本请求: requests库提供了http所有的基本请求方式.例如 r = requests.post("http://httpbin.org/pos ...
python爬虫之requests库介绍(二)
一.requests基于cookie操作引言:有些时候,我们在使用爬虫程序去爬取一些用户相关信息的数据(爬取张三“人人网”个人主页数据)时,如果使用之前requests模块常规操作时,往往达不到我们 ...
Python爬虫之requests库介绍(一)
一:Requests: 让 HTTP 服务人类虽然Python的标准库中 urllib2 模块已经包含了平常我们使用的大多数功能,但是它的 API 使用起来让人感觉不太好,而 Requests 自称 ...
Python爬虫之requests模块(1)
一.引入 Requests 唯一的一个非转基因的 Python HTTP 库,人类可以安全享用. 警告:非专业使用其他 HTTP 库会导致危险的副作用,包括:安全缺陷症.冗余代码症.重新发明轮子症.啃 ...
Python爬虫之requests模块(2)
一.今日内容 session处理cookie proxies参数设置请求代理ip 基于线程池的数据爬取二.回顾 xpath的解析流程 bs4的解析流程常用xpath表达式常用bs4解析方法三. ...
python爬虫值requests模块
- 基于如下5点展开requests模块的学习什么是requests模块 requests模块是python中原生的基于网络请求的模块,其主要作用是用来模拟浏览器发起请求.功能强大,用法简洁高效.在 ...
Python爬虫【requests】request for humans
安装 pip install requests 源码 git clone git://github.com/kennethreitz/requests.git 导入 import requests 发 ...

随机推荐

openGauss社区入门（openGauss-定时任务）
为什么要使用定时任务在一个固定的时间点活间隔一段时间需要频繁触发某一动作,为了使用便捷,有了定时任务,极大的减少了工作的重复性,提高了效率. 定时任务的内容基于定时任务产生的背景,定时任务内容包括 ...
vue3探索——使用ref与$parent实现父子组件间通信
在vue3中,可以使用vue3的API defineExpose()函数结合ref或者$parent,实现父子组件数据的传递. 子组件向父组件传递数据defineExpose()和ref 子组件:通过 ...
HarmonyOS Lottie组件，让动画绘制更简单
原文:https://mp.weixin.qq.com/s/eC7g9ya4f_2AiNgteiyXcw,点击链接查看更多技术内容. 动画是UI界面的重要元素之一,精心设计的动画能使UI界面更直观,有 ...
前端与 HTML
0x1 前端什么是前端解决图形用户界面(GUI)人机交互的问题跨终端 PC/移动浏览器客户端/小程序 VR/AR 等 Web 技术栈一句话总结前端工程师的工作:使用 Web 技术栈解决多端 ...
k8s 深入篇———— 一些容器操作的原理[三]
前言简单介绍一下一些容器的操作原理. 正文 docker exec 是怎么做到进入容器里的呢. 比如说: 这里有一个容器,我们可以exec 进去: docker exec -it b265 /bin ...
力扣383(java&python)-赎金信（简单）
题目: 给你两个字符串:ransomNote 和 magazine ,判断 ransomNote 能不能由 magazine 里面的字符构成. 如果可以,返回 true :否则返回 false . m ...
力扣504(java)-七进制数（简单）
题目: 给定一个整数 num,将其转化为 7 进制,并以字符串形式输出. 示例 1: 输入: num = 100输出: "202"示例 2: 输入: num = -7输出: &qu ...
力扣693(java)-交替位二进制数（简单）
题目: 给定一个正整数,检查它的二进制表示是否总是 0.1 交替出现:换句话说,就是二进制表示中相邻两位的数字永不相同. 示例 1: 输入:n = 5输出:true解释:5 的二进制表示是:101示例 ...
一遇到复杂分析查询就卡顿？MySQL分析实例了解一下
随着企业数据爆发式增长,MySQL分析查询卡顿问题越来越多,用户时效性不能保证,精细化运营诉求不能满足.如何能无缝对接业务库,实现毫秒级针对万亿级数据进行即时的多维分析透视和业务探索,MySQL分析实 ...
WebAssembly + Dapr = 下一代云原生运行时？
简介: 云计算已经成为了支撑数字经济发展的关键基础设施.云计算基础设施也在持续进化,从 IaaS,到容器即服务(CaaS),再到 Serverless 容器和函数 PaaS (fPaaS 或者 Faa ...