Python 网络爬虫与信息获取（一）—— requests 库的网络爬虫

1. 安装与测试

进入 cmd（以管理员权限），使用 pip 工具，pip install requests 进行安装；

基本用法：

>> import requests

>> r = requests.get('http://www.baidu.com')

                    # 访问百度主页

>> r.status_code

200

                    # 状态码，200 表示访问成功

>> r.encoding = 'utf-8'

                    # 修改编码

>> r.text

                    # 打印网页内容

2. requests 库的七个主要方法

request：构造一个请求，是构造以下各方法的基础方法；
- 后续的 6 个方法均需调用 request 方法；
get：获取 html 网页的主要方法，对应于 http 的 get；
- r = requests.get(url)
  - 构造一个向服务器请求资源的 Request 对象；
  - 返回一个包含服务器资源的 Response 对象；
head：获取 html 网页头信息，对应于 http 的 head；
post：向 html 网页提交 post 请求，对应于 http 的 post；
put：向 html 网页提交 put 请求，对应于 http 的 put；
patch：向 html 网页提交局部修改请求（patch，补丁，也就是修改，局部更新），对应于 http 的 patch；
delete：向 html 页面提交删除请求，对应于 http 的 delete；

4. Response 对象的属性

r.status_code
- r.status_code == requests.codes.ok，如果返回 True，则表示打开正常；
r.text：http 相应内容的字符串形式，
r.content：http 相应内容的二进制形式；
r.encoding：猜测的编码，从 headers 中的 charset 中获得，但并非所有的服务器都会对其相关资源的编码进行规定和要求；
- 如果 headers 中不存在 charset，则认为（猜测）其编码为ISO-8859-1
r.apparent_encoding：根据内容分析出的编码方式，备选编码；

>> r = requests.get('http://www.baidu.com')

>> r.encoding

'ISO-8859-1'

>> r.apparent_encoding

'utf-8'

>> r.encoding = r.apparent_encoding

5. 与其他库的结合

BeautifulSoup：做 html 页面的解析；

>> from bs4 import BeautifulSoup

>> r = requests.get(url)

>> BeautifulSoup(r.text).get_text()

Python 网络爬虫与信息获取（一）—— requests 库的网络爬虫的更多相关文章

爬虫1.1-基础知识+requests库
目录爬虫-基础知识+requests库 1. 状态返回码 2. URL各个字段解释 2. requests库 3. requests库爬虫的基本流程爬虫-基础知识+requests库关于html ...
Python爬虫：HTTP协议、Requests库（爬虫学习第一天）
HTTP协议: HTTP(Hypertext Transfer Protocol):即超文本传输协议.URL是通过HTTP协议存取资源的Internet路径,一个URL对应一个数据资源. HTTP协议 ...
Python爬虫（二）：Requests库
所谓爬虫就是模拟客户端发送网络请求,获取网络响应,并按照一定的规则解析获取的数据并保存的程序.要说 Python 的爬虫必然绕不过 Requests 库. 1 简介对于 Requests 库,官方文 ...
python之爬虫（四）之 Requests库的基本使用
什么是Requests Requests是用python语言基于urllib编写的,采用的是Apache2 Licensed开源协议的HTTP库如果你看过上篇文章关于urllib库的使用,你会发现,其 ...
Python爬虫学习==>第八章：Requests库详解
学习目的: request库比urllib库使用更加简洁,且更方便. 正式步骤 Step1:什么是requests requests是用Python语言编写,基于urllib,采用Apache2 Li ...
整理UWP中网络和设备信息获取的帮助类，需要的拿走。
网络(运营商信息,网络类型) public static class NetworkInfo { /// <summary> /// 网络是否可用 /// </summary> ...
Python爬虫：HTTP协议、Requests库
HTTP协议: HTTP(Hypertext Transfer Protocol):即超文本传输协议.URL是通过HTTP协议存取资源的Internet路径,一个URL对应一个数据资源. HTTP协议 ...
python爬虫---从零开始（三）Requests库
1,什么是Requests库 Requests是用python语言编写,基于urllib,采用Apache2 Licensed 开源协议的HTTP库. 它比urllib更加方便,可以节约我们大量的工作 ...
爬虫入门【2】Requests库简介
发送请求使用Requests发送网络请求很简单 #首先要导入requests库 import requests #返回一个Response对象 r=requests.get('https://git ...

随机推荐

CISP/CISA 每日一题 20
CISSP 每日一题(答) What methods can be used to protectmobile devices such as a smartphone? Encryption,GPS ...
【Codeforces Round #451 (Div. 2) D】Alarm Clock
[链接] 我是链接,点我呀:) [题意] 在这里输入题意 [题解] 尺取法+二分. 类似滑动窗口. 即左端点为l,右端点为r. 维护a[r]-a[l]+1总是小于等于m的就好. (大于m就右移左端点) ...
android 仿ios 对话框已封装成工具类
对话框在android中是一种非经常见的交互提示用户的方式,可是非常多产品狗都叫我们这些做android的仿ios,搞的我们android程序猿非常苦逼,凭什么效果老是仿ios,有没有一点情怀,只是 ...
sql 高性能存储过程分页
USE [Lyjjr] GO /****** Object: StoredProcedure [dbo].[P_ViewPage] Script Date: 05/29/2015 17:18:56 * ...
网页设计实战3 ufo类型的科技网页如何实现
网页设计实战3 ufo类型的科技网页如何实现一.总结一句话总结:基础的图片素材就是如何几张图片,这个效果只是通过jquery或者js让那个png图片旋转起来了,如此而已.其实核心就是一个trans ...
JQuery操作数组函数 push(),pop(),unshift(),shift()
1.array.push() :在数组尾部添加新的元素,并返回新的数组长度. 2.array.unshift() :在数组头部添加新的元素,并返回新的数组长度.[听说IE浏览器不支持] 3.array ...
iOS_04_数据类型、常量、变量
一.数据 1.什么是数据 * 生活中时时刻刻都在跟数据打交道,比如体重数据.血压数据.股价数据等.在我们使用计算机的过程中,会接触到各种各样的数据,有文档数据,图片数据,视频数据,还有聊天QQ产生的文 ...
CSS笔记 - fgm练习 - 三个div变色 - CSS div等分布局
<title>三个div变红</title> <style> *{margin: 0; padding: 0} body{ text-align: center; ...
Nginx TCP代理
nginx 在1.9.0 版本发布以前如果要想做到基于TCP的代理及负载均衡需要通过打名为nginx_tcp_proxy_module的第三方patch来实现,该模块的代码托管在github上网址: ...
【hdu 1403】Longest Common Substring
[链接]h在这里写链接 [题意] 求两个串的最长公共子串. [题解] Sa[i]表示的是字典序为i的后缀的起始位置. 可以把两个字符串合在一起(中间用一个比'z'大的字符分割); 则如果Sa[i-1] ...

Python 网络爬虫与信息获取（一）—— requests 库的网络爬虫

1. 安装与测试

2. requests 库的七个主要方法

4. Response 对象的属性

5. 与其他库的结合

Python 网络爬虫与信息获取（一）—— requests 库的网络爬虫的更多相关文章

随机推荐

热门专题