描述:requests是python的一个第三方HTTP(Hypertext Transfer Protocol,超文本传输协议)库,它比python自带的网络库urllib更加简单、方便和人性化;使用requests可以让python实现访问网页并获取源代码的功能;使用requests获取网页的源代码,最简单的情况下只需要两行代码

# 使用requests获取源代码
import requests
source = requests.get('https:www.baidu.com').content.decode()

1、安装requests库

sudo apt install requests
或者
sudo pip3 install requests -i https://mirrors.aliyun.com/pypi/simple

2、使用requests获取网页源代码

  2.1 GET方式

  对于使用get方式的网页,在python中可以使用requests的get()方法获取网页的源代码:

 import requests
html = requests.get('网址')
html_bytes = html.content
html_str = html_bytes.decode('utf-8')

  说明:(1)第1行导入requests库。

     (2)第2行使用get方法获取了网页,得到一个response对象。

     (3)第3行使用.content这个属性来显示bytes型网页的源代码,中文无法正常显示。

     (4)第4行将bytes型的网页源代码解析为字符串型的源代码。utf-8为编码格式

  代码合并

import requests
html_str = requests.get('网址').content.decode()

  2.2 POST方式

  对于使用post方式的网页,在python中可以使用requests的post()方法获取网页的源代码:

 import requests
date = {'key1':'value1',
'key2':'value2'}
html_formdata = requests.post('网址', data=data).content.decode()
# 利用formdata提交数据

  说明:(1)data这个字典视情况而定,构造这个字典是任务之一。

     (2)当一些网址提交的内容为json时,post()方法的参数会进行调整

        html_json = requests.post('网址',json=data).content.decoade() # 使用json提交数据

        requests可以自动将字典转换为JSON字符串

3、 结合requests与正表达式

  说明:通过requests获得了网页的源代码,就可以对源代码字符串使用正则表达式来提取文本信息。

4、多线程爬虫

  说明:(1)python这门语言有一个全局解释器锁(Global Interpreter Lock,GIL),导致python的多线程都是伪多线程,本质上是一个线程,不过线程间隔时间很短,宏观上是连续的。这种机制对I/O密集型的操作上影响不大,但是对于CPU计算密集型的操作上面,因为只能使用CPU的一个核,对性能产生很大的影响;涉及计算密集型的程序,需要使用多进程,python的多进程不受GIL的影响。

  4.1 多进程库(multiprocessing)

   说明:(1)multiprocessing本身是python的多进程库,用来处理与多进程相关的操作。但是由于进程与进程之间不能直接共享内存和堆栈资源,而且启动新的进程开销也比线程大得多,因此使用多线程来爬取比使用多进程有更多的优势。

      (2)multiprocessing下面有一个dummy模块,它可以让python的线程使用multiprocessing的各种方法。

      (2)dummy下面有一个Pool类,它用来实现线程池,这个线程池有一个map()方法,可以让线程池里面的所有线程都“同时”执行一个函数。

例子:

 from multiprocessing.dummy import Pool
def calc_num(num):
return num*num
pool = Pool(5)
origin_num = [x for x in range(10)]
result = pool.map(calc_num, origin_num)
print(result)

    说明:线程池的map()方法接收两个参数,第1个参数是函数名,第2个参数是一个列表。

    注意:第1个参数仅仅是函数的名字,不能带括号。第2个参数是一个可迭代的对象,这个可迭代对象里面的每一个元素都会被函数calc_num()接收作为参数。

       除了列表,元组、集合或则字典都可以作为map()的第2个参数。

  4.2 开发多线程爬虫

    说明:爬虫是I/O密集型的操作,特别是在请求网页源代码的时候,如果使用单线程来开发,会浪费大量的时间来等待网页返回,所以把多线程技术应用到爬虫中,可以大大提高爬虫的运行效率。

    例子:

 from multiprocessing.dummy import Pool
import requests def query(url):
requests.get(url)
url_list = []
for i in range(100):
url_list.append('https://baidu.com')
pool = Pool(5)
pool.map(query, url_list)

  4.3 爬虫的常见搜索算法

    (1)深度优先搜索

    (2)广度优先搜索

五、request模块的更多相关文章

  1. dojo/request模块整体架构解析

    总体说明 做前端当然少不了ajax的使用,使用dojo的童鞋都知道dojo是基于模块化管理的前端框架,其中对ajax的处理位于dojo/request模块.一般情况下我们使用ajax请求只需要引入do ...

  2. node.js的request模块

    request模块让http请求变的更加简单.最简单的一个示例: 1: var request = require('request'); 2:  3: request('http://www.goo ...

  3. python爬虫主要就是五个模块:爬虫启动入口模块,URL管理器存放已经爬虫的URL和待爬虫URL列表,html下载器,html解析器,html输出器 同时可以掌握到urllib2的使用、bs4(BeautifulSoup)页面解析器、re正则表达式、urlparse、python基础知识回顾(set集合操作)等相关内容。

    本次python爬虫百步百科,里面详细分析了爬虫的步骤,对每一步代码都有详细的注释说明,可通过本案例掌握python爬虫的特点: 1.爬虫调度入口(crawler_main.py) # coding: ...

  4. python接口自动化测试(一)-request模块

    urllib.request模块是python3针对处理url的. 1. 首先导入: from urllib import request 2. 构造url,构造url的headers信息和传参[re ...

  5. request 模块详细介绍

    request 模块详细介绍 request Requests 是使用 Apache2 Licensed 许可证的 基于Python开发的HTTP 库,其在Python内置模块的基础上进行了高度的封装 ...

  6. 第5月第10天 node.js的request模块

    1.node.js的request模块 http://www.cnblogs.com/meteoric_cry/archive/2012/08/18/2645530.html

  7. 【nodejs】理想论坛帖子下载爬虫1.07 使用request模块后稳定多了

    在1.06版本时,访问网页采用的时http.request,但调用次数多以后就问题来了. 寻找别的方案时看到了https://cnodejs.org/topic/53142ef833dbcb076d0 ...

  8. python flask的request模块以及在flask编程中遇到的坑

    一.首先来讲讲遇到的坑: 1.linux下package的打包引用: """ 路径结构如下: ./project ./bin ./api ""&quo ...

  9. 爬虫之urllib包以及request模块和parse模块

    urllib简介 简介 Python3中将python2.7的urllib和urllib2两个包合并成了一个urllib库 Python3中,urllib库包含有四个模块: urllib.reques ...

  10. python3中urllib库的request模块详解

    刚刚接触爬虫,基础的东西得时时回顾才行,这么全面的帖子无论如何也得厚着脸皮转过来啊! 原帖地址:https://www.2cto.com/kf/201801/714859.html 什么是 Urlli ...

随机推荐

  1. mysql 低版本导入表中包含两个TIMESTAMP报错问题

    错误代码: 1293  Incorrect table definition; there can be only one TIMESTAMP column with CURRENT_TIMESTAM ...

  2. laravel-middleware中间件常用使用方法

    介绍 中间件提供了一种方便的机制过滤进入应用程序的 HTTP 请求.例如,Laravel 包含一个中间件,验证您的应用程序的用户身份验证.如果用户未被认证,中间件会将用户重定向到登录界面.然而,如果用 ...

  3. AE(ArcGIS Engine)的安装与配置(附加ArcGIS安装及所需安装包)

    https://blog.csdn.net/qq_38281942/article/details/82534279

  4. 部署web应用程序到tomcat

    昨天将一个web项目部署到本地的tomcat,历程很艰辛,各种报错.首先这个项目可以用eclipse内嵌的jetty启动起来,试着用tomcat容器,各种报错.以下是详细步骤: 1.用eclipse打 ...

  5. [IOI2002] 任务安排

    题目链接 题意 一些不能改变顺序的任务被分成若干批,每批包含相邻的若干任务.第 $i$ 个任务单独完成所需的时间是 $T_i$.在每批任务开始前,机器需要启动时间 $S$,而完成这批任务所需的时间是各 ...

  6. OpenCV的视频输入和相似度测量

    #include <iostream> #include <string> #include <iomanip> // 控制浮动类型的打印精度 #include & ...

  7. C++-HDU1394-Minimum Inversion Number[数据结构][树状数组]

    给出0~n-1的一个排列,可以整体移动,求逆序对最小值 把数字num[i]的加入,等价于树状数组的第n-num[i]位加1 因为num[i]是第 (n-1)-num[i]+1=n-num[i]大的数字 ...

  8. css各类选择器类型和用法

    1.ID 选择器(ID selector,IS):使用 # 标识selector,语法格式:#S{...}(S为选择器名).例:id为name的标签会匹配下面的样式 <style> #na ...

  9. VMare安装及虚拟机的安装

    VMware安装 1.下载安装包安装 2.安装虚拟机 ![](ht p 接下来的开启虚拟机按照默认的配置 install or upgrade an existing system skip(选择跳过 ...

  10. 牛客多校第一场 A Equivalent Prefixes 单调栈(笛卡尔树)

    Equivalent Prefixes 单调栈(笛卡尔树) 题意: 给出两个数组u,v,每个数组都有n个不同的元素,RMQ(u,l,r)表示u数组中[l,r]区间里面的最小值标号是多少,求一个最大的m ...