网络爬虫入门：你的第一个爬虫项目（requests库）

0.采用requests库

虽然urllib库应用也很广泛，而且作为Python自带的库无需安装，但是大部分的现在python爬虫都应用requests库来处理复杂的http请求。requests库语法上简洁明了，使用上简单易懂，而且正逐步成为大多数网络爬取的标准。

1. requests库的安装
采用pip安装方式，在cmd界面输入：

pip install requests

小编推荐一个学python的学习qun 491308659 验证码：南烛
无论你是大牛还是小白，是想转行还是想入行都可以来了解一起进步一起学习！裙内有开发工具，很多干货和技术资料分享

2. 示例代码
我们将处理http请求的头部处理来简单进行反反爬虫处理，以及代理的参数设置，异常处理等。

import requests

def download(url, num_retries=2, user_agent='wswp', proxies=None):

    '''下载一个指定的URL并返回网页内容

        参数：

            url(str): URL

        关键字参数：

            user_agent(str):用户代理（默认值：wswp）

            proxies（dict）： 代理（字典）: 键：‘http’'https'

            值：字符串（‘http(s)://IP’）

            num_retries(int):如果有5xx错误就重试（默认：2）

            #5xx服务器错误，表示服务器无法完成明显有效的请求。

            #https://zh.wikipedia.org/wiki/HTTP%E7%8A%B6%E6%80%81%E7%A0%81

    '''

    print('==========================================')

    print('Downloading:', url)

    headers = {'User-Agent': user_agent} #头部设置，默认头部有时候会被网页反扒而出错

    try:

        resp = requests.get(url, headers=headers, proxies=proxies) #简单粗暴，.get(url)

        html = resp.text #获取网页内容，字符串形式

        if resp.status_code >= 400: #异常处理，4xx客户端错误 返回None

            print('Download error:', resp.text)

            html = None

            if num_retries and 500 <= resp.status_code < 600:

                # 5类错误

                return download(url, num_retries - 1)#如果有服务器错误就重试两次

    except requests.exceptions.RequestException as e: #其他错误，正常报错

        print('Download error:', e)

        html = None

    return html #返回html

print(download('http://www.baidu.com'))

结果：

Downloading: http://www.baidu.com

<!DOCTYPE html>

<!--STATUS OK-->

</script>

<script>

if(navigator.cookieEnabled){

    document.cookie="NOJS=;expires=Sat, 01 Jan 2000 00:00:00 GMT";

}

</script>

</body>

</html>

网络爬虫入门：你的第一个爬虫项目（requests库）的更多相关文章

爬虫入门系列（三）：用 requests 构建知乎 API
爬虫入门系列目录: 爬虫入门系列(一):快速理解HTTP协议爬虫入门系列(二):优雅的HTTP库requests 爬虫入门系列(三):用 requests 构建知乎 API 在爬虫系列文章优雅的H ...
爬虫框架Scrapy的第一个爬虫示例入门教程
我们使用dmoz.org这个网站来作为小抓抓一展身手的对象. 首先先要回答一个问题. 问:把网站装进爬虫里,总共分几步? 答案很简单,四步: 新建项目 (Project):新建一个新的爬虫项目明确目 ...
Python爬虫入门教程 37-100 云沃客项目外包网数据爬虫 scrapy
爬前叨叨 2019年开始了,今年计划写一整年的博客呢~,第一篇博客写一下一个外包网站的爬虫,万一你从这个外包网站弄点外快呢,呵呵哒数据分析官方网址为 https://www.clouderwor ...
python爬虫从入门到放弃（四）之 Requests库的基本使用
什么是Requests Requests是用python语言基于urllib编写的,采用的是Apache2 Licensed开源协议的HTTP库如果你看过上篇文章关于urllib库的使用,你会发现,其 ...
python爬虫从入门到放弃（四）之 Requests库的基本使用(转)
什么是Requests Requests是用python语言基于urllib编写的,采用的是Apache2 Licensed开源协议的HTTP库如果你看过上篇文章关于urllib库的使用,你会发现,其 ...
python爬虫06 | 你的第一个爬虫，爬取当当网 Top 500 本五星好评书籍
来啦,老弟我们已经知道怎么使用 Requests 进行各种请求骚操作也知道了对服务器返回的数据如何使用正则表达式来过滤我们想要的内容 ... 那么接下来我们就使用 requests 和 re ...
一起学爬虫——通过爬取豆瓣电影top250学习requests库的使用
学习一门技术最快的方式是做项目,在做项目的过程中对相关的技术查漏补缺. 本文通过爬取豆瓣top250电影学习python requests的使用. 1.准备工作在pycharm中安装request库 ...
爬虫入门手写一个Java爬虫
本文内容涞源于罗刚老师的书籍 << 自己动手写网络爬虫一书 >> ; 本文将介绍 1: 网络爬虫的是做什么的? 2: 手动写一个简单的网络爬虫; 1: 网络爬虫是做 ...
爬虫入门-使用python写简单爬虫
从第一章到上一章为止,基本把python所有的基础点都已经包括了,我们有控制逻辑的关键字,有内置数据结构,有用于工程需要的函数和模块,又有了标准库和第三方库,可以写正规的程序了. python可以做非 ...
Python爬虫入门教程 61-100 写个爬虫碰到反爬了，动手破坏它！
python3爬虫遇到了反爬当你兴冲冲的打开一个网页,发现里面的资源好棒,能批量下载就好了,然后感谢写个爬虫down一下,结果,一顿操作之后,发现网站竟然有反爬措施,尴尬了. 接下来的几篇文章,我们 ...

随机推荐

vue 双语言切换中，data内翻译文字不正常切换的解决方案
背景有这么一个登录页面,相关功能如下: 支持双语言,点击切换语言表单内部有一个自定义的select,里面option的label.value都是的名字由外部提供:其中预设的option的label ...
[从今天开始修炼数据结构]图的最小生成树 —— 最清楚易懂的Prim算法和kruskal算法讲解和实现
接上文,研究了一下算法之后,发现大话数据结构的代码风格更适合与前文中邻接矩阵的定义相关联,所以硬着头皮把大话中的最小生成树用自己的话整理了一下,希望大家能够看懂. 一.最小生成树 1,问题最小生成树 ...
【Java Web开发学习】Spring MVC添加自定义Servlet、Filter、Listener
[Java Web开发学习]Spring MVC添加自定义Servlet.Filter.Listener 转载:https://www.cnblogs.com/yangchongxing/p/9968 ...
新安装mariadb远程登陆配置及相关问题排查
前言: 安装过程不再赘述,直接说问题,mysql的远程连接需要解决两个问题:1.允许root用户远程连接.2.允许任意ip远程连接数据库.当然,在测试和解决问题之前,得首先保证你的数据库与远程主机之间 ...
Socket与系统调用深度分析
学习一下对Socket与系统调用的分析分析一.介绍我们都知道高级语言的网络编程最终的实现都是调用了系统的Socket API编程接口,在操作系统提供的socket系统接口之上可以建立不同端口之间的 ...
C++类成员默认初始值
有时候我们会不给C++类成员变量赋初始值,或是因为忘记在构造函数中指定(C++11可以写在类内),或是觉得没有必要写.然而,因为觉得编译器会把变量赋成0而不写是错误的.本文通过C++标准来解释这个问题 ...
CCF-CSP题解 201803-3 URL映射
题目要求写一个简易的URL规则和URL地址匹配的程序. 说说我的思路. 将URL规则和地址都截成片段用结构体\(<type, str[]>\)存储.对于URL规则,\(type\)为0代表 ...
dev gridcontrol简单的动态设置动态表头
1)使用BandedGridView控件(此处演示BandedGridView控件包含8个列)2)往BandedGridView控件里添加GridBand控件(此处演示添加了4个) 3)///设置添加 ...
MVC模式与Servlet执行流程
##Servlet生命周期五个部分,从加载到卸载,如同人类的出生到死亡加载:Servlet容器自动处理初始化:init方法该方法会在Servlet被加载并实例化后执行服务:service抽象 ...
Tomcat系列（一）- 整体架构
整体架构我们想要了解一个框架,首先要了解它是干什么的,Tomcat我们都知道,是用于处理连接过来的Socket请求的.那么Tomcat就会有两个功能: 对外处理连接,将收到的字节流转化为自己想要的R ...

网络爬虫入门：你的第一个爬虫项目（requests库）

网络爬虫入门：你的第一个爬虫项目（requests库）的更多相关文章

随机推荐

热门专题