python3 爬虫五大模块之三：网页下载器

Python的爬虫框架主要可以分为以下五个部分：

爬虫调度器：用于各个模块之间的通信，可以理解为爬虫的入口与核心（main函数），爬虫的执行策略在此模块进行定义；

URL管理器：负责URL的管理，包括带爬取和已爬取的URL、已经提供相应的接口函数（类似增删改查的函数）

网页下载器：负责通过URL将网页进行下载，主要是进行相应的伪装处理模拟浏览器访问、下载网页

网页解析器：负责网页信息的解析，这里是解析方式视具体需求来确定

信息采集器：负责将解析后的信息进行存储、显示等处理

代码示例是爬取CSDN博主下的所有文章为例，文章仅作为笔记使用，理论知识rarely

一、网页下载器简介

网页下载器负责根据URL来下载网页。

很多网站有类似的简单防爬措施（比较复杂的我不清楚、目前也不会处理），因此在下载网页时需要进行模拟浏览器的操作，为request操作添加相应的信息。

框架如下：

'''

自定义Python伪代码

'''

   # 最简单的框架

   # 0. 添加头部信息 headers = {}

   # 1. 求请访问一个网站URL : request.Request(url, headers=headers)

   # 2. 获得请求应答: request.urlopen(url_request)

   # 3. 解析应答

     # 1）url_response.read(): 获取应答的数据内容

     # 2）decode('utf-8'): 将获取应答的数据内容转换为utf-8格式，便是观察显示

二、网页下载器示例：（爬取CSDN博主下的所有文章）

# author : sunzd

# date : 2019/3/22

# position: chengdu

from fake_useragent import UserAgent

from urllib import request

from urllib import error

class HtmlDownloader(object):

    def downloader(self, url):

        if url is None:

            print("downloader: Url is None")

            return None

        # 设置用户代理

        # headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36'}

        # 使用伪代理fake UserAgent进行访问

        headers = {'User-Agent': str(UserAgent().random)}

        # print(url)

        req = request.Request(url, headers=headers)

        try:

            html = request.urlopen(req).read()

        except error.URLError as e:

            print("download error:", e.reason)

            html = None

        return html

三、上述代码用到的知识点：

1. 职业生成模拟浏览器头部信息：

from fake_useragent import UserAgent

可以通过pip直接进行安装。在Pycharm下的安装如下：

     headers = {'User-Agent': str(UserAgent().random)}  # 构造头部信息

UserAgent() 可以生成多个浏览器的信息，UserAgent().random 则每次随机选取其中一个信息：

# author : sunzd

# date : 2019/3/23

# position: chengdu

'''

测试fake_useragent的信息

'''

from fake_useragent import UserAgent

users = UserAgent()

'''

users = UserAgent().data_browsers  # 浏览器类型

chrome

opera

firefox

internetexplorer

safari

'''

print(users.chrome)

print(users.opera)

print(users.firefox)

print(users.internetexplorer)

print(users.safari)

'''

Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/35.0.2117.157 Safari/537.36

Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.1; de) Opera 11.01

Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:17.0) Gecko/20100101 Firefox/17.0.6

Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0) chromeframe/10.0.648.205

Mozilla/5.0 (Windows; U; Windows NT 6.0; ja-JP) AppleWebKit/533.20.25 (KHTML, like Gecko) Version/5.0.4 Safari/533.20.27

'''

python3 爬虫五大模块之三：网页下载器的更多相关文章

python3 爬虫五大模块之五：信息采集器
Python的爬虫框架主要可以分为以下五个部分: 爬虫调度器:用于各个模块之间的通信,可以理解为爬虫的入口与核心(main函数),爬虫的执行策略在此模块进行定义: URL管理器:负责URL的管理,包括 ...
python3 爬虫五大模块之四：网页解析器
Python的爬虫框架主要可以分为以下五个部分: 爬虫调度器:用于各个模块之间的通信,可以理解为爬虫的入口与核心(main函数),爬虫的执行策略在此模块进行定义: URL管理器:负责URL的管理,包括 ...
python3 爬虫五大模块之二：URL管理器
Python的爬虫框架主要可以分为以下五个部分: 爬虫调度器:用于各个模块之间的通信,可以理解为爬虫的入口与核心(main函数),爬虫的执行策略在此模块进行定义: URL管理器:负责URL的管理,包括 ...
python3 爬虫五大模块之一：爬虫调度器
Python的爬虫框架主要可以分为以下五个部分: 爬虫调度器:用于各个模块之间的通信,可以理解为爬虫的入口与核心(main函数),爬虫的执行策略在此模块进行定义: URL管理器:负责URL的管理,包括 ...
python爬虫主要就是五个模块：爬虫启动入口模块，URL管理器存放已经爬虫的URL和待爬虫URL列表，html下载器，html解析器，html输出器同时可以掌握到urllib2的使用、bs4（BeautifulSoup）页面解析器、re正则表达式、urlparse、python基础知识回顾（set集合操作）等相关内容。
本次python爬虫百步百科,里面详细分析了爬虫的步骤,对每一步代码都有详细的注释说明,可通过本案例掌握python爬虫的特点: 1.爬虫调度入口(crawler_main.py) # coding: ...
第5章网页下载器和urllib2模块
网页下载器:将互联网上URL对应的网页下载到本地的工具通过网页下载器将互联网中的url网页,存储到本地或内存字符串 python有哪几种网页下载器? 1.urllib2 python官方基础模块 ...
用 python 实现一个多线程网页下载器
今天上来分享一下昨天实现的一个多线程网页下载器. 这是一个有着真实需求的实现,我的用途是拿它来通过 HTTP 方式向服务器提交游戏数据.把它放上来也是想大家帮忙挑刺,找找 bug,让它工作得更好. k ...
python3爬虫.1.简单的网页爬虫
此为记录下我自己的爬虫学习过程. 利用url包抓取网页 import urllib.request #url包 def main(): url = "http://www.douban.co ...
python3爬虫lxml模块的安装
1:在下载lxml之前,要先查看python的版本信息, 在CMD命令行输入python 再输入import pip; print(pip.pep425tags.get_supported()) -- ...

随机推荐

开机时自动启动的AutoHotkey脚本 2019年07月08日19时06分
;;; 开机时自动启动的AutoHotkey脚本;; 此脚本修改时间 2019年06月18日20时48分;; 计时器创建代码段 ------------------------------------ ...
DC-7 靶机渗透测试
DC-7 渗透测试冲冲冲,好好学习 .对管道符的理解加深了好多.最后提权时,遇到了点麻烦.想不懂一条命令为啥能执行生效,耗了一整天才算解决掉. 操作机:kali 172.66.66.129 靶机:D ...
Mybatis-初见
目录介绍示例搭建环境创建一个模块 CURD 万能Map 配置解析环境配置 environments 属性 properties 类型别名 typeAliases 其他配置映射器 mappe ...
手写Pascal解释器（三）
目录一.part7 抽象语法树和具体语法树(解析树) 代码实现二.part8 一.part7 资料来源:https://ruslanspivak.com/lsbasi-part7/ 看作者博客的标 ...
C++ 多态案例（//多态案例----制作饮品 //描述：煮水冲泡倒入杯中加入辅料）
1 //多态案例----制作饮品 2 //描述:煮水冲泡倒入杯中加入辅料 3 4 #include <iostream> 5 #include <string> 6 us ...
python脚本监控股票价格钉钉推送
关注股市,发家致富问题:一天天盯着股市多累,尤其上班,还不能暴露,股票软件,红红绿绿,这么明显的列表页面,一看就知道在摸鱼.被领导发现饭碗就没了解决:搞个脚本监听一下自己关注的股票,一到价格就发个 ...
SQL 练习32
查询不及格的课程 SELECT * from Course WHERE CId IN (SELECT cid from sc WHERE score < 60 GROUP BY cid)
MySQL——分表，分库操作
说明大数据量并且访问频繁的表,将其分为若干个表.如果不分的话,进行一次查询就会将表锁住,导致不能进行其他操作,故分表.表分割垂直分割应用场景:热数据放一个表里,冷数据放一个表里.冷数据使用MyIsa ...
servlet防止表单重复提交
日常开发中,防表单重复提交是一项必须的工作我们可以利用javascript防止表单重复提交,但是利用javascript防止表单重复提交会出现一个新的问题因为某些用户可能会绕过script代码直接 ...
wpf toggleSwitch 的只读属性
xml code --------------------------------------------- <Page x:Class="UWPDemo.MainPage" ...

python3 爬虫五大模块之三：网页下载器

python3 爬虫五大模块之三：网页下载器的更多相关文章

随机推荐

热门专题