静态网页抓取

在网站设计中，纯HTML格式的网页通常被称之为静态网页，在网络爬虫中静态网页的数据比较容易抓取，因为说有的数据都呈现在网页的HTML代码中。相对而言使用Ajax动态加载的玩个的数据不一定会出现在HTML代码中，就给爬虫抓取增加了难度。

在静态网页抓取中，有一个强大的requests库能够让你轻松的发送HTTP请求，这个库功能完善，而且操作非常简单。

安装requestS

通过pip安装，打开cmd或terminal，键入：

pip install requests

获取响应内容

print("文本编码", r.encoding)

print("响应状态码：", r.status_code)

print("字符串方式的响应体：", r.text)

r.text是服务器响应的内容，会自动根据响应头的字符编码进行解码
r.encoding是服务器内容使用的文本编码
r.status_code用于检测响应的状态码，200请求成功，4xx客户端错误，5xx服务器错误
r.content是字节方式的响应体，会自动解码gzip和deflate编码的响应数据
r.json()是requests中的内置JSON解码器

指定requests

有些网页需要对request的参数进行测试才能获取需要的数据，这包括url传参，定制请求头，发送post请求，设置超时等。

传递URL参数

如果是自己构建URL那么数据一般会跟在一个问号后面，并且以键值对的形式存放在URL中，例如：https://www.baidu.com/s?ie=UTF-8&wd=pycharm 代码块

keydict = {'key1': '111', 'key2': '222'}

r = requests.get(link, params=keydict)

print("rul已经正确编码", r.url)

print("响应体：\n", r.text)

定制请求头

import requests # 最简单易用的HTTP库

heders = {

'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) '

'Chrome/96.0.4664.110 Safari/537.36',

'Host': 'www.santostang.com'

}

r = requests.get(link, headers=heders)

print('响应状态码：', r.status_code)

发送post请求

除了GET请求外，又是还需要发送一些表单形式的数据，如果在登录的时候请求就为post，如果用GET请求密码就会显示在地址栏中，这非常的不安全

keydict = {'key1': '111', 'key2': '222'}

r = requests.post(link, data=keydict)

print(r.text)

超时

有时候爬虫遇到服务器长时间不返回，这爬虫程序就会一直等待，造成爬虫程序没有顺利执行。可以在request中timeout参数设定秒数，指定时间内没有响应就返回异常，一般设置为20秒

request爬虫实践：top250电影数据

点击查看代码

def get_movies():

    headers = {

        'Host': 'movie.douban.com',

        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.110 Safari/537.36',

        'charset': 'utf-8'

    }

    movie_list = []

    for i in range(0, 10):

        link = 'https://movie.douban.com/top250?start=' + str(i * 25)

        r = requests.get(link, headers=headers, timeout=10, allow_redirects=False)

        print(str(i + 1), "页响应状态码：", r.status_code)

        soup = BeautifulSoup(r.text, "html.parser")

        div_list = soup.find_all('div', class_='hd')

        for each in div_list:

            movie = each.a.span.text.strip()

            movie_list.append(movie)

    return movie_list

movies = get_movies()

print(movies)

python网络爬虫-静态网页抓取（四）的更多相关文章

python网络爬虫-动态网页抓取（五）
动态抓取的实例在开始爬虫之前,我们需要了解一下Ajax(异步请求).它的价值在于在与后台进行少量的数据交换就可以使网页实现异步更新. 如果使用Ajax加载的动态网页抓取,有两种方法: 通过浏览器审查 ...
python3.4学习笔记(十七) 网络爬虫使用Beautifulsoup4抓取内容
python3.4学习笔记(十七) 网络爬虫使用Beautifulsoup4抓取内容 Beautiful Soup 是用Python写的一个HTML/XML的解析器,它可以很好的处理不规范标记并生成剖 ...
PHP网络爬虫实践：抓取百度搜索结果，并分析数据结构
百度的搜索引擎有反爬虫机制,我先直接用guzzle试试水.代码如下: <?php /** * Created by Benjiemin * Date: 2020/3/5 * Time: 14:5 ...
Python开发爬虫之静态网页抓取篇：爬取“豆瓣电影 Top 250”电影数据
所谓静态页面是指纯粹的HTML格式的页面,这样的页面在浏览器中展示的内容都在HTML源码中. 目标:爬取豆瓣电影TOP250的所有电影名称,网址为:https://movie.douban.com/t ...
Python网络爬虫与如何爬取段子的项目实例
一.网络爬虫 Python爬虫开发工程师,从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页 ...
Python实现简单的网页抓取
现在开源的网页抓取程序有很多,各种语言应有尽有. 这里分享一下Python从零开始的网页抓取过程第一步:安装Python 点击下载适合的版本https://www.python.org/ 我这里选择 ...
Python 网络爬虫 002 (入门) 爬取一个网站之前，要了解的知识
网站站点的背景调研 1. 检查 robots.txt 网站都会定义robots.txt 文件,这个文件就是给网络爬虫来了解爬取该网站时存在哪些限制.当然了,这个限制仅仅只是一个建议,你可以遵守,也 ...
Python——初识网络爬虫（网页爬取）
网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.另外一些不常使用的名字还有蚂蚁.自动索引.模拟程序或者蠕虫 ...
网络爬虫中Fiddler抓取PC端网页数据包与手机端APP数据包
1 引言在编写网络爬虫时,第一步(也是极为关键一步)就是对网络的请求(request)和回复(response)进行分析,寻找其中的规律,然后才能通过网络爬虫进行模拟.浏览器大多也自带有调试工具可以 ...

随机推荐

【LeetCode】319. Bulb Switcher 解题报告（Python）
[LeetCode]319. Bulb Switcher 解题报告(Python) 标签(空格分隔): LeetCode 题目地址:https://leetcode.com/problems/bulb ...
【LeetCode】684. Redundant Connection 解题报告（Python & C++）
作者: 负雪明烛 id: fuxuemingzhu 个人博客: http://fuxuemingzhu.cn/ 目录题目描述题目大意解题方法并查集日期题目地址:https://leetco ...
(4329)Ping pong
思路:树状数组. 考虑第i个人当裁判,那么只要计算出在他之前比他小的乘在他之后比他大的与在他之前比他大的乘在他之后比他小的,那么用两个树状数组维护一下就行了.复杂的(n*log(n)) 1 #incl ...
Java学到什么程度可以面试工作？
先说结论: 1 大多数公司,对于Java初级开发的要求是,会用Spring Boot+JPA做增删改查 2 所以零基础的Java小白,无需学太多的内容,只要掌握Spring Boot+JPA做增删改 ...
golang切片的一些自问自答
你好,我是轩脉刃.这篇是关于go切片的一些问题和回答. go的切片基本上是代码中使用最多的一种数据结构了,使用这种数据结构有哪些要注意的点,这个是非常必要了解的东西.基本上,以前写的一篇博客 http ...
Theoretically Principled Trade-off between Robustness and Accuracy
目录概主要内容符号说明 Error Classification-calibrated surrogate loss 引理2.1 定理3.1 定理3.2 由此导出的TRADES算法实验概述代 ...
开源社区合入patch的步骤
以Ranger项目为例,说明开源社区合入patch的详细步骤. 1.reviews页面下载patch 进入到review页面:https://reviews.apache.org/r/67919/ 点 ...
games101 - 4 - Ray Tracing
games101 - 4 - Ray Tracing 目录 games101 - 4 - Ray Tracing 为什么需要Ray Tracing Recursive (Whitted-Style) ...
在git上下载的源码项目，运行时报错AssertionError [ERR_ASSERTION] [ERR_ASSERTION]: Task function must be specified
原因是gulp3 和gulp4的运行方式不一样, 解决方法: 1.修改package.json文件中gulp的版本为最新版本 2.删除node_modules文件夹和package-lock.json ...
Docker 安装mysql主从
安装docker 1.yum -y install docker 2.查看是否安装成功 docker -v 3.接着将docker后台启动 systemctl start docker.service ...

python网络爬虫-静态网页抓取（四）