爬虫系列：连接网站与解析 HTML

这篇文章是爬虫系列第三期，讲解使用 Python 连接到网站，并使用 BeautifulSoup 解析 HTML 页面。

在 Python 中我们使用 requests 库来访问目标网站，使用 BeautifulSoup 对获取的内容进行解析。由于这两个库并不是 Python 标准库，因此需要单独安装这两个库：

pip install beautifulsoup4

pip install requests

下面是获取网站内容的示例代码：

from urllib.error import HTTPError, URLError

import requests

from bs4 import BeautifulSoup

from config import logger_config

class ProcessConnection:

    def __init__(self):

        logger_name = ‘web_scraping'

        self._logger_write_file = logger_config.LoggingConfig().init_logging(logger_name)

    def init_connection(self, uri):

        # 连接网站

        try:

            session = requests.session()

            headers = {

                "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.121 Safari/537.36",

                "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9"}

            html = session.get(uri, headers=headers)

        except (HTTPError, URLError) as e:

            self._logger_write_file.error('执行 get_sms_data 函数出错，具体错误内容：{message}'.format(message=e))

            return False

        try:

            bsObj = BeautifulSoup(html.text, features='html.parser')

            return bsObj

        except AttributeError as e:

            self._logger_write_file.error('执行 get_sms_data 函数出错，具体错误内容：{message}'.format(message=e))

            return False

首先使用了 requests 会话对象发送请求，并且设置了 User-agent，这里 User-agent 可以自定，这就为伪造 User-agent 提供了便利，同时也告诉了服务器客户端接受那些内容类型：

session = requests.session()

headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.121 Safari/537.36",

     "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9"}

网络如果连接出现了错误，对错误进行异常处理：

except (HTTPError, URLError) as e:

BeautifulSoup 解析 HTML 文档出现错误，抛出 AttributeError：

except AttributeError as e:

以上就完成了一个使用 Python 连接网站的过程。这个时候如果没有异常我们就会拿到网站的 HTML 代码，之后根据需要进一步对 HTML 进行内容解析，获取自己需要的内容。

解析 HTML

如果你已经确定了目标内容，可能是采集一个名字，一组统计数据，或者一段文字。你的目标内容可能隐藏在一个 HTML “烂泥堆”的第20层标签里，带有许多没用的标签或 HTML 属性，你按照目标网站的代码层级你有可能写出如下的一行代码抽取内容：

bsObj.findAll("table")[4].findAll("tr")[2].find("td").findAll("section")[1].find("a")

虽然以上写法可以达到目标，但是这样的写法看起来并不是很好。除了代码欠缺美感之外，还有一个问题就是：当网站管理员对网站稍作修改之后，这行代码便会失效。

例如，我们需要获得自己的公网 IP 地址，我们可以通过查询这个网站获得：https://www.pdflibr.com，之后查看网页源代码，找到自己的 IP 地址，又如下源代码：

<div class="ip-wrap ip-item right-item">

      <div class="item-text-title">IP信息</div>

          <div class="user-agent-content">

            <div class="layout layout-flex-direction item-result">

                <div class="left-name">当前IP地址：</div>

                <div class="right-result">106.125.148.85</div>

             </div>

             <div class="layout layout-flex-direction item-result">

               <div class="left-name">归属地：</div>

               <div class="right-result">中国 广东 广州</div>

            </div>

        </div>

 </div>

我们使用 BeautifulSoup 经行解析：

result = bsObj.findAll("div", {"class": "right-result"})

for child in result:

    get_ip = child.get_text()

    print(get_ip)

这样就可以获取自己的 IP 以及 IP 归属地。

爬虫系列：连接网站与解析 HTML的更多相关文章

爬虫系列二(数据清洗--->bs4解析数据)
一 BeautifulSoup解析 1 环境安装 - 需要将pip源设置为国内源,阿里源.豆瓣源.网易源等 - windows (1)打开文件资源管理器(文件夹地址栏中) (2)地址栏上面输入 %ap ...
爬虫系列二(数据清洗--->xpath解析数据)
一 xpath介绍 XPath 是一门在 XML 文档中查找信息的语言.XPath 用于在 XML 文档中通过元素和属性进行导航. XPath 使用路径表达式在 XML 文档中进行导航 XPath 包 ...
爬虫系列2：Requests+Xpath 爬取租房网站信息
Requests+Xpath 爬取租房网站信息 [抓取]:参考前文爬虫系列1:https://www.cnblogs.com/yizhiamumu/p/9451093.html [分页]:参考前文 ...
爬虫系列3：Requests+Xpath 爬取租房网站信息并保存本地
数据保存本地 [抓取]:参考前文爬虫系列1:https://www.cnblogs.com/yizhiamumu/p/9451093.html [分页]:参考前文爬虫系列2:https://www ...
Java爬虫系列三：使用Jsoup解析HTML
在上一篇随笔<Java爬虫系列二:使用HttpClient抓取页面HTML>中介绍了怎么使用HttpClient进行爬虫的第一步--抓取页面html,今天接着来看下爬虫的第二步--解析抓取 ...
Python爬虫系列（七）：提高解析效率
如果仅仅因为想要查找文档中的<a>标签而将整片文档进行解析,实在是浪费内存和时间.最快的方法是从一开始就把<a>标签以外的东西都忽略掉. SoupStrainer 类可以定义文 ...
python 全栈开发，Day134(爬虫系列之第1章-requests模块)
一.爬虫系列之第1章-requests模块爬虫简介概述近年来,随着网络应用的逐渐扩展和深入,如何高效的获取网上数据成为了无数公司和个人的追求,在大数据时代,谁掌握了更多的数据,谁就可以获得更高的 ...
Java爬虫系列之实战：爬取酷狗音乐网 TOP500 的歌曲(附源码)
在前面分享的两篇随笔中分别介绍了HttpClient和Jsoup以及简单的代码案例: Java爬虫系列二:使用HttpClient抓取页面HTML Java爬虫系列三:使用Jsoup解析HTML 今天 ...
爬虫系列：存储 CSV 文件
上一期:爬虫系列:存储媒体文件,讲解了如果通过爬虫下载媒体文件,以及下载媒体文件相关代码讲解. 本期将讲解如果将数据保存到 CSV 文件. 逗号分隔值(Comma-Separated Values,C ...

随机推荐

精心整理Java微服务最全面试题集（含答案）
微服务架构相关大型网站架构演变过程网站架构演变演变过程传统架构 → 分布式架构 → SOA架构 → 微服务架构什么是分布式架构分布式架构就是将传统结构按照模块进行拆分,不同的人负责不同的模块 ...
oracle 修改表空间名
1.登录使用sys用户登录 sqlplus sys/ as sysdba 2.修改表空间名字 SQL> alter tablespace 旧表空间名 rename to 新表空间名; 表空间已更 ...
【数据结构&算法】08-栈概念&源码
目录前言栈的定义定义常见应用栈的常见应用进栈出栈变化形式栈的抽象数据类型栈的顺序存储结构及实现栈的顺序存储结构顺序栈顺序栈的结构定义两栈共享空间栈的链式存储结构及实现栈的链 ...
/etc/passwd 和 /etc/shadows 详解
linux操作系统上的用户如果需要登录主机,当其输入用户名和密码之后: 首先在/etc/passwd文件中查找是否有你的账号,如果没有无法登录,如果有的话将该用户的UID和GID读出来,此外将此用户的 ...
Windows 防火墙
本文防火墙配置是基于 Windows Server 2008 R2 服务器进行叙述,其他Windows服务器版本仅供参考防火墙安全策略定义 :安全策略按照一定规则检查数据流是否可以通过防火墙的基本 ...
攻防世界 WEB 高手进阶区 TokyoWesterns CTF shrine Writeup
攻防世界 WEB 高手进阶区 TokyoWesterns CTF shrine Writeup 题目介绍题目考点模板注入 Writeup 进入题目 import flask import os a ...
03 | 变量的解构赋值 | es6
变量的解构赋值数组的解构赋值基本用法 ES6 允许按照一定模式,从数组和对象中提取值,对变量进行赋值,这被称为解构(Destructuring). 以前,为变量赋值,只能直接指定值. let a ...
问题 L: Yougth的最大化
题目描述 Yougth现在有n个物品的重量和价值分别是Wi和Vi,你能帮他从中选出k个物品使得单位重量的价值最大吗? 输入有多组测试数据每组测试数据第一行有两个数n和k,接下来一行有n个数Wi和V ...
.NET GC 实时监控 dotnet-gcmon 介绍
今天介绍一个新的诊断工具 dotnet-gcmon, 也是全局 .NET CLI 工具, 它可以监控到 .NET 程序的 GC, 能获取到的信息也很详细, 另外 maoni 大佬也是其中的开发者之一. ...
[bzoj1853]幸运数字
容易发现幸运数字只有1024个,暴力标记倍数还是会tle的容斥,即从中任选i个的lcm,复杂度为$o(2^1024)$ 剪枝一:当答案超过1024就不用算了剪枝二:当某个数是另一个数的倍数时就删掉 ...

爬虫系列：连接网站与解析 HTML

解析 HTML

爬虫系列：连接网站与解析 HTML的更多相关文章

随机推荐

热门专题