[技术博客] BeautifulSoup4分析网页

使用BeautifulSoup4进行网页文本分析

前言

进行网络爬虫时我们需要从网页源代码中提取自己所需要的信息,分析整理后存入数据库中。

在python中,我们向网页发出请求后可以获得字符串形式的源代码,然而众所周知,HTML代码结构相当混乱,想要通过字符串本身的查找方法获取信息基本上不可能。不过好消息是python也为我们提供了正则表达式这一字符串分析利器,通过恰当的编写正则表达式就可以高效准确地分析网页。然而对于一份长长的HTML源代码,从中分析规律、编写正则表达式、验证准确性,这一轮下来需要花费大量的时间。再加上网页的跳转,多个网页的分析,在没有爬取效率的要求下使用正则表达式几乎就是一个煎熬。因此一个成熟的网页爬虫利器BeautifulSoup就此诞生,它是一个可以从HTML或XML文件中提取数据的Python库,能够方便的提取自己所需要的信息。

安装

BeautifulSoup4的安装相当简单,只需在命令行中使用pip安装即可

pip install beautifulsoup4

导入

同样简单易懂

from bs4 import BeautifulSoup

网页解析库

BeautifulSoup4默认支持Python的标准HTML解析库,可以不进行解析库的配置,但是依然建议安装lxml HTML解析库,它比Python的标准HTML解析库更加强大,速度快,容错能力强

使用方法

简易操作

以下面的HTML代码举例

html_doc = """
<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title"><b>The Dormouse's story</b></p> <p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>,
<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p> <p class="story">...</p>
"""

创建BeautifulSoup对象以及简易信息获取

from bs4 import BeautifulSoup

# 使用lxml作为解析库
soup = BeautifulSoup(html_doc,’lxml’) # 获取title标签的所有内容
print(soup.title) # 获取title标签的名称
print(soup.title.name) # 获取title标签的文本内容
print(soup.title.string) # 获取head标签的所有内容
print(soup.head) # 获取第一个a标签中的所有内容
print(soup.a) # 获取所有的a标签中的所有内容
print(soup.find_all("a")) # 获取id="link3"
print(soup.find(id="link3")) # 获取所有的a标签,并遍历打印a标签中的href的值
for item in soup.find_all("a"):
print(item.get("href")) # 获取所有的a标签,并遍历打印a标签的文本值
for item in soup.find_all("a"):
print(item.get_text())

通过这些操作就可以进行简易的指定标签内数据的获取

但是还是存在一些更加困难的场景

CSS选择器

BeautifulSoup整合了lxml的CSS选择器功能,使得API更易用。

通过CSS选择器可以更加精确地获取所需内容

我们可以像之前一样查找标签

print(soup.select('a'))

也可以像之前一样查找id

print(soup.select('#link3'))

我们还可以按照层级查找

print(soup.select('table > tr > td'))

我们还可以根据标签内部的属性查找

print(soup.select('a[href="http://example.com/elsie"]'))

我们甚至可以组合上面的方式查找

print(soup.select('div > a[href='http://tieba.baidu.com'] > table #list > tr > td'))

获取选项后我们可以查找其中的子项,输出它的各个属性,也可以直接输出其中包含的文本等

print(soup.select('title')[0].get_text())		# 直接输出文本
print(soup.select('title')[0].attrs['value']) # 输出它的value属性
print(soup.select('title')[0].content) # 输出它的子项

除了这些功能以外BeautifulSoup4还有其他的许多优秀功能等待大家的挖掘,比如.children迭代器、.prettify()格式化输出等。

希望大家能通过BeautifulSoup4的使用大大降低肝度。

[技术博客] BeautifulSoup4分析网页的更多相关文章

  1. 第七周技术博客发表 web网页开发

    a<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org ...

  2. 第五周技术博客发表 web 网页开发

    <html><head> <title> HTML</title></head><body > <h1>会员注册界面 ...

  3. 如何写出高质量的技术博客 这边文章出自http://www.jianshu.com/p/ae9ab21a5730 觉得不错直接拿过来了 好东西要大家分享嘛

        如何写出高质量的技术博客?答案是:如果你想,就一定能写出高质量的技术博客.看起来很唯心,但这就是事实.有足够愿力去做一件目标明确,有良好反馈系统的事情往往很简单.就是不停地训练,慢慢地,你自己 ...

  4. 个人技术博客(α)------javaweb的学习路程

    该博文大致内容是学习的一个过程,心得,并不是以技术博客为主,在此说明. 关于javaweb的学习开始的时间大概是从大二下(2017年6.7月份)的暑假开始的,在学长的介绍下加入了实验室进行学习,由于是 ...

  5. 在Ubuntu14.04上安装WordPress4搭建技术博客

    1.安装LAMP环境 1.1 安装Apache2 1.2 安装MySQL5 1.3 安装PHP5 1.4 安装phpMyAdmin 2.初始化数据库 3.下载并配置WordPress 4.配置Apac ...

  6. [技术博客]使用CDN加快网站访问速度

    [技术博客]使用CDN加快网站访问速度 2s : most users are willing to wait 10s : the limit for keeping the user's atten ...

  7. 转: BAT等研发团队的技术博客

    BAT 技术团队博客   1. 美团技术团队博客:  地址: http://tech.meituan.com/ 2. 腾讯社交用户体验设计(ISUX) 地址:http://isux.tencent.c ...

  8. 【转】【技术博客】Spark性能优化指南——高级篇

    http://mp.weixin.qq.com/s?__biz=MjM5NjQ5MTI5OA==&mid=2651745207&idx=1&sn=3d70d59cede236e ...

  9. IT技术博客收藏

    1. coolshell.cn 特点: 每篇都是精品 2. 云风 特点: 3. 阮一峰的博客 特点:高精深 3. offbye涛声依旧-全端技术博客 特点: android的开发技术比较多,非常值得一 ...

随机推荐

  1. kernel_thread()和kthread_run()/kthread_create()的根本区别

    0 本质区别 kthread_run()调用kthread_create(), kthread_create()加入链表后,有kthreadd()线程读取链表然后再调用kernel_thread()创 ...

  2. linu命令进阶篇

    预备知识: 本实验要求实验者具备如下的相关知识. 前面我们学习了linux的文件系统,了解的文件系统的结构,也学了linux档案的属性和权限,以及其设定. 当我们执行命令操作一个文件的时候,却不知道这 ...

  3. jooq使用示例

    一.说明 最近使用的项目,采用了jooq. 通过学习api文档和自我调试,写了一些代码,在此处进行记录. 二.代码 一切尽在代码中-- 参考文档:http://www.jooq.org/doc/3.1 ...

  4. 浏览器缓存旧的js文件或css文件导致没出现预期效果

    最好在加载的js或css文件后加上 ?v=1.0.0 版本号,更新js后就更改一下版本号即可

  5. docker启动jenikns,提示 :This image is for research only, DO NOT USE

    下载的jenkins镜像有问题?

  6. javascript wchar_t 宽字符 转化为 ascii字符码数组

    String.prototype.charCodeAt String.fromCharCode() String.prototype.toUtfArray = function() { return ...

  7. 『GoLang』协程与通道

    作为一门 21 世纪的语言,Go 原生支持应用之间的通信(网络,客户端和服务端,分布式计算)和程序的并发.程序可以在不同的处理器和计算机上同时执行不同的代码段.Go 语言为构建并发程序的基本代码块是 ...

  8. php文件加密(screw方式)

    1.上传已经生成好的执行文件. 2.上传扩展文件到目录: /usr/lib64/php/modules 3.上传配置文件到目录: /etc/php.d 4.执行 ./screw a.php 生成加密后 ...

  9. IDEA连接Mysql数据库之后,在Mapper.xml编写SQL时不会自动提示表信息问题(非常详细!)

    1.首先得连接上数据库 (一)点击IDEA右侧数据库模块 (二)选择MySql进行连接 (三)填写数据库相关配置 (四)重点!!! 这个时候点击测试连接是连接不上的,需要设置时区 (按照如下设置) ( ...

  10. 在CentOS 6中安装和配置OrientDB社区版

    OrientDB概述: OrientDB是一个开源NoSQL非关系型数据库管理系统. NoSQL数据库提供了一种用于存储和检索引用除表式数据之外的数据(例如文档数据或图形数据)的NO关系或非关系数据的 ...