一前言

Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库；其强大的提取能力让知识追寻者放弃了使用正则匹配查找HTML节点；Beautifu Soup 其能直接通过HTML标签获取相应的节点，或者通过函数直接获得节点，大大提高了编程人员的开发效率；看完本篇学不会Beautiful Soup ，满天神佛都救不了你；觉得知识追寻者的文章有点意思，关注加点赞谢谢；

二 Beautiful Soup 简单使用

Beautiful Soup 的解释器如下：

解释器	使用示例
Python标准库	BeautifulSoup(markup, "html.parser")
lxml HTML 解析器	BeautifulSoup(markup, "lxml")
lxml XML 解析器	BeautifulSoup(markup, "xml")
html5lib	BeautifulSoup(markup, "html5lib")

本篇的解释器读者可以使用Python标准库或者lxml HTML 解析器都可以；下午中获取标签其实都是获取标签对象，读者谨记；

简要概括下属性的说明:

属性	含义
soup.tag.name	获取标签tag名称
soup.tag.string	获取标签tag文本内容
soup.tag	获取标签tag
soup.tag.attrs	获取标签tag所有属性
soup.tag.attrs['class']	获取标签指定class的属性
soup.tag1.tag2	获取子标签tag2
soup.tag.contents	获取tag所有直接子标签以列表输出
soup.tag.children	获取直接子标签，返回生成器
soup.tag.descendants	获取所有子标签，返回生成器
soup.tag.parent	获取直接父节点
soup.tag.parents	获取祖先节点，返回生成器
soup.tag.next_sibling	获取后一个兄弟节点
soup.tag.previous_sibling	获取前一个兄弟节点
soup.tag.next_siblings	获取后一个兄弟节点，返回生成器
soup.tag.previous_siblings	获取前一个兄弟节点，返回生成器

2.1 格式化HTML

实例化一个Beautiful Soup 实例，入参是HTML，和html.parser
调用prettify()方法会格式化HTML文档

# -*- coding: utf-8 -*-

import requests

from bs4 import BeautifulSoup

html = """

    <div class="filter-box d-flex align-items-center">

    <form action="" id=seeOriginal>

    <dl class="filter-sort-box d-flex align-items-center">

    <dt>排序：</dt>

    <dd><a href="javascript:void(0);" data-report-query="" class="btn-filter-sort active" target="_self">默认</a></dd>

    <dd><a class="btn btn-sm rss" href="https://blog.csdn.net/youku1327/rss/list">

		<svg class="icon" aria-hidden="true">

			<use xlink:href="#csdnc-rss"></use>

		</svg>RSS订阅</a>

    </dd>

  </dl>"""

# 初始化 soup

soup = BeautifulSoup(html,'html.parser')

print(soup.prettify())

输出结果下，是不是很美观，结构是不是很清楚；而且还补全了缺失的标签</form> , </div>；

<div class="filter-box d-flex align-items-center">

 <form action="" id="seeOriginal">

  <dl class="filter-sort-box d-flex align-items-center">

   <dt>

    排序：

   </dt>

   <dd>

    <a class="btn-filter-sort active" data-report-query="" href="javascript:void(0);" target="_self">

     默认

    </a>

   </dd>

   <dd>

    <a class="btn btn-sm rss" href="https://blog.csdn.net/youku1327/rss/list">

     <svg aria-hidden="true" class="icon">

      <use xlink:href="#csdnc-rss">

      </use>

     </svg>

     RSS订阅

    </a>

   </dd>

  </dl>

 </form>

</div>

2.2 获取标签节点

调用soup.dt 会直接获得第一个匹配到dt标签对象；

# -*- coding: utf-8 -*-

import requests

from bs4 import BeautifulSoup

html = """

    <div class="filter-box d-flex align-items-center">

    <form action="" id=seeOriginal>

    <dl class="filter-sort-box d-flex align-items-center">

    <dt>排序：</dt>

    <dd><a href="javascript:void(0);" data-report-query="" class="btn-filter-sort active" target="_self">默认</a></dd>

    <dd><a class="btn btn-sm rss" href="https://blog.csdn.net/youku1327/rss/list">

		<svg class="icon" aria-hidden="true">

			<use xlink:href="#csdnc-rss"></use>

		</svg>RSS订阅</a>

    </dd>

  </dl>"""

# 初始化 soup

soup = BeautifulSoup(html,'html.parser')

# 输出节点 <dt>排序：</dt>

print(soup.dt)

2.3 获取节点文本

soup.dt.string 获得dt标签包含的内容；

# -*- coding: utf-8 -*-

import requests

from bs4 import BeautifulSoup

html = """

    <div class="filter-box d-flex align-items-center">

    <form action="" id=seeOriginal>

    <dl class="filter-sort-box d-flex align-items-center">

    <dt>排序：</dt>

    <dd><a href="javascript:void(0);" data-report-query="" class="btn-filter-sort active" target="_self">默认</a></dd>

    <dd><a class="btn btn-sm rss" href="https://blog.csdn.net/youku1327/rss/list">

		<svg class="icon" aria-hidden="true">

			<use xlink:href="#csdnc-rss"></use>

		</svg>RSS订阅</a>

    </dd>

  </dl>"""

# 初始化 soup

soup = BeautifulSoup(html,'html.parser')

# 输出文本内容 排序：

print(soup.dt.string)

2.4获取节点名称

soup.dt.name 直接获得标签dt的名称；

# -*- coding: utf-8 -*-

import requests

from bs4 import BeautifulSoup

html = """

    <div class="filter-box d-flex align-items-center">

    <form action="" id=seeOriginal>

    <dl class="filter-sort-box d-flex align-items-center">

    <dt>排序：</dt>

    <dd><a href="javascript:void(0);" data-report-query="" class="btn-filter-sort active" target="_self">默认</a></dd>

    <dd><a class="btn btn-sm rss" href="https://blog.csdn.net/youku1327/rss/list">

		<svg class="icon" aria-hidden="true">

			<use xlink:href="#csdnc-rss"></use>

		</svg>RSS订阅</a>

    </dd>

  </dl>"""

# 初始化 soup

soup = BeautifulSoup(html,'html.parser')

# 输出dt

print(soup.dt.name)

2.5 获得节点对象种类

直接获得标签后使用type方法可以显示出标签类型是 <class 'bs4.element.Tag'>

# -*- coding: utf-8 -*-

import requests

from bs4 import BeautifulSoup

html = """

    <div class="filter-box d-flex align-items-center">

    <form action="" id=seeOriginal>

    <dl class="filter-sort-box d-flex align-items-center">

    <dt>排序：</dt>

    <dd><a href="javascript:void(0);" data-report-query="" class="btn-filter-sort active" target="_self">默认</a></dd>

    <dd><a class="btn btn-sm rss" href="https://blog.csdn.net/youku1327/rss/list">

		<svg class="icon" aria-hidden="true">

			<use xlink:href="#csdnc-rss"></use>

		</svg>RSS订阅</a>

    </dd>

  </dl>"""

# 初始化 soup

soup = BeautifulSoup(html,'html.parser')

dt = soup.dt

# <class 'bs4.element.Tag'>

print(type(dt))

2.6 获取所有属性

soup.a.attrs 获取匹配到第一个a标签的所有属性；

# -*- coding: utf-8 -*-

import requests

from bs4 import BeautifulSoup

html = """

    <div class="filter-box d-flex align-items-center">

    <form action="" id=seeOriginal>

    <dl class="filter-sort-box d-flex align-items-center">

    <dt>排序：</dt>

    <dd><a href="javascript:void(0);" data-report-query="" class="btn-filter-sort active" target="_self">默认</a></dd>

    <dd><a class="btn btn-sm rss" href="https://blog.csdn.net/youku1327/rss/list">

		<svg class="icon" aria-hidden="true">

			<use xlink:href="#csdnc-rss"></use>

		</svg>RSS订阅</a>

    </dd>

  </dl>"""

# 初始化 soup

soup = BeautifulSoup(html,'html.parser')

print(soup.a.attrs)

输出默认匹配第一个a标签的全部属性

{'href': 'javascript:void(0);', 'data-report-query': '', 'class': ['btn-filter-sort', 'active'], 'target': '_self'}

2.7 获取特定属性

soup.a.attrs['href']，获取匹配到第一个a标签的href属性内容

# -*- coding: utf-8 -*-

import requests

from bs4 import BeautifulSoup

html = """

    <div class="filter-box d-flex align-items-center">

    <form action="" id=seeOriginal>

    <dl class="filter-sort-box d-flex align-items-center">

    <dt>排序：</dt>

    <dd><a href="javascript:void(0);" data-report-query="" class="btn-filter-sort active" target="_self">默认</a></dd>

    <dd><a class="btn btn-sm rss" href="https://blog.csdn.net/youku1327/rss/list">

		<svg class="icon" aria-hidden="true">

			<use xlink:href="#csdnc-rss"></use>

		</svg>RSS订阅</a>

    </dd>

  </dl>"""

# 初始化 soup

soup = BeautifulSoup(html,'html.parser')

# 输出javascript:void(0);

print(soup.a.attrs['href'])

2.8 获取子节点

soup.form.dd 会获得form标签下第一个dd标签

# -*- coding: utf-8 -*-

import requests

from bs4 import BeautifulSoup

html = """

    <div class="filter-box d-flex align-items-center">

    <form action="" id=seeOriginal>

    <dl class="filter-sort-box d-flex align-items-center">

    <dt>排序：</dt>

    <dd><a href="javascript:void(0);" data-report-query="" class="btn-filter-sort active" target="_self">默认</a></dd>

    <dd><a class="btn btn-sm rss" href="https://blog.csdn.net/youku1327/rss/list">

		<svg class="icon" aria-hidden="true">

			<use xlink:href="#csdnc-rss"></use>

		</svg>RSS订阅</a>

    </dd>

  </dl>"""

# 初始化 soup

soup = BeautifulSoup(html,'html.parser')

print(soup.form.dd)

输出

<dd><a class="btn-filter-sort active" data-report-query="" href="javascript:void(0);" target="_self">默认</a></dd>

2.9 获取所有直接子节点

soup.form.contents 将会以列表的形式输出form所有的子标签；

# -*- coding: utf-8 -*-

import requests

from bs4 import BeautifulSoup

html = """

    <div class="filter-box d-flex align-items-center">

    <form action="" id=seeOriginal>

    <dl class="filter-sort-box d-flex align-items-center">

    <dt>排序：</dt>

    <dd><a href="javascript:void(0);" data-report-query="" class="btn-filter-sort active" target="_self">默认</a></dd>

    <dd><a class="btn btn-sm rss" href="https://blog.csdn.net/youku1327/rss/list">

		<svg class="icon" aria-hidden="true">

			<use xlink:href="#csdnc-rss"></use>

		</svg>RSS订阅</a>

    </dd>

  </dl>"""

# 初始化 soup

soup = BeautifulSoup(html,'html.parser')

print(soup.form.contents)

输出结果：

['\n', <dl class="filter-sort-box d-flex align-items-center">

<dt>排序：</dt>

<dd><a class="btn-filter-sort active" data-report-query="" href="javascript:void(0);" target="_self">默认</a></dd>

<dd><a class="btn btn-sm rss" href="https://blog.csdn.net/youku1327/rss/list">

<svg aria-hidden="true" class="icon">

<use xlink:href="#csdnc-rss"></use>

</svg>RSS订阅</a>

</dd>

</dl>]

2.10 获取直接子节点生成器

soup.svg.children 会获得dd所有子节点的生成器；

# -*- coding: utf-8 -*-

import requests

from bs4 import BeautifulSoup

html = """

    <div class="filter-box d-flex align-items-center">

    <form action="" id=seeOriginal>

    <dl class="filter-sort-box d-flex align-items-center">

    <dt>排序：</dt>

    <dd><a href="javascript:void(0);" data-report-query="" class="btn-filter-sort active" target="_self">默认</a></dd>

    <dd><a class="btn btn-sm rss" href="https://blog.csdn.net/youku1327/rss/list">

		<svg class="icon" aria-hidden="true">

			<use xlink:href="#csdnc-rss"></use>

		</svg>RSS订阅</a>

    </dd>

  </dl>"""

# 初始化 soup

soup = BeautifulSoup(html,'html.parser')

for index, child in enumerate(soup.svg.children):

    print(index, child)

输出结果：

0 

1 <use xlink:href="#csdnc-rss"></use>

2

2.11 获取所有子节点生成器

soup.dl.descendants 会获取dl 标签所有的子节点（more than direct child node），

# -*- coding: utf-8 -*-

import requests

from bs4 import BeautifulSoup

html = """

    <div class="filter-box d-flex align-items-center">

    <form action="" id=seeOriginal>

    <dl class="filter-sort-box d-flex align-items-center">

    <dt>排序：</dt>

    <dd><a href="javascript:void(0);" data-report-query="" class="btn-filter-sort active" target="_self">默认</a></dd>

    <dd><a class="btn btn-sm rss" href="https://blog.csdn.net/youku1327/rss/list">

		<svg class="icon" aria-hidden="true">

			<use xlink:href="#csdnc-rss"></use>

		</svg>RSS订阅</a>

    </dd>

  </dl>"""

# 初始化 soup

soup = BeautifulSoup(html,'html.parser')

for index, child in enumerate(soup.dl.descendants):

    print(index, child)

输出结果：

0 

1 <dt>排序：</dt>

2 排序：

3 

4 <dd><a class="btn-filter-sort active" data-report-query="" href="javascript:void(0);" target="_self">默认</a></dd>

5 <a class="btn-filter-sort active" data-report-query="" href="javascript:void(0);" target="_self">默认</a>

6 默认

7 

8 <dd><a class="btn btn-sm rss" href="https://blog.csdn.net/youku1327/rss/list">

<svg aria-hidden="true" class="icon">

<use xlink:href="#csdnc-rss"></use>

</svg>RSS订阅</a>

</dd>

9 <a class="btn btn-sm rss" href="https://blog.csdn.net/youku1327/rss/list">

<svg aria-hidden="true" class="icon">

<use xlink:href="#csdnc-rss"></use>

</svg>RSS订阅</a>

10 

11 <svg aria-hidden="true" class="icon">

<use xlink:href="#csdnc-rss"></use>

</svg>

12 

13 <use xlink:href="#csdnc-rss"></use>

14 

15 RSS订阅

16 

17

2.12 获取直接父节点

soup.a.parent 或获取第一个匹配到a标签的父标签对象；

# -*- coding: utf-8 -*-

import requests

from bs4 import BeautifulSoup

html = """

    <div class="filter-box d-flex align-items-center">

    <form action="" id=seeOriginal>

    <dl class="filter-sort-box d-flex align-items-center">

    <dt>排序：</dt>

    <dd><a href="javascript:void(0);" data-report-query="" class="btn-filter-sort active" target="_self">默认</a></dd>

    <dd><a class="btn btn-sm rss" href="https://blog.csdn.net/youku1327/rss/list">

		<svg class="icon" aria-hidden="true">

			<use xlink:href="#csdnc-rss"></use>

		</svg>RSS订阅</a>

    </dd>

  </dl>"""

# 初始化 soup

soup = BeautifulSoup(html,'html.parser')

print(soup.a.parent)

输出结果：

<dd><a class="btn-filter-sort active" data-report-query="" href="javascript:void(0);" target="_self">默认</a></dd>

2.13 获取祖先节点生成器

soup.a.parents 会获得第一个匹配到a标签的所有父节点，也就是祖先节点，返回生成器；

# -*- coding: utf-8 -*-

import requests

from bs4 import BeautifulSoup

html = """

    <div class="filter-box d-flex align-items-center">

    <form action="" id=seeOriginal>

    <dl class="filter-sort-box d-flex align-items-center">

    <dt>排序：</dt>

    <dd><a href="javascript:void(0);" data-report-query="" class="btn-filter-sort active" target="_self">默认</a></dd>

    <dd><a class="btn btn-sm rss" href="https://blog.csdn.net/youku1327/rss/list">

		<svg class="icon" aria-hidden="true">

			<use xlink:href="#csdnc-rss"></use>

		</svg>RSS订阅</a>

    </dd>

  </dl>"""

# 初始化 soup

soup = BeautifulSoup(html,'html.parser')

for node in soup.a.parents:

    if node is None:

        print(node)

    else:

        print(node.name)

输出结果：

dd

dl

form

div

[document]

2.14 获取兄弟节点

兄弟节点有个坑，通常是返回空白，就不做过多讲解

# -*- coding: utf-8 -*-

import requests

from bs4 import BeautifulSoup

html = """

    <div class="filter-box d-flex align-items-center">

    <form action="" id=seeOriginal>

    <dl class="filter-sort-box d-flex align-items-center">

    <dt>排序：</dt>

    <dd><a href="javascript:void(0);" data-report-query="" class="btn-filter-sort active" target="_self">默认</a></dd>

    <dd><a class="btn btn-sm rss" href="https://blog.csdn.net/youku1327/rss/list">

		<svg class="icon" aria-hidden="true">

			<use xlink:href="#csdnc-rss"></use>

		</svg>RSS订阅</a>

    </dd>

  </dl>"""

# 初始化 soup

soup = BeautifulSoup(html,'html.parser')

print(soup.dt.next_sibling)

输出是空白；其它兄弟节点属性就不写了，感觉没啥意义，不是空白就是None；

三搜索文档

学完第二节内容，读者们其实就是打了个基础，重点是这章节；

函数	含义
find_all(name=None, attrs={}, recursive=True, text=None, limit=None, **kwargs)	查找所有匹配节点
find(name=None, attrs={}, recursive=True, text=None, **kwargs)	查找第一个匹配节点
find_parent(name=None, attrs={}, **kwargs)	返回当前节点的父辈节
find_parents(name=None, attrs={}, **kwargs)	返回当前节点的祖先节点
find_next_sibling(name=None, attrs={}, text=None, **kwargs)	返回符合条件的后面的第一个tag节点
find_next_siblings(name=None, attrs={}, text=None, **kwargs)	返回所有符合条件的后面的兄弟节点
find_previous_sibling(self, name=None, attrs={}, text=None, **kwargs)	返回第一个符合条件的前面的兄弟节点
find_previous_siblings(self, name=None, attrs={}, text=None, **kwargs)	返回所有符合条件的前面的兄弟节点
find_next(name=None, attrs={}, text=None, **kwargs)	返回第一个符合条件的节点
find_all_next(name=None, attrs={}, text=None, limit=None, **kwargs)	返回所有符合条件的节点
find_previous(name=None, attrs={}, text=None, **kwargs)	返回第一个符合条件的节点
find_all_previousname=None, attrs={}, text=None, limit=None, **kwargs)	返回所有符合条件的节点

name 表示输出的tag名称
attrs 表示指定属性查找
recursive 表示是否递归所有子节点，默认是；设置为false返回直接子节点
limit 表示限制输出数量
**kwargs 可以指定经常出现的属性搜索，比如 id = 'zszxz'
text 是过滤条件

本节着重讲解find_all方法，find方法于find_all一致，学一个就会用另一个；

3.1 name参数示例

soup.find_all(name='dd') 会获得所有dd标签对象，并且返回列表；

# -*- coding: utf-8 -*-

import requests

from bs4 import BeautifulSoup

html = """

    <div class="filter-box d-flex align-items-center">

    <form action="" id=seeOriginal>

    <dl class="filter-sort-box d-flex align-items-center">

    <dt>排序：</dt>

    <dd><a href="javascript:void(0);" data-report-query="" class="btn-filter-sort active" target="_self">默认</a></dd>

    <dd><a class="btn btn-sm rss" href="https://blog.csdn.net/youku1327/rss/list">

		<svg class="icon" aria-hidden="true">

			<use xlink:href="#csdnc-rss"></use>

		</svg>RSS订阅</a>

    </dd>

  </dl>"""

# 初始化 soup

soup = BeautifulSoup(html,'html.parser')

print(soup.find_all(name='dd'))

输出结果

[<dd><a class="btn-filter-sort active" data-report-query="" href="javascript:void(0);" target="_self">默认</a></dd>, <dd><a class="btn btn-sm rss" href="https://blog.csdn.net/youku1327/rss/list">

<svg aria-hidden="true" class="icon">

<use xlink:href="#csdnc-rss"></use>

</svg>RSS订阅</a>

</dd>]

注：soup.find_all(name='dd') 与 soup.find_all('dd') 一致；

3.2 attrs 属性示例

soup.find_all(attrs={'id':'seeOriginal'}) 获取属性 id = seeOriginal 所有标签对象

# -*- coding: utf-8 -*-

import requests

from bs4 import BeautifulSoup

html = """

    <div class="filter-box d-flex align-items-center">

    <form action="" id=seeOriginal>

    <dl class="filter-sort-box d-flex align-items-center">

    <dt>排序：</dt>

    <dd><a href="javascript:void(0);" data-report-query="" class="btn-filter-sort active" target="_self">默认</a></dd>

    <dd><a class="btn btn-sm rss" href="https://blog.csdn.net/youku1327/rss/list">

		<svg class="icon" aria-hidden="true">

			<use xlink:href="#csdnc-rss"></use>

		</svg>RSS订阅</a>

    </dd>

  </dl>"""

# 初始化 soup

soup = BeautifulSoup(html,'html.parser')

print(soup.find_all(attrs={'id':'seeOriginal'}))

输出

[<form action="" id="seeOriginal">

<dl class="filter-sort-box d-flex align-items-center">

<dt>排序：</dt>

<dd><a class="btn-filter-sort active" data-report-query="" href="javascript:void(0);" target="_self">默认</a></dd>

<dd><a class="btn btn-sm rss" href="https://blog.csdn.net/youku1327/rss/list">

<svg aria-hidden="true" class="icon">

<use xlink:href="#csdnc-rss"></use>

</svg>RSS订阅</a>

</dd>

</dl></form>]

3.3 recursive 示例

soup.find_all('dl',recursive=False) 会查找dl标签子节点，当recursive 设置为False之后就找不到了；

# -*- coding: utf-8 -*-

import requests

from bs4 import BeautifulSoup

html = """

    <div class="filter-box d-flex align-items-center">

    <form action="" id=seeOriginal>

    <dl class="filter-sort-box d-flex align-items-center">

    <dt>排序：</dt>

    <dd><a href="javascript:void(0);" data-report-query="" class="btn-filter-sort active" target="_self">默认</a></dd>

    <dd><a class="btn btn-sm rss" href="https://blog.csdn.net/youku1327/rss/list">

		<svg class="icon" aria-hidden="true">

			<use xlink:href="#csdnc-rss"></use>

		</svg>RSS订阅</a>

    </dd>

  </dl>"""

# 初始化 soup

soup = BeautifulSoup(html,'html.parser')

print(soup.find_all('dl',recursive=False))

输出空列表[]

3.4limit示例

soup.find_all('dd',limit=1) 会限制输出结果为一条

# -*- coding: utf-8 -*-

import requests

from bs4 import BeautifulSoup

html = """

    <div class="filter-box d-flex align-items-center">

    <form action="" id=seeOriginal>

    <dl class="filter-sort-box d-flex align-items-center">

    <dt>排序：</dt>

    <dd><a href="javascript:void(0);" data-report-query="" class="btn-filter-sort active" target="_self">默认</a></dd>

    <dd><a class="btn btn-sm rss" href="https://blog.csdn.net/youku1327/rss/list">

		<svg class="icon" aria-hidden="true">

			<use xlink:href="#csdnc-rss"></use>

		</svg>RSS订阅</a>

    </dd>

  </dl>"""

# 初始化 soup

soup = BeautifulSoup(html,'html.parser')

print(soup.find_all('dd',limit=1))

输出

[<dd><a class="btn-filter-sort active" data-report-query="" href="javascript:void(0);" target="_self">默认</a></dd>]

3.5 kwargs 示例之属性匹配

soup.find_all(id='seeOriginal') 直接指定id属性查找

# -*- coding: utf-8 -*-

import requests

from bs4 import BeautifulSoup

html = """

    <div class="filter-box d-flex align-items-center">

    <form action="" id=seeOriginal>

    <dl class="filter-sort-box d-flex align-items-center">

    <dt>排序：</dt>

    <dd><a href="javascript:void(0);" data-report-query="" class="btn-filter-sort active" target="_self">默认</a></dd>

    <dd><a class="btn btn-sm rss" href="https://blog.csdn.net/youku1327/rss/list">

		<svg class="icon" aria-hidden="true">

			<use xlink:href="#csdnc-rss"></use>

		</svg>RSS订阅</a>

    </dd>

  </dl>"""

# 初始化 soup

soup = BeautifulSoup(html,'html.parser')

print(soup.find_all(id='seeOriginal'))

输出

[<form action="" id="seeOriginal">

<dl class="filter-sort-box d-flex align-items-center">

<dt>排序：</dt>

<dd><a class="btn-filter-sort active" data-report-query="" href="javascript:void(0);" target="_self">默认</a></dd>

<dd><a class="btn btn-sm rss" href="https://blog.csdn.net/youku1327/rss/list">

<svg aria-hidden="true" class="icon">

<use xlink:href="#csdnc-rss"></use>

</svg>RSS订阅</a>

</dd>

</dl></form>]

3.6 kwargs 示例之正则匹配

soup.find_all(href=re.compile("java.*?")) 匹配属性 href 正则 java开头的属性标签；

# -*- coding: utf-8 -*-

import re

import requests

from bs4 import BeautifulSoup

html = """

    <div class="filter-box d-flex align-items-center">

    <form action="" id=seeOriginal>

    <dl class="filter-sort-box d-flex align-items-center">

    <dt>排序：</dt>

    <dd><a href="javascript:void(0);" data-report-query="" class="btn-filter-sort active" target="_self">默认</a></dd>

    <dd><a class="btn btn-sm rss" href="https://blog.csdn.net/youku1327/rss/list">

		<svg class="icon" aria-hidden="true">

			<use xlink:href="#csdnc-rss"></use>

		</svg>RSS订阅</a>

    </dd>

  </dl>"""

# 初始化 soup

soup = BeautifulSoup(html,'html.parser')

print(soup.find_all(href=re.compile("java.*?")))

输出结果

[<a class="btn-filter-sort active" data-report-query="" href="javascript:void(0);" target="_self">默认</a>]

3.7 按CSS搜索

soup.find_all("a", class_="btn") 查找a标签，class属性带有btn

# -*- coding: utf-8 -*-

import re

import requests

from bs4 import BeautifulSoup

html = """

    <div class="filter-box d-flex align-items-center">

    <form action="" id=seeOriginal>

    <dl class="filter-sort-box d-flex align-items-center">

    <dt>排序：</dt>

    <dd><a href="javascript:void(0);" data-report-query="" class="btn-filter-sort active" target="_self">默认</a></dd>

    <dd><a class="btn btn-sm rss" href="https://blog.csdn.net/youku1327/rss/list">

		<svg class="icon" aria-hidden="true">

			<use xlink:href="#csdnc-rss"></use>

		</svg>RSS订阅</a>

    </dd>

  </dl>"""

# 初始化 soup

soup = BeautifulSoup(html,'html.parser')

print(soup.find_all("a", class_="btn"))

输出结果

[<a class="btn btn-sm rss" href="https://blog.csdn.net/youku1327/rss/list">

<svg aria-hidden="true" class="icon">

<use xlink:href="#csdnc-rss"></use>

</svg>RSS订阅</a>]

四CSS选择器

Beautiful Soup 还直接支持CSS选择器搜索，下面列出了经常使用的方法示例；

# -*- coding: utf-8 -*-

import re

import requests

from bs4 import BeautifulSoup

html = """

    <div class="filter-box d-flex align-items-center">

    <form action="" id=seeOriginal>

    <dl class="filter-sort-box d-flex align-items-center">

    <dt>排序：</dt>

    <dd><a href="javascript:void(0);" data-report-query="" class="btn-filter-sort active" target="_self">默认</a></dd>

    <dd><a class="btn btn-sm rss" href="https://blog.csdn.net/youku1327/rss/list">

		<svg class="icon" aria-hidden="true">

			<use xlink:href="#csdnc-rss"></use>

		</svg>RSS订阅</a>

    </dd>

  </dl>"""

# 初始化 soup

soup = BeautifulSoup(html,'html.parser')

# 选取 dl 标签下面的 dt标签

lt = soup.select('dl dt')

print(lt)

dd = soup.select('dl dd')

print(dd[0])

# id 选择器搜索

id = soup.select('#seeOriginal')

print(id)

# class选择器 搜索

cla = soup.select('.btn-filter-sort')

print(cla[0])

分别输出如下

soup.select('dl dt')

[<dt>排序：</dt>]

soup.select('dl dd')[0]

<dd><a class="btn-filter-sort active" data-report-query="" href="javascript:void(0);" target="_self">默认</a></dd>

soup.select('#seeOriginal')

[<form action="" id="seeOriginal">

<dl class="filter-sort-box d-flex align-items-center">

<dt>排序：</dt>

<dd><a class="btn-filter-sort active" data-report-query="" href="javascript:void(0);" target="_self">默认</a></dd>

<dd><a class="btn btn-sm rss" href="https://blog.csdn.net/youku1327/rss/list">

<svg aria-hidden="true" class="icon">

<use xlink:href="#csdnc-rss"></use>

</svg>RSS订阅</a>

</dd>

</dl></form>]

soup.select('.btn-filter-sort')[0]

<a class="btn-filter-sort active" data-report-query="" href="javascript:void(0);" target="_self">默认</a>

跟着知识追寻者学BeautifulSoup，你学不会打不还口，骂不还手的更多相关文章

python专题知识追寻者对OS的理解
一前言 OS(operating system)直接对操作系统进行操作的接口,功能真是非常强大:允许知识追寻者简要概括一下整体模块如果要对文件进行读写可以使用os.open()方法如果要对文件路 ...
跟着PHP100第一季学写一个CMS(1-10)
笔记: 这次用的方法是先跟着视频做一遍,隔一天或半天后独立再做一遍,能发现真正不会的地方记录下来. CMS0.1界面布局1.问题:分两个css来实现时basic.css+index.php出现定位不正 ...
跟着阿里p7一起学java高并发 - 第19天：JUC中的Executor框架详解1，全面掌握java并发核心技术
这是java高并发系列第19篇文章. 本文主要内容介绍Executor框架相关内容介绍Executor 介绍ExecutorService 介绍线程池ThreadPoolExecutor及案例介 ...
软件测试为什么需要学习Linux的知识？Linux学到什么程度？-log5
软件测试为什么需要学习Linux的知识?学到什么程度?-log5 Dotest软件测试学堂-董浩公司目前90%的服务器操作系统不是Windows,而是Linux(RedHat.Debian.Cen ...
跟着阿里p7一起学java高并发 - 第18天：玩转java线程池，这一篇就够了
java中的线程池,这一篇就够了 java高并发系列第18篇文章. 本文主要内容什么是线程池线程池实现原理线程池中常见的各种队列自定义线程创建的工厂常见的饱和策略自定义饱和策略线程池中两 ...
【C语言学习笔记】空间换时间，查表法的经典例子！知识就是这么学到的~
我们怎么衡量一个函数/代码块/算法的优劣呢?这需要从多个角度看待.本篇笔记我们先不考虑代码可读性.规范性.可移植性那些角度. 在我们嵌入式中,我们需要根据实际资源的情况来设计我们的代码.比如当我们能用 ...
Java全家桶的这些知识，不用学了
众所周知,Java 的知识体系繁冗复杂,但是有很多知识在实际工作中几乎没有人用. 很多人在学习过程中,却经常把有限的时间和精力花在了这些"没有用"的知识上,事倍功半. 下面我捋一捋 ...
跟着PHP100第一季学写一个CMS(11-20)
PS.刚发现IE并不兼容,有点悲剧 cms1.1密码处理 1.小知识:sha1($_answer) //加密为40位,不知道能不能破解 2.小知识:mysql_real_escape_string( ...
canvas知识03：学写一个字案例
效果

随机推荐

java面向接口编程之制定标准和简单工厂模式
制定一个标准,让别人去实现或者说满足它! Eg: interface USB{//定义USB标准 void useUSB();//USB有使用USB的行为 } 简单工厂模式构建一个工厂出来,在里面进 ...
前端开发之JavaScript
JavaScript JS是一种脚本语言,浏览器执行,用于渲染HTML网页,实现网页的动画效果. JavaScript的引用方式: 1,在HTML文件中script标签中写JS代码 <scrip ...
codeforce 382 div2 E —— 树状dp
题意:给一棵n个结点的无根树染色,求使每个结点距离为k的范围内至少有一个被染色的结点的总染色方法数目分析:首先我们定义: 对于结点v, 如果存在一个黑色结点u距离v不超过k,则结点v被“控制” 首先 ...
HDU6581 Vacation (HDU2019多校第一场1004)
HDU6581 Vacation (HDU2019多校第一场1004) 传送门:http://acm.hdu.edu.cn/showproblem.php?pid=6581 题意: 给你n+1辆汽车, ...
Team Foundation Server 2015使用教程【6】：新增权限为读取器的团队
springmvc整合freemarker教程（转）
1.介绍我最近喜欢freemarker在网上找了大半天.都没有找到一个简单又容易理解的案例.虽然只是一个模板技术.但是相对刚开始什么都不知道的,很难入手.下面是自学(其实是谷歌和百度的东找西补).写 ...
025.MFC_窗口操作
窗口操作一.建立名为dialogOp 的mfc 工程 ,添加9个button 和1个check box组件,并按如图修改caption属性. 最大化窗口双击最大化button,进入dialogOp ...
sed & awk & grep 专题
转载自:http://www.cnblogs.com/moveofgod/p/3540575.html grep, sed 与 awk 相当有用 ! gerp 查找, sed 编辑, awk 根据内容 ...
解读中兴通信在物联网行业如何践行DDD
此前,在由 ThoughtWorks 举办的领域驱动设计峰会 DDD-China 2019 上,InfoQ 记者就开发团队为何需要 DDD.目前业界实践 DDD 的挑战等问题对中兴通讯资深软件架构师张 ...
37.html
转载:https://www.cnblogs.com/yuanchenqi/articles/5976755.html 前端概述 import socket def main(): sock = so ...

跟着知识追寻者学BeautifulSoup，你学不会打不还口，骂不还手

一 前言

二 Beautiful Soup 简单使用

2.1 格式化HTML

2.2 获取标签节点

2.3 获取节点文本

2.4获取节点名称

2.5 获得节点对象种类

2.6 获取所有属性

2.7 获取特定属性

2.8 获取子节点

2.9 获取所有直接子节点

2.10 获取直接子节点生成器

2.11 获取所有子节点生成器

2.12 获取直接父节点

2.13 获取祖先节点生成器

2.14 获取兄弟节点

三 搜索文档

3.1 name参数示例

3.2 attrs 属性示例

3.3 recursive 示例

3.4limit示例

3.5 kwargs 示例之属性匹配

3.6 kwargs 示例之正则匹配

3.7 按CSS搜索

四CSS选择器

跟着知识追寻者学BeautifulSoup，你学不会打不还口，骂不还手的更多相关文章

随机推荐

热门专题

一前言

三搜索文档