python 之 BeautifulSoup标签查找与信息提取

一、查找a标签

（1）查找所有a标签

>>> for x in soup.find_all('a'):

    print(x)

<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>

<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>

<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>

（2）查找所有a标签，且属性值href中需要保护关键字“”

>>> for x in soup.find_all('a',href = re.compile('lacie')):

    print(x)

<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>

（3）查找所有a标签，且字符串内容包含关键字“Elsie”

>>> for x in soup.find_all('a',string = re.compile('Elsie')):

    print(x)

<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>

（4）查找body标签的所有子标签，并循环打印输出

>>> for x in soup.find('body').children:

    if isinstance(x,bs4.element.Tag):        #使用isinstance过滤掉空行内容

        print(x)

<p class="title"><b>The Dormouse's story</b></p>

<p class="story">Once upon a time there were three little sisters; and their names were

<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,

<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a> and

<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>;

and they lived at the bottom of a well.</p>

二、信息提取（链接提取）

（1）解析信息标签结构，查找所有a标签，并提取每个a标签中href属性的值（即链接），然后存在空列表；

>>> linklist = []

>>> for x in soup.find_all('a'):

    link = x.get('href')

    if link:

        linklist.append(link)

>>> for x in linklist:        #验证：环打印出linklist列表中的链接

    print(x)

http://example.com/elsie

http://example.com/lacie

http://example.com/tillie

小结：链接提取 <---> 属性内容提取 <---> x.get('href')

（2）解析信息标签结构，查找所有a标签，且每个a标签中href中包含关键字“elsie”,然后存入空列表中；

>>> linklst = []

>>> for x in soup.find_all('a', href = re.compile('elsie')):

    link = x.get('href')

    if link:

        linklst.append(link)

>>> for x in linklst:        #验证：循环打印出linklist列表中的链接

    print(x)

http://example.com/elsie

小结：在进行a标签查找时，加入了对属性值href内容的正则匹配内容 <---> href = re.compile('elsie')

（3）解析信息标签结构，查询所有a标签，然后输出所有标签中的“字符串”内容；

>>> for x in soup.find_all('a'):

    string = x.get_text()

    print(string)

Elsie

Lacie

Tillie

python 之 BeautifulSoup标签查找与信息提取的更多相关文章

python之BeautifulSoup库
1. BeautifulSoup库简介和 lxml 一样,Beautiful Soup 也是一个HTML/XML的解析器,主要的功能也是如何解析和提取 HTML/XML 数据.lxml 只会局部遍历 ...
爬虫之标签查找补充及selenium模块的安装及使用与案例
今日内容概要 bs模块之标签查找过滤器 selenium模块今日内容详细 html_doc = """ <html> <head> <t ...
Python实例---beautifulsoup小Demo
豆瓣 # coding:utf - 8 from urllib.request import urlopen from bs4 import BeautifulSoup html = urlopen( ...
Python和BeautifulSoup进行网页爬取
在大数据.人工智能时代,我们通常需要从网站中收集我们所需的数据,网络信息的爬取技术已经成为多个行业所需的技能之一.而Python则是目前数据科学项目中最常用的编程语言之一.使用Python与Beaut ...
Python Download Image (python + requests + BeautifulSoup)
环境准备 1 python + requests + BeautifulSoup 页面准备主页面: http://www.netbian.com/dongman/ 图片伪地址: http://www ...
搭建基于python +opencv+Beautifulsoup+Neurolab机器学习平台
搭建基于python +opencv+Beautifulsoup+Neurolab机器学习平台 By 子敬叔叔最近在学习麦好的<机器学习实践指南案例应用解析第二版>,在安装学习环境的时候 ...
Python配合BeautifulSoup读取网络图片并保存在本地
本例为Python配合BeautifulSoup读取网络图片,并保存在本地. BeautifulSoup可代替正则表达式,更好地解析Html文本,获取其中的指定内容,如Tag.Property等 # ...
python glob 用通配符查找指定目录中的文件 - 开源中国社区
python glob 用通配符查找指定目录中的文件 - 开源中国社区 python glob 用通配符查找指定目录中的文件
python scrapy,beautifulsoup,regex,sgmparser,request,connection
In [2]: import requests In [3]: s = requests.Session() In [4]: s.headers 如果你是爬虫相关的业务?抓取的网站还各种各样, ...

随机推荐

SQL Server2012如何更改服务器的名称
Problem: sql server 2012 安装完毕后,连接数据库只能使用机器名\数据库实例的方式,想用 localhost 或 . 作为服务器名称不可以 Solution: 参考:http ...
xml转换csv
/// <summary> /// xml文件转换为CSV /// </summary> /// <param name="fileName"> ...
D. Minimum Diameter Tree Round #528 (Div. 2)【树】
一.题面题目链接二.分析该题注意读题的时候有强调边的权值为非负(即可以为0),此题就是求树两个叶子节点之间的最短距离.为了使两个叶子节点之间的距离最短,那么其实就是让每个最后到叶子的那条路径尽量 ...
制作支持UEFI启动的原装系统安装盘
目前市面上大多数的计算机主板均支持UEFI,而且默认就是UEFI,会让新手安装系统遇到各种问题,最常见的就是找不到硬盘,通过光盘来安装操作系统,固然不会遇到什么问题,但是现在主流手段都是通过U盘来安装 ...
PHP_$_SERVER中QUERY_STRING,REQUEST_URI的用法
$_SERVER存储当前服务器信息,其中有几个值如 $_SERVER["QUERY_STRING"], $_SERVER["REQUEST_URI"], $_S ...
【总结】ettercap工具之arp欺骗
kali自带工具ettercap,使用前先开启IP转发功能 echo 1 > /proc/sys/net/ipv4/ip_forward 1.以管理员身份打开ettercap,两种方式-G图形化 ...
python之拷贝（深浅）
深浅拷贝深浅拷贝分为两部分,一部分是数字和字符串另一部分是列表.元组.字典等其他数据类型. 数字和字符串对于数字和字符串而言,赋值.浅拷贝和深拷贝无意义,因为他们的值永远都会指向同一个内存地址. ...
JS中String()与.toString()的区别
1..toString()可以将所有的的数据都转换为字符串,但是要排除null 和 undefined 例如将false转为字符串类型 <script> var str = false.t ...
Git学习手记
直接使用github的客户端即可 1.简介集中化的版本控制系统( Centralized Version Control Systems,简称 CVCS )应运而生.这类系统,诸如 CVS,Subv ...
vue懒加载 && 浏览器高度
当我们进入首页时,可能有很多条目需要显示,但是如果条目太多,我们全部将之显示出来就会造成性能的消耗,比如,我在第一条就找到了需要的或者我就看前面两条我就不想看后面的了,所以,这时候如果使用全部加载的方 ...

python 之 BeautifulSoup标签查找与信息提取

python 之 BeautifulSoup标签查找与信息提取的更多相关文章

随机推荐

热门专题