基于bs4库的HTML标签遍历方法

import requests

r=requests.get('http://python123.io/ws/demo.html')

demo=r.text

HTML基本格式

HTML可以看做一棵标签树

遍历方法

下行遍历

属性	说明
.contents	将该标签所有的儿子节点存入列表
.children	子节点的迭代类型，和contents类似，用于遍历儿子节点
.descendants	子孙节点的迭代类型，包含所有的子孙跌点，用于循环遍历

import requests

from bs4 import BeautifulSoup

r=requests.get('http://python123.io/ws/demo.html')

demo=r.text

soup=BeautifulSoup(demo,'html.parser')

print(soup.contents)# 获取整个标签树的儿子节点

print(soup.body.content)#返回标签树的body标签下的节点

print(soup.head)#返回head标签

print(len(soup.body.content))#输出body标签儿子节点的个数

print(soup.body.content[1])#获取body下第一个子标签

遍历子孙节点

import requests

from bs4 import BeautifulSoup

r=requests.get('http://python123.io/ws/demo.html')

demo=r.text

soup=BeautifulSoup(demo,'html.parser')

for child in soup.body.children:#遍历儿子节点

    print(child)

for child in soup.body.descendants:#遍历子孙节点

    print(child)

上行遍历

属性	说明
.parent	节点的父亲标签
.parents	节点的先辈标签的迭代类型，用于循环遍历先辈节点

import requests

from bs4 import BeautifulSoup

r=requests.get('http://python123.io/ws/demo.html')

demo=r.text

soup=BeautifulSoup(demo,'html.parser')

print(soup.title.parent)

print(soup.title.parent)

print(soup.parent)

import requests

from bs4 import BeautifulSoup

r=requests.get('http://python123.io/ws/demo.html')

demo=r.text

soup=BeautifulSoup(demo,'html.parser')

for parent in soup.a.parents:#遍历先辈的信息

    if parent is None:

        print(parent)

    else:

        print(parent.name)

平行遍历

属性	说明
.next_sibling	返回HTML文本顺序的下一个平行标签
.previous_sibling	返回HTML文本顺序的上一个平行标签
.next_siblings	迭代类型，返回HTML文本顺序后续所有的平行标签
.pervious_siblings	迭代类型，返回HTML文本顺序前面所有的平行标签

注意

标签树的平行遍历是有条件的
平行遍历发生在同一个父亲节点的各节点之间
标签中的内容也构成了节点

import requests

from bs4 import BeautifulSoup

r=requests.get('http://python123.io/ws/demo.html')

demo=r.text

soup=BeautifulSoup(demo,'html.parser')

print(soup.a.next_sibling)#a标签的下一个标签

print(soup.a.next_sibling.next_sibling)#a标签的下一个标签的下一个标签

print(soup.a.previous_sibling)#a标签的前一个标签

print(soup.a.previous_sibling.previous_sibling)#a标签的前一个标签的前一个标签

平行遍历

import requests

from bs4 import BeautifulSoup

r=requests.get('http://python123.io/ws/demo.html')

demo=r.text

soup=BeautifulSoup(demo,'html.parser')

for sibling in soup.a.next_siblings:#遍历后续节点

    print(sibling)

for sibling in soup.a.previous_sibling:#遍历之前的节点

    print(sibling)

有层次感的输出-prettify()

import requests

from bs4 import BeautifulSoup

r=requests.get('http://python123.io/ws/demo.html')

demo=r.text

soup=BeautifulSoup(demo,'html.parser')

print(soup.prettify())

基于bs4库的HTML标签遍历方法的更多相关文章

基于bs4库的HTML内容查找方法
一.信息提取实例提取HTML中所有的URL链接思路:1)搜索到所有的<a>标签 2)解析<a>标签格式,提取href后的链接内容 >>> import r ...
基于bs4库的HTML查找方法
基于bs4库的HTML查找方法 find_all方法 <>.find_all(name,attrs,recursive,string,**kwargs) 返回一个列表类型,内部存储查找的结 ...
python bs4库
Beautiful Soup parses anything you give it, and does the tree traversal stuff for you. BeautifulSoup ...
《爬虫学习》（四）（使用lxml,bs4库以及正则表达式解析数据）
1.XPath: XPath(XML Path Language)是一门在XML和HTML文档中查找信息的语言,可用来在XML和HTML文档中对元素和属性进行遍历. 工具:扩展商店里搜索:XPath ...
WebGIS中基于控制点库进行SHP数据坐标转换的一种查询优化策略
文章版权由作者李晓晖和博客园共有,若转载请于明显处标明出处:http://www.cnblogs.com/naaoveGIS/ 1.前言目前项目中基于控制点库进行SHP数据的坐标转换,流程大致为:遍 ...
JSTL标签库之核心标签
一.JSTL标签库介绍 JSTL标签库的使用是为弥补html标签的不足,规范自定义标签的使用而诞生的.使用JSLT标签的目的就是不希望在jsp页面中出现java逻辑代码二.JSTL标签库的分类核心 ...
javaweb学习总结(二十八)——JSTL标签库之核心标签
一.JSTL标签库介绍 JSTL标签库的使用是为弥补html标签的不足,规范自定义标签的使用而诞生的.使用JSLT标签的目的就是不希望在jsp页面中出现java逻辑代码二.JSTL标签库的分类核心 ...
学会怎样使用Jsp 内置标签、jstl标签库及自定义标签
学习jsp不得不学习jsp标签,一般来说,对于一个jsp开发者,可以理解为jsp页面中出现的java代码越少,对jsp的掌握就越好,而替换掉java代码的重要方式就是使用jsp标签. jsp标签的分 ...
javaWeb学习总结（9）- JSTL标签库之核心标签
一.JSTL标签库介绍 JSTL标签库的使用是为弥补html标签的不足,规范自定义标签的使用而诞生的.使用JSLT标签的目的就是不希望在jsp页面中出现java逻辑代码二.JSTL标签库的分类核心 ...

随机推荐

百度地图api的简单应用（一）：POI检索
使用之前,需要注册一个百度地图开发者账号,最好申请一个认证以获取更高的使用配额和并发上限. 注册之后,申请一个应用,获得一个ak(密钥),并填写ip地址白名单.(这里我使用0.0.0.0/0,查了自己 ...
《转》从系统和代码实现角度解析TensorFlow的内部实现原理 | 深度
from https://www.leiphone.com/news/201702/n0uj58iHaNpW9RJG.html?viewType=weixin 摘要 2015年11月9日,Google ...
xgboost调参过程
from http://blog.csdn.net/han_xiaoyang/article/details/52665396
python导入不同目录下的自定义模块
一.代码目录结构自定义的模块在Common包下,Study文件下SelectionSort.py文件导入自定义的模块二.源码 2.1:SelectionSort.py文件 python导包默认 ...
ASP教程:gb2312和utf-8乱码问题解决
文章为转载:https://www.xp.cn/b.php/31663.html 尊重作者版权今天做网站的时候,客户要一个博客,于是就利用了本博客所用的程序pjblog.经常做网站的人都知道,在同一 ...
sweetalert2 全面替代 alert ，从 sweetalert2 弹出 text 到弹出 Dom 以及模态框和取消 sweetalert2 的 OK 按钮
1. 简易基本版 sweetalert 涵盖日常基本的弹出及对话框 2. 升级版本 sweetalert2 满足常见开发工作中的各种要求 3 取消 OK 按钮, 只需要设置 showConfirmBu ...
SQL简介及分类
SQL (Structured Query Language) 结构化查询语言,定义了所有操作关系型数据库的规则,只要是关系型数据库都需要用SQL语句: 语法: 一行可以有多个SQL语句,以分号结尾: ...
Python与CSV文件（CSV模块）
Python与CSV文件(CSV模块) 1.CSV文件 CSV(逗号分隔值)格式是电子表格和数据库最常用的导入和导出格式.没有“CSV标准”,因此格式由许多读写的应用程序在操作上定义.缺乏标准意味 ...
ali之monkey学习
monkey主要用来进行压力测试,稳定性测试 http://www.cnblogs.com/yyangblog/archive/2011/03/10/1980068.html 1,什么是monkey ...
Linux NTP服务器的搭建及client自动更新时间
Network Time Protocol(NTP)是用来使计算机时间同步化的一种协议,它可以使计算机对其服务器或时钟源(如石英钟,GPS等等)做同步化,它可以提供高精准度的时间校正(LAN上与标准间 ...

基于bs4库的HTML标签遍历方法

基于bs4库的HTML标签遍历方法

HTML基本格式

遍历方法

下行遍历

上行遍历

平行遍历

有层次感的输出-prettify()

基于bs4库的HTML标签遍历方法的更多相关文章

随机推荐

热门专题