Python BeautifulSoup定位取值

-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-

从网页中获取指定标签、属性值，取值方式：

　　1.通过标签名获取：tag.name tag对应的type是<class 'bs4.element.Tag'>

　　2.通过属性获取：tag.attrs

　　3.获取标签属性：tag.get('属性名') 或 tag['属性名']

获取标签内容：

　　1.tag.string 获取当前标签的内容，只有一个标签的时候，（是能处理一个标签，返回标签的text内容）

　　2.tag.get_text() 获取标签内所有的字符串

　　1. stripped_strings

　　 输出的字符串中可能包含了很多空格或空行,使用 .stripped_strings 可以去除多余空白内容

for string in soup.stripped_strings:

    print(repr(string))

    # u"The Dormouse's story"

    # u"The Dormouse's story"

    # u'Once upon a time there were three little sisters; and their names were'

    # u'Elsie'

    # u','

    # u'Lacie'

    # u'and'

    # u'Tillie'

    # u';\nand they lived at the bottom of a well.'

　　2. 标准输出页面：

　　　　soup.prettify()

BeautifulSoup 查找元素：

　　1.find_all(class_="class") 返回的是多个标签，格式为<class 'bs4.element.ResultSet'>

　　2.find(class_="class") 返回一个标签，格式是<class 'bs4.element.Tag'>

　　3.select_one()    返回一个标签，格式是<class 'bs4.element.Tag'>

　　4.select()    返回的是多个标签，格式为<class 'bs4.element.ResultSet'>

　　5.　soup = BeautifulSoup(backdata,'html.parser')　　#转换为BeautifulSoup形式属性

　　　　soup.find_all('标签名'，attrs{'属性名':'属性值'} ) #返回的是列表

　　　　limitk 控制 find_allf返回的数量

　　　　recursive=Flasef返回tag的直接子元素

　　　　soup.find_all(text=re.compile(' content '))     根据文本匹配，可模糊匹配

子节点处理方式：

　　1. contents

　　　　.contents 属性可以将tag的子节点以列表的方式输出

　　2. children

　　　　.children 生成器,可以对tag的子节点进行循环

　　3. descendants

　　　　contents和children 只是返回的是直接子节点，而descendants返回的是对多有的子孙节点进行循环

父节点处理方式：

　　1. parent

　　　　通过 .parent 属性来获取某个元素的父节点

　　2. find_parents（）

　　　　返回祖先节点

　　2. find_parent（）

　　　　返回父节点

兄弟节点处理方式：

　　1. next_siblings 下一个兄弟节点

　　2. previous_siblings 上一个兄弟节点

　　3. find_next_siblings（）下一个兄弟节点

　　4. find_next_sibling（）上一个兄弟节点

Python BeautifulSoup定位取值的更多相关文章

Python 字符串——巧取值和列表——巧取值对比
Python 字符串——巧取值和列表——巧取值对比 1.字符串取值实例: samp_string = "Whatever you are, be a good one." for ...
python迭代器-迭代器取值-for循环-生成器-yield-生成器表达式-常用内置方法-面向过程编程-05
迭代器迭代器迭代: # 更新换代(其实也是重复)的过程,每一次的迭代都必须基于上一次的结果(上一次与这一次之间必须是有关系的) 迭代器: # 迭代取值的工具为什么用迭代器: # 迭代器提供了一种 ...
Python 字典的取值
不能用.取值 .是获取属性或方法只能用中括号或者get方法中括号和get中可以放字符串或者变量 get与[]的区别在于当key不存在,get不会报错,而且get可以设置取不到值时返回的默认值.
python数组冒号取值操作
1.冒号的用法 1.1 一个冒号 a[i:j] 这里的i指起始位置,默认为0:j是终止位置,默认为len(a),在取出数组中的值时就会从数组下标i(包括)一直取到下标j(不包括j) 在一个冒号的情况下 ...
[原创]python+beautifulsoup爬取整个网站的仓库列表与仓库详情
from bs4 import BeautifulSoup import requests import os def getdepotdetailcontent(title,url):#爬取每个仓库 ...
python：字符串取值
某个字符串为stmp="abcdef54321" 取前面5个stmp[:5] #abcde 取后面5个stmp[-5:] #54321 从前面开始取,不包括最后两个stmp[:-2 ...
学习笔记28—Python 不同数据类型取值方法
1.array数据类型 1)-------> y[i,] 或者 y[i] 2.遍历目录下所有文件夹: def eachFile(filepath): pathDir = os.list ...
python 嵌套字典取值增强版
def getdictvalue(d,code): result=[] if isinstance(d, dict) : try: value = d[code] result.append(valu ...
Python数据科学手册-Pandas:数据取值与选择
Numpy数组取值切片[:,1:5], 掩码操作arr[arr>0], 花哨的索引 arr[0, [1,5]],Pandas的操作类似 Series数据选择方法 Series对象与一维Nump ...
9月23日内容总结——pycharm的安装与使用、python语法规范与注释、变量和常量、索引取值以及部分数据类型简介
今日内容总结目录今日内容总结一.pycharm的安装 1.软件介绍 2.正版安装 1.下载软件 2.安装软件 3.其他方法安装(需要先下载相关资源) ①无限试用法 ②傻瓜式激活法 ③淘宝购买二 ...

随机推荐

【笔记】问题控制与管理&故障、问题、已知错误、变更请求之间的逻辑关系&问题管理流程
[笔记]问题控制与管理&故障.问题.已知错误.变更请求之间的逻辑关系问题控制与管理与故障管理的尽可能快地恢复服多的目标不同,问题管理是要防止再次发生故障例如你制作了一个报表,用户填写了问 ...
【Oracle】Oracle常用分析函数（排名）
Oracle常用分析函数(排名) 一般来说,遇到需要对数据进行排序的时候,可以使用分析函数,一般常用的有三个,rank,dense_rank,row_number --Oracle常用分析函数(排名) ...
DataX在数据迁移中的应用
简介: DataX在数据迁移中的应用 1. DataX定义首先简单介绍下datax是什么.DataX是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括 MySQL.Oracle.SqlSe ...
Java单元测试技巧之PowerMock
简介: 高德的技术大佬向老师在谈论方法论时说到:"复杂的问题要简单化,简单的问题要深入化." 这句话让我感触颇深,这何尝不是一套编写代码的方法--把一个复杂逻辑拆分为许多简单逻辑, ...
使用AirFlow调度MaxCompute
简介: airflow是Airbnb开源的一个用python编写的调度工具,基于有向无环图(DAG),airflow可以定义一组有依赖的任务,按照依赖依次执行,通过python代码定义子任务,并支持各 ...
Metasploit 实现木马生成、捆绑及免杀
简介: 在渗透测试的过程中,避免不了使用到社会工程学的方式来诱骗对方运行我们的木马或者点击我们准备好的恶意链接.木马的捆绑在社会工程学中是我们经常使用的手段,而为了躲避杀毒软件的查杀,我们又不得不对 ...
WPF 制作一个占用文件的测试工具
我在开发软件进行测试时,需要测试拖入的文件被占用时软件的行为,于是就做了一个文件占用工具,此工具可以将某个文件进行占用,以及获取某个文件被哪个进程占用先给大家看一下效果: 以上是拖入文件到灰色部分, ...
Ubuntu环境下docker每次都需要sudo的问题
1.添加 docker 用户组 sudo groupadd docker 可以通过 cat /etc/group 指令查看存在的用户组 2.将当前用户添加到 docker 组中 sudo gpassw ...
数字电路中的等效电路和FPGA中的等效电路
欢迎各位朋友关注"郝旭帅电子设计团队",本微信公众号会定时更新相关技术类资料.软件等等,希望各位朋友都能在本微信公众号获得一些自己想要的"东西". 本篇内容主要 ...
01二分 [AGC006D] Median Pyramid Hard + P2824 [HEOI2016/TJOI2016] 排序
[AGC006D] Median Pyramid Hard 考虑对于一个长度为 2n + 1 的 01 序列 b 如何快速确定堆顶元素. _ _ _ _ x _ _ _ 0 x _ _ 0 0 x _ ...

Python BeautifulSoup定位取值

Python BeautifulSoup定位取值的更多相关文章

随机推荐

热门专题