bs4解析
介绍:将一个html文档转换成BeautifulSoup对象,然后通过对象的方法或属性查找指定的节点内容
- 转换本地文件:
soup = BeautifulSoup(fp,'lxml') fp为文档对象
转换网络文件:
soup = BeautifulSoup('str/bytes','lxml') 'str/bytes'通常为requests请求方法实例化对象的text或content属性
获取指定内容的方式
1.通过标签(soup.tagName)
1.1 根据标签查找
soup.tagName 查找到第一个符合要求的标签
例如:soup.a 查找到第一个a标签
1.2 获取属性
soup.tagName.attrs 获取标签的所有属性和属性值,返回一个字典
例如:soup.a.attrs 获取到第一个a标签 所有属性和属性值的一格字典
soup.tagName.attrs['key'] 获取上述字典的一个属性值,
通常使用soup.tagName[attr] 简化上面两个方法,例如:soup.a['href'],获取第一个a标签的href属性
1.3 获取内容
soup.a.string 获取a标签的文本内容,如果里面嵌套标签,则为None
``soup.a.text` 获取a下的所有文本(嵌套标签的文本)
``soup.a.get_text()`
2.find与find_all方法
2.1find(‘tagName',attr)
查找到第一个符合attr的‘tagName'标签
soup.find('a') 和soup.a相同, 查找到第一个a标签
soup.find('a', title = 'xxx') 查找第一个title为xxx的标签
soup.find('a',class_ = 'xxx') 注意使用类名时,避免关键字class,这里为class_
soup.find('a',id = 'xxx')
find之后还可以使用string、text和get_text() 例如:soup.find('a',class = 'xxx').string
同样也可以获取属性,例如:soup.find('a',id = 'xxx')['href']
2.2find_all
返回的是列表
soup.find_all('a') 返回一个含所有a标签的列表,要进一步获取某一个a的属性或内容,先从列表中获 取该元素
soup.find_all(['a','li']) 返回一个含所有a标签和li标签的列表
soup.find_all('a',limit = 3) 限定前三个a标签 (和python索引不同)
soup.find_all('div',class_="xxx") 返回所有类名为"xxx"的div标签
3.select()方法
select() 括号中和前端中的选择器(标签、类、id....)类似,select返回的也是列表
select('#id') select('.class') select('ul li')
select('div > span > a')
bs4解析练习
import requests
from bs4 import BeautifulSoup
url = 'https://www.coolapk.com/'
response = requests.get(url = url)
ht = response.text
soup = BeautifulSoup(ht,'lxml')
soup.a
<a href="/">
<span id="header-logo" style="display: flex;justify-content: left;align-items: center;"><img alt="" src="/static/images/header-logo.png" style="height: 35px;margin-right: 10px;"/><span>酷安</span></span>
</a>
soup.a.attrs #{'href': '/'}
soup.a['herf'] # /
soup.a.string #None
soup.a.text #酷安
souo.a.get_text() #酷安
soup.find('li',id="navbar-apk") #<li id="navbar-apk"><a href="/apk/">应用</a></li>
soup.find('li',id="navbar-apk").string #应用
soup.find('img',class_='logo')['src'] #/static/images/coolapklogo.png
soup.find_all('div',class_="weui-flex",limit = 2)
#结果
[<div class="weui-flex logo-box">
<div class="weui-flex__item">
<img alt="酷安" class="logo" src="/static/images/coolapklogo.png"/>
</div>
</div>, <div class="weui-flex">
<div class="weui-flex__item">
<p class="title">全新酷安V9</p>
<p class="sub-title mobile-display">和你一起,发现科技新生活</p>
<p class="sub-title pc-display">和你一起,<br/>发现科技新生活</p>
</div>
</div>]
div_L = soup.find_all('li',limit = 6)
for i in div_L:
print(i.text)
#结果
首页
应用
游戏
酷安手机APP
联系酷安
关于酷安
soup.select('.footer-navbar ul li a')
for i in tag_a_L:
print(i['href'])
#结果:
/about/about.html
/about/contact.html
/about/jobs.html
/about/copyright.html
/apk/com.coolapk.market?from=footer
https://developer.coolapk.com?from=footer
bs4解析的更多相关文章
- bs4解析库
beautifulsoup4 bs4解析库是灵活又方便的网页解析库,处理高效,支持多种解析器.利用它不用编写正则表达式即可方便地实现网页的提取 要解析的html标签 from bs4 import B ...
- bs4 解析 以及用法
bs4解析 bs4: 环境安装: lxml bs4 bs4编码流程: 1.实例化一个bs4对象,且将页面源码数据加载到该对象中 2.bs相关的方法或者属性实现标签定位 3.取文本或者取属性 bs的属性 ...
- Python3.x:bs4解析html基础用法
Python3.x:bs4解析html基础用法 代码: import urllib.request from bs4 import BeautifulSoup import re url = r'ht ...
- 爬虫的三种解析方式(正则解析, xpath解析, bs4解析)
一 : 正则解析 : 常用正则回顾: 单字符: . : 除换行符以外的所有字符 [] : [aoe] [a-w] 匹配集合中任意一个字符 \d : 数字 [0-9] \D : 非数字 \w : 非数字 ...
- python bs4解析网页时 bs4.FeatureNotFound: Couldn't find a tree builder with the features you requested: lxml. Do you need to inst(转)
Python小白,学习时候用到bs4解析网站,报错 bs4.FeatureNotFound: Couldn't find a tree builder with the features you re ...
- 爬虫系列二(数据清洗--->bs4解析数据)
一 BeautifulSoup解析 1 环境安装 - 需要将pip源设置为国内源,阿里源.豆瓣源.网易源等 - windows (1)打开文件资源管理器(文件夹地址栏中) (2)地址栏上面输入 %ap ...
- pytho爬虫使用bs4 解析页面和提取数据
页面解析和数据提取 关注公众号"轻松学编程"了解更多. 一般来讲对我们而言,需要抓取的是某个网站或者某个应用的内容,提取有用的价值.内容一般分为两部分,非结构化的数据 和 结构化的 ...
- bs4解析要获取被注掉的部分需先将注释符号去掉
<div class="xzcf-content"> <div id="sfxz"> <div class="main- ...
- 爬虫的两种解析方式 xpath和bs4
1.xpath解析 from lxml import etree 两种方式使用:将html文档变成一个对象,然后调用对象的方法去查找指定的节点 (1)本地文件 tree = etree.parse(文 ...
随机推荐
- python3编程基础之一:关键字
在学习编程的过程中每种语言都会有一些特殊的字母组合在本语言中表示特定的含义,这种字母组合就是关键字.原则上,关键字是无法被重复定义的,否则,语言在应用中,就无法正确确定标号的意义了. 1.关键字的获取 ...
- 常见ETL工具一览
这些年,几乎都与ETL打交道,接触过多种ETL工具.现将这些工具做个整理,与大家分享. 一 ETL工具[国外] 1. datastage点评:最专业的ETL工具,价格不菲,使用难度一般 下载地址:ft ...
- easyUI的datagrid表格的使用
实现easyUI表格的里面数据的增删改查功能.SQL使用Oracle和mybatis. 话不多说,直接上代码. 首先是前段部分的. var session = GetSession(); var pa ...
- union all 和 union 的 区别
https://www.cnblogs.com/wen-zi/p/9133754.html 主要: Union:对两个结果集进行并集操作,不包括重复行,同时进行默认规则的排序: Union All:对 ...
- Chrome和火狐插件让数以百万计用户隐私数据泄露
https://tech.163.com/19/0721/12/EKK1PRAU00097U7R.html 网易科技讯7月21日消息,据国外媒体报道,流行浏览器诸如广告拦截等扩展功能,已经遭利 ...
- 设备树中的interrupts属性解析
interrupts属性会有两种不同的参数: 1. 带两个参数的情形 示例: interrupt-parent = <&gpio2>; interrupts = <5 1& ...
- SQL-W3School-函数:SQL FORMAT() 函数
ylbtech-SQL-W3School-函数:SQL FORMAT() 函数 1.返回顶部 1. FORMAT() 函数 FORMAT 函数用于对字段的显示进行格式化. SQL FORMAT() 语 ...
- Bitmap之getDensity和setDensity函数
package com.loaderman.customviewdemo; import android.app.Activity; import android.graphics.Bitmap; i ...
- selenium WebDriver 清空input的方式
做自动测试时,经常会出现某些文本框带有默认值的形式,此时我们为了输入我们预期的数据,就需要我们对默认值清楚后做处理.本文章提供四种方法 //方法1 public static void setElem ...
- 阶段5 3.微服务项目【学成在线】_day18 用户授权_09-动态查询用户的权限-认证服务查询用户权限
认证服务查询用户权限 如果权限为空就New一个对象出来. 因为如果为空的话 下面 forEach就会报空指针的异常 启动服务测试 重新登陆 看到userExt已经获取到了用户的权限 权限的字符串 复制 ...