bs4解析

介绍：将一个html文档转换成BeautifulSoup对象，然后通过对象的方法或属性查找指定的节点内容

转换本地文件：

soup = BeautifulSoup(fp,'lxml') fp为文档对象

转换网络文件：

soup = BeautifulSoup('str/bytes','lxml') 'str/bytes'通常为requests请求方法实例化对象的text或content属性

获取指定内容的方式

1.通过标签(soup.tagName)

1.1 根据标签查找

soup.tagName 查找到第一个符合要求的标签

例如：soup.a 查找到第一个a标签

1.2 获取属性

soup.tagName.attrs 获取标签的所有属性和属性值，返回一个字典

例如：soup.a.attrs 获取到第一个a标签所有属性和属性值的一格字典

soup.tagName.attrs['key'] 获取上述字典的一个属性值,

通常使用soup.tagName[attr] 简化上面两个方法，例如：soup.a['href']，获取第一个a标签的href属性

1.3 获取内容

soup.a.string 获取a标签的文本内容，如果里面嵌套标签，则为None

``soup.a.text` 获取a下的所有文本（嵌套标签的文本）

``soup.a.get_text()`

2.find与find_all方法

2.1find（‘tagName'，attr）

查找到第一个符合attr的‘tagName'标签

soup.find('a') 和soup.a相同, 查找到第一个a标签

soup.find('a', title = 'xxx') 查找第一个title为xxx的标签

soup.find('a',class_ = 'xxx') 注意使用类名时，避免关键字class,这里为class_

soup.find('a',id = 'xxx')

find之后还可以使用string、text和get_text() 例如：soup.find('a',class = 'xxx').string

同样也可以获取属性，例如：soup.find('a',id = 'xxx')['href']

2.2find_all

返回的是列表

soup.find_all('a') 返回一个含所有a标签的列表，要进一步获取某一个a的属性或内容，先从列表中获取该元素

soup.find_all(['a','li']) 返回一个含所有a标签和li标签的列表

soup.find_all('a',limit = 3) 限定前三个a标签 (和python索引不同)

soup.find_all('div',class_="xxx") 返回所有类名为"xxx"的div标签

3.select()方法

select() 括号中和前端中的选择器（标签、类、id....)类似，select返回的也是列表

select('#id') select('.class') select('ul li')

select('div > span > a')

bs4解析练习

import requests

from bs4 import BeautifulSoup

url = 'https://www.coolapk.com/'

response = requests.get(url = url)

ht = response.text

soup = BeautifulSoup(ht,'lxml')

soup.a

<a href="/">

<span id="header-logo" style="display: flex;justify-content: left;align-items: center;"><img alt="" src="/static/images/header-logo.png" style="height: 35px;margin-right: 10px;"/><span>酷安</span></span>

</a>

soup.a.attrs   #{'href': '/'}

soup.a['herf']  # /

soup.a.string   #None

soup.a.text    #酷安

souo.a.get_text()   #酷安

soup.find('li',id="navbar-apk")       #<li id="navbar-apk"><a href="/apk/">应用</a></li>

soup.find('li',id="navbar-apk").string       #应用

soup.find('img',class_='logo')['src']           #/static/images/coolapklogo.png

soup.find_all('div',class_="weui-flex",limit = 2)

#结果

[<div class="weui-flex logo-box">

<div class="weui-flex__item">

<img alt="酷安" class="logo" src="/static/images/coolapklogo.png"/>

</div>

</div>, <div class="weui-flex">

<div class="weui-flex__item">

<p class="title">全新酷安V9</p>

<p class="sub-title mobile-display">和你一起，发现科技新生活</p>

<p class="sub-title pc-display">和你一起，<br/>发现科技新生活</p>

</div>

</div>]

div_L = soup.find_all('li',limit = 6)

for i in div_L:

    print(i.text)

#结果

首页

应用

游戏

酷安手机APP

联系酷安

关于酷安

soup.select('.footer-navbar ul li a')

for i in tag_a_L:

    print(i['href'])

#结果：

/about/about.html

/about/contact.html

/about/jobs.html

/about/copyright.html

/apk/com.coolapk.market?from=footer

https://developer.coolapk.com?from=footer

bs4解析的更多相关文章

bs4解析库
beautifulsoup4 bs4解析库是灵活又方便的网页解析库,处理高效,支持多种解析器.利用它不用编写正则表达式即可方便地实现网页的提取要解析的html标签 from bs4 import B ...
bs4 解析以及用法
bs4解析 bs4: 环境安装: lxml bs4 bs4编码流程: 1.实例化一个bs4对象,且将页面源码数据加载到该对象中 2.bs相关的方法或者属性实现标签定位 3.取文本或者取属性 bs的属性 ...
Python3.x：bs4解析html基础用法
Python3.x:bs4解析html基础用法代码: import urllib.request from bs4 import BeautifulSoup import re url = r'ht ...
爬虫的三种解析方式(正则解析, xpath解析, bs4解析)
一 : 正则解析 : 常用正则回顾: 单字符: . : 除换行符以外的所有字符 [] : [aoe] [a-w] 匹配集合中任意一个字符 \d : 数字 [0-9] \D : 非数字 \w : 非数字 ...
python bs4解析网页时 bs4.FeatureNotFound: Couldn't find a tree builder with the features you requested: lxml. Do you need to inst（转）
Python小白,学习时候用到bs4解析网站,报错 bs4.FeatureNotFound: Couldn't find a tree builder with the features you re ...
爬虫系列二(数据清洗--->bs4解析数据)
一 BeautifulSoup解析 1 环境安装 - 需要将pip源设置为国内源,阿里源.豆瓣源.网易源等 - windows (1)打开文件资源管理器(文件夹地址栏中) (2)地址栏上面输入 %ap ...
pytho爬虫使用bs4 解析页面和提取数据
页面解析和数据提取关注公众号"轻松学编程"了解更多. 一般来讲对我们而言,需要抓取的是某个网站或者某个应用的内容,提取有用的价值.内容一般分为两部分,非结构化的数据和结构化的 ...
bs4解析要获取被注掉的部分需先将注释符号去掉
<div class="xzcf-content"> <div id="sfxz"> <div class="main- ...
爬虫的两种解析方式 xpath和bs4
1.xpath解析 from lxml import etree 两种方式使用:将html文档变成一个对象,然后调用对象的方法去查找指定的节点 (1)本地文件 tree = etree.parse(文 ...

随机推荐

docker搭建hadoop HA出错问题总结记录。
错误1: ssh连接云主机: ssh root@39.106.xx.xx 报错:THE AUTHENTICITY OF HOST XX CAN’T BE ESTABLISHED 解决办法: ssh - ...
从服务端下载文件到本地windows
之前常使用本地ubuntu和远程的centos服务器或者是本地mac和远程centos服务器通过命令scp或者nc来进行文件的传输. 现在用的是windows系统,欲将服务器的某文件load到本地. ...
WindowsForm客户端自动更新逻辑
启动客户端的时候,单独开一个线程,该线程主要是判断指定服务器上的更新包和本地使用的客户端是否一致,是否需要更新,不需要更新,则退出,需要更新则从服务端的下载更新包,然后提示用户是否更新,点击更新,启动 ...
MSP与PSP
摘抄自Triton.zhang——eeworld 1. MSP和PSP 的含义是Main_Stack_Pointer 和Process_Stack_Pointer,在逻辑地址上他们都是R13 2. 权 ...
MySQL格式化时间date_format
select date_format(deal_date, '%Y年%m月%d日 %H时%i分%s秒'), date_format(deal_date, '%Y-%m-%d %H:%i:%s') fr ...
【转载】 AutoML总结
原文地址: https://jinxin0924.github.io/2017/12/21/AutoML%E6%80%BB%E7%BB%93/ Posted by JxKing on December ...
lua table操作
求最大值,最小值及长度: function maxn(t) local mn = nil for i, v in pairs(t) do if (mn==nil) then mn=v end if ( ...
VSCode使用Dart和lutter所需按照的插件
Dart Flutter Flutter Widget Snippets [可快速敲出关联代码] Code Runner: 用于代码运行 Awesome Flutter Snippetsnash
PAT 甲级 1055 The World's Richest (25 分)（简单题，要用printf和scanf，否则超时，string 的输入输出要注意）
1055 The World's Richest (25 分) Forbes magazine publishes every year its list of billionaires base ...
JEECG新建用户不用系统用户表的实现
首先新增组织机构和角色: -- 新增组织机构 INSERT INTO `t_s_depart` VALUES ('dept001', '你所在的机构', '你所在的机构的描述', null, ' ...