soup.select的用法
1、通过标签选择
# 选择所有title标签
soup.select("title")
# 选择所有p标签中的第三个标签
soup.select("p:nth-of-type(3)") 相当于soup.select(p)[2]
# 选择body标签下的所有a标签
soup.select("body a")
# 选择body标签下的直接a子标签
soup.select("body > a")
# 选择id=link1后的所有兄弟节点标签
soup.select("#link1 ~ .mysis")
# 选择id=link1后的下一个兄弟节点标签
soup.select("#link1 + .mysis")
2、通过类名查找
# 选择a标签,其类属性为mysis的标签
soup.select("a.mysis")
3、通过id查找
# 选择a标签,其id属性为link1的标签
soup.select("a#link1")
4、通过【属性】查找,当然也适用于class
# 选择a标签,其属性中存在myname的所有标签
soup.select("a[myname]")
# 选择a标签,其属性href=http://example.com/lacie的所有标签
soup.select("a[href='http://example.com/lacie']")
# 选择a标签,其href属性以http开头
soup.select('a[href^="http"]')
# 选择a标签,其href属性以lacie结尾
soup.select('a[href$="lacie"]')
# 选择a标签,其href属性包含.com
soup.select('a[href*=".com"]')
# 从html中排除某标签,此时soup中不再有script标签
[s.extract() for s in soup('script')]
# 如果想排除多个呢
[s.extract() for s in soup(['script','fram']
1、通过标签选择
|
1
2
3
4
5
6
7
8
9
10
11
12
|
# 选择所有title标签soup.select("title")# 选择所有p标签中的第三个标签soup.select("p:nth-of-type(3)") 相当于soup.select(p)[2]# 选择body标签下的所有a标签soup.select("body a")# 选择body标签下的直接a子标签soup.select("body > a")# 选择id=link1后的所有兄弟节点标签soup.select("#link1 ~ .mysis")# 选择id=link1后的下一个兄弟节点标签soup.select("#link1 + .mysis") |
2、通过类名查找
|
1
2
|
# 选择a标签,其类属性为mysis的标签soup.select("a.mysis") |
3、通过id查找
|
1
2
|
# 选择a标签,其id属性为link1的标签soup.select("a#link1") |
4、通过【属性】查找,当然也适用于class
|
1
2
3
4
5
6
7
8
9
10
11
12
13
14
|
# 选择a标签,其属性中存在myname的所有标签soup.select("a[myname]")# 选择a标签,其属性href=http://example.com/lacie的所有标签soup.select("a[href='http://example.com/lacie']")# 选择a标签,其href属性以http开头soup.select('a[href^="http"]')# 选择a标签,其href属性以lacie结尾soup.select('a[href$="lacie"]')# 选择a标签,其href属性包含.comsoup.select('a[href*=".com"]')# 从html中排除某标签,此时soup中不再有script标签[s.extract() for s in soup('script')] # 如果想排除多个呢[s.extract() for s in soup(['script','fram'] |
soup.select的用法的更多相关文章
- linux c语言 select函数用法
linux c语言 select函数用法 表头文件 #i nclude<sys/time.h> #i nclude<sys/types.h> #i nclude<unis ...
- Beautiful Soup库基础用法(爬虫)
初识Beautiful Soup 官方文档:https://www.crummy.com/software/BeautifulSoup/bs4/doc/# 中文文档:https://www.crumm ...
- 数据库中增加操作insert into的用法和查询select的用法
insert into的用法 1.一条insert into 可以插入多条记录 2.insert into 能判断主键是否冲突,和做出冲突处理 如果主键冲突的话会报错,还能写成如果冲突就更新的形式格式 ...
- select()函数用法二
Select在Socket编程中还是比较重要的,可是对于初学Socket的人来说都不太爱用Select写程序,他们只是习惯写诸如 connect.accept.recv或recvfrom这样的阻塞程序 ...
- golang的select典型用法
golang 的 select 的功能和 select, poll, epoll 相似, 就是监听 IO 操作,当 IO 操作发生时,触发相应的动作. 示例: ch1 := make (chan in ...
- mysql select简单用法
1.select语句可以用回车分隔 $sql="select * from article where id=1" 和 $sql="select * from artic ...
- LINQ学习:Select的用法
转载于:http://www.cnblogs.com/ForEvErNoME/archive/2012/07/25/2606659.html 说明:在查询表达式中,select 子句可以指定将在执行查 ...
- SQL语句中的select高级用法
#转载请联系 为了更好的了解下面的知识点,我们先创建两张表并插入数据. # 学生表 +----+-----------+------+--------+--------+--------+------ ...
- SQL SERVER 2012 第三章 T-SQL 基本SELECT语句用法,Where子句详细用法
select [all|distinct] [top (<expression>) [Percent] [with ties]] <column list> [from < ...
随机推荐
- 关于METRIC SPACE中的一些概念对比(sequence and net)
由于LaTeX 和其他的编辑软件都不太好用,所以采用手写笔记的方式. ——一个想学代几的大二小萌新
- 【转载】QQ炫舞手游自制谱子教程(星动模式)
第一步:计算ET和BPM: 抄送原作者部落链接:https://buluo.qq.com/p/detail.html?bid=368006&pid=981862-1529828677& ...
- ubuntu无法连接网络
一,先说一下VMware软件和linux镜像的版本: VMware Workstation 14 Pro ubuntu-14.04.6-desktop-amd64.iso 二,遇到的问题 在第一次安装 ...
- mysql foreignkey
1.foreign key 当数据足够大的时候,字段会出现大量重复, 解决:额外定义一个大量冗余的字段表,(有id) 一张是关联表(从表),一张是被关联表(主表) 进行关联的时候 ,先创建被关联表, ...
- springCloud学习1
传统项目架构 传统项目分为三层架构,将业务逻辑层.数据库访问层.控制层放入在一个项目中. 优点:适合于个人或者小团队开发,不适合大团队开发. 分布式项目架构 根据业务需求进行拆分成N个子系统,多个子系 ...
- Codeforces Round #606 (Div. 2) D - Let's Play the Words?(贪心+map)
- Codeforces Round #135 (Div. 2) D - Choosing Capital for Treeland(两种树形DP)
- 部署zabbix服务端和客户端和网页
一:安装zabbix服务端 1.部署准备 命令:iptables -F #关闭防火墙命令:systemctl stop firewalld #关闭防火墙 设置解析,自建yum源 命令:c ...
- Android 开发基础入门篇: 复制一个工程作为一个新的工程
说明 咱们做项目很多时候都需要复制一份工程出来作为一个新的工程 把第一节的工程拷贝到这一节 修改工程名字 打开软件导入此工程 修改包名 第一节的时候说了,一个APP一个包名 自行添加修改 自行修改 自 ...
- 云服务器使用: 为域名申请SSl证书
注:咱们平时访问网站 有的是http 有的是 https https就是说使用了SSL访问 然后就是等着..... 假设可以了 然后就会有各个软件使用的证书,然后根据自己安装的软件下载证书