pyCharm中BeautifulSoup应用

BeautifulSoup 是第三方库的工具，它包含在一个名为bs4的文件包中，需要额外安装，安装方式

非常简单，进入python的安装目录，再进入scripts子目录，找到pip程序，

pip install bs4

就可以安装成功了

BeautifulSoup 装载html文档，

如果doc是一个html文档，通过:

from bs4 import BeautifulSoup
soup =BeautifulSoup(doc,'lxml')

就可以创建一个名为soup的BeautifulSoup对象，其中doc是一个html的文档字符串

‘lxml’是一个参数，表示创建的是一个通过‘lxml’解析器解析的文档。

BeautifulSoup查找HTML元素

功能强大的find-all函数

find-all函数的原理如下：

find-all(self,name,attrs={},recursive=true,text=none,limit=none,**kwargs)

self表明它是一个类成员函数，

name是要查找的tag元素名称，默认是none，如果不具体说明，则查找所有元素。

attrs是元素的属性，它是一个字典，默认是空，如果明确指出，则查找有这个属性的元素。

find-all(self,name,attrs={},recursive=true,text=none,limit=none,**kwargs)

find函数使用方法与find_all类似，不同的是它只返回第一个满足要求的节点，并不是一个列表。

# 找到所有的a超链接
tags = soup.find_all("a")

# 找到class = “title” 的 p元素
tag = soup.find("p",attrs={''class":"title"})

# 找到所有含有属性sister的元素
tags = soup.find_all(name=None,attrs={"class":"sister"})

# 获取元素的属性值
tags = soup.find_all("a")
for tag in tags:
    print(tag["href"])

# 找到所有元素的文本值,(不仅包含本节点文本，还包含该节点子树下面所有文本节点的组合值)
tags=soup.find_all("a")
for tag in tags:
   print(tag.text)

# 获取元素父节点
tag.parent

# 获取元素直接子节点
tag.children

# 获取元素节点的所有子孙元素节点
tag.desendants

# 获取元素节点的兄弟节点
# 获取下一个节点
tag.next_sibling
# 获取前一个节点
tag.previous_sibling

# css语法
tag.select(css)
# 其中 tag 是HTML中的一个element节点对象，select是查找它的方法
# css是类似css语法的一个字符串，它的结构如下
[tagName][attName][=value]

tagName是元素名称，如果没有指定，就是所有元素

attName=value是属性名称，value是它对应的值，可以不指定属性，在指定了属性后也可以不指定值；

tag.select(css)返回一个列表，哪怕只有一个元素时也是一个列表；

#查找文档中所有p节点下的所有a节点
soup.select("a")

#查找文档中所有class属性等于story的p节点下的所有a元素节点
soup.select("p[class='story'] a")

#查找文档中所具有class属性的p节点下的所有a元素节点
soup.select("p[class] a")

# 查找属性id=“link1”的a节点
soup.select("a[id='link1']")

# 查找body下面head下面title节点
soup.select(""body head title)

#查找body下面所有具有class属性的节点
soup.select("body [class]")

# 查找body下面所有具有class属性的节点下面的a节点
soup.select("body [class] a")

在select（css）中 css 有多个节点时，节点元素之间用空格分开，就是查找子孙节点

# 查找div节点下面的所有直接子节点
soup.select("div > p")

#查找div后面所有同级别的兄弟节点（注意~前后至少有一个空格）
tags = soup.select("div ~ p")

#查找div后面所有同级别的第一个兄弟节点（注意+前后至少有一个空格）
tags = soup.select("div + p")

# 查找 href 是 “http://example.com/elsi” 的a节点
soup.select("a[href='http://example.com/elsie']")

# 查找href以“sie” 结尾的 a 节点
soup.select("a[href$='sie']")

# 查找 href 以 “http://example.com” 开始的a节点
soup.select("a[href^='http://example.com']")

# 查找 href 中包含“example” 开始的a节点
soup.select("a[href*='example']")

pyCharm中BeautifulSoup应用的更多相关文章

【Python】在Pycharm中安装爬虫库requests , BeautifulSoup , lxml 的解决方法
BeautifulSoup在学习Python过程中可能需要用到一些爬虫库例如:requests BeautifulSoup和lxml库前面的两个库,用Pychram都可以通过 File--> ...
pycharm中不能安装bs4的解决方案
首先:什么Beautiful Soup? Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.B ...
在Pycharm中使用GitHub
Pycharm是当前进行python开发,尤其是Django开发最好的IDE.GitHub是程序员的圣地,几乎人人都在用. 本文假设你对pycharm和github都有一定的了解,并且希望在pycha ...
Pycharm中使用GitHub
Pycharm是当前进行python开发,尤其是Django开发最好的IDE.GitHub是程序员的圣地,几乎人人都在用. 本文假设你对pycharm和github都有一定的了解,并且希望在pycha ...
Pycharm中的实用功能（网上看到的，感觉还不错）
实时比较 PyCharm 对一个文件里你做的改动保持实时的跟踪,通过在编辑器的左侧栏显示一个蓝色的标记.这一点非常方便,我之前一直是在Eclipse里面用命令“Compare against HEAD ...
（原+转）pycharm中使用caffe
转载请注明出处: http://www.cnblogs.com/darkknightzh/p/5896446.html 参考网址: http://www.th7.cn/Program/Python/2 ...
（原+转）pycharm中传入命令行参数
转载请注明出处: http://www.cnblogs.com/darkknightzh/p/5670821.html 参考网址: http://zhidao.baidu.com/question/5 ...
pycharm中添加扩展工具pylint
今天调试了好几个小时,想吧pylint集成到pycharm中去,从网上找了个宝贝帖子,但是不好用,原因是作者写的脚本是检查工程和模块的,而我的是单独检查一个文件,当然前者肯定会在项目后期用的.所以就 ...
PyCharm中Directory与Python package的区别
对于Python而言,有一点是要认识明确的,python作为一个相对而言轻量级的,易用的脚本语言(当然其功能并不仅限于此,在此只是讨论该特点),随着程序的增长,可能想要把它分成几个文件,以便逻辑更加清 ...

随机推荐

git commit -m 提交的内容换行
网上说只需要通过单引号来换行,一直没理解,后面终于试出来了.总结一句话就是. . 先输入第一个引号,按Enter即可换行,完成后再补齐后面的引号 // 步骤一: 输入第一行 git commit -m ...
【书】.NET及计算机类相关书籍，持续更新...
一级目录链接: https://pan.baidu.com/s/1y3osr3YCQ7XlM81RzkN1eQ 提取码: gs3r 二级目录链接: https://pan.baidu.com/s/ ...
UI组件--element-ui合计行在横向滚动条下面的解决方法
使用element-ui合计功能, 因列数较多, 产生横向滚动条: 但是合计行却在滚动条下面, 拖动滚动条合计行不会跟着横向滚动. 在当前页面添加以下样式: <style lang='less' ...
python日志模块的使用
学习一下python的日志模块logging,可以参考如下博客,写得很详细 https://www.cnblogs.com/yyds/p/6901864.html https://www.cnblog ...
HBase表数据的转移之使用自定义MapReduce
目标:将fruit表中的一部分数据,通过MR迁入到fruit_mr表中 Step1.构建ReadFruitMapper类,用于读取fruit表中的数据 package com.z.hbase_mr; ...
mac os x 编译spark-2.1.0 for hadoop-2.7.3
mac os x maven编译spark-2.1.0 for hadoop-2.7.3 1.官方文档中要求安装Maven 3.3.9+ 和Java 8 ; 2.执行 export ...
20165309 《网络对抗技术》实验一：PC平台逆向破解
20165309 <网络对抗技术>实验一:PC平台逆向破解目录实践目标基础知识实验原理.内容及步骤问题与解决实验收获一.实践目标本次实践的对象是一个名为pwn1的linux ...
mysql、nginx、php-fpm的启动与关闭
mysql 一.启动方式 1.使用 service 启动:service mysqld start 2.使用 mysqld 脚本启动:/etc/inint.d/mysqld start 3.使用 sa ...
tortoisegit里的cleanup坑
tortoisegit的clean up功能(以下红框部分)真的不要去点啊,你所有被ignore(忽略)的本地文件会被全部删除,而且是无法恢复的,因为远程仓库里根本就没有这些文件. 血的教训啊,本以为 ...
C++（实验二）
实验结论 1.函数重载编程练习: 编写重载函数add(),实现对int型,double型,Complex型数据的加法.在main( )函数中定义不同类型数据,调用测试. #include <i ...

pyCharm中BeautifulSoup应用

pyCharm中BeautifulSoup应用的更多相关文章

随机推荐

热门专题