BeautifulSoup的重要操作

BeautifulSoup相关概念总结:https://www.cnblogs.com/pythonywy/p/11134481.html

css基础以及选择器基础:https://www.cnblogs.com/pythonywy/p/11266221.html

css选择器进阶:https://www.cnblogs.com/pythonywy/p/11276513.html

一.BeautifulSoup的重要操作

解析页面
- 最常用rp_lxml= BeautifulSoup(response.text,'lxml')其他可以转至概念
提取元素

主要有4大元素
- Tag: HTML 中的一个个标签
- NavigableString:可以遍历的字符串
- BeautifulSoup:BeautifulSoup 对象表示的是一个文档的全部内容.大部分时候,可以把它当作 Tag 对象，是一个特殊的 Tag
- Comment:Comment 对象是一个特殊类型的 NavigableString 对象，其实输出的内容仍然不包括注释符号。
元素操作

二.Tap对象相关操作

1.对于tap的选取

1.find

使用re_lxml.find('css选择器')

重点只选择第一个出现的

2.select

使用re_lxml.select('css选择器')

重点会把满足CSS选择器所有内容都显示出来,输出为列表的形式

3.直接操作

使用re_lxml.标签名.标签名而不是用css选择器

重点只选择第一个出现的

4.find_all

会把满足CSS选择器所有内容都显示出来,输出为列表的形式

但是有几个优点

使用多个指定名字的参数可以同时过滤tag的多个属性

rp_lxml.find_all('属性1','属性2')
要某个标签中其中某个属性

rp_lxml.find_all('标签名',class_='属性')
定义一个字典参数来搜索包含特殊属性的tag

rp_lxml.find_all(attrs={'属性名':'属性值'})

2.对于tap的操作

1.标签之间的转换

详情至BeautifulSoup概念

2.选取的元素相关操作

tap.text:内容的文本
tap.name:标签名字
tap.attrs:标签的属性
tap..标签p.attrs:标签内标签p的属性
tap.['属性名']:标签的指定属性对应的内容
tap.标签p.['属性名']:标签内标签p的指定属性属性
tap.get('属性名'):标签的指定属性对应的内容
tap.标签p.get('属性名'):标签内标签p的指定属性属性

三.NavigableString对象相关操作

NavigableString.string即可获取标签内部的文字

四.BeautifulSoup对象相关操作

他是一种特殊的Tap所有tap可以的操作他都可以

rp_lxml.attrs为{}

rp_lxml.name为[document]

剩下的可以去尝试不过个人感觉没啥意义

五.Comment对象相关操作

我觉得吧一个可以用用就是判断他是不是这个数据类型

print(type(未知对象.string))看他是不是comment对象

BeautifulSoup的重要操作的更多相关文章

BeautifulSoup
参考:http://www.freebuf.com/news/special/96763.html 相关资料:http://www.jb51.net/article/65287.htm 1.Pytho ...
Python爬虫-- BeautifulSoup库
BeautifulSoup库 beautifulsoup就是一个非常强大的工具,爬虫利器.一个灵活又方便的网页解析库,处理高效,支持多种解析器.利用它就不用编写正则表达式也能方便的实现网页信息的抓取 ...
Python 在windows上安装BeautifulSoup和request以及小案例
Python以及PyCharm安装成功后,操作如下: 此时,代码import requests不报错了. 那么,Python 在windows上安装BeautifulSoup,怎么操作呢? 1. 打开 ...
使用XPath爬取网页数据
我们以我的博客为例,来爬取我所有写过的博客的标题. 首先,打开我的博客页面,右键“检查”开始进行网页分析.我们选中博客标题,再次右键“检查”即可找到标题相应的位置,我们继续点击右键,选择Copy,再点 ...
python爬虫主要就是五个模块：爬虫启动入口模块，URL管理器存放已经爬虫的URL和待爬虫URL列表，html下载器，html解析器，html输出器同时可以掌握到urllib2的使用、bs4（BeautifulSoup）页面解析器、re正则表达式、urlparse、python基础知识回顾（set集合操作）等相关内容。
本次python爬虫百步百科,里面详细分析了爬虫的步骤,对每一步代码都有详细的注释说明,可通过本案例掌握python爬虫的特点: 1.爬虫调度入口(crawler_main.py) # coding: ...
[python] 网络数据采集操作清单 BeautifulSoup、Selenium、Tesseract、CSV等
Python网络数据采集操作清单 BeautifulSoup.Selenium.Tesseract.CSV等 Python网络数据采集操作清单 BeautifulSoup.Selenium.Tesse ...
使用Python爬虫库BeautifulSoup遍历文档树并对标签进行操作详解（新手必学）
为大家介绍下Python爬虫库BeautifulSoup遍历文档树并对标签进行操作的详细方法与函数下面就是使用Python爬虫库BeautifulSoup对文档树进行遍历并对标签进行操作的实例,都是最 ...
Python爬虫小白入门（三）BeautifulSoup库
# 一.前言 *** 上一篇演示了如何使用requests模块向网站发送http请求,获取到网页的HTML数据.这篇来演示如何使用BeautifulSoup模块来从HTML文本中提取我们想要的数据. ...
【Python数据分析】Python3操作Excel(二) 一些问题的解决与优化
继上一篇[Python数据分析]Python3操作Excel-以豆瓣图书Top250为例对豆瓣图书Top250进行爬取以后,鉴于还有一些问题没有解决,所以进行了进一步的交流讨论,这期间得到了一只尼玛 ...

随机推荐

IT兄弟连 HTML5教程响应式网站的内容设计
基于响应式开发网站,除了页面的布局是我们设计的重点,网站中显示的图片和文字也是我们不能轻视的内容. 1 响应式图片显示内容设计真正具有响应性的Web设计是完全调整网站以满足访问者的设备.我们需要在 ...
Android设计模式—观察者模式
装载请标明出处:https://www.cnblogs.com/tangZH/p/11175120.html 观察者模式说白了,就是一个对发生改变,所有依赖于它的对象也发生改变,这是一对多的关系. ...
管道及 I/O 重定向
I/O重定向 I/O Redirection 标准输入.标准输出.标准错误输出重定向及综合案例输入重定向及结合案例标准输入.标准输出.标准错误 file descriptors (FD,文件描述符 ...
让 Lua 访问数据库
Lua 自身并没有提供访问数据库的函数,但是借助外部扩展库我们可以很容易实现对数据库的各种操作,下面就为大家介绍这样一个扩展库 - LuaSQL,你可以在下载区得到它. LuaSQL 定义了一套简单的 ...
Linux.centos安装mysql5.7.18
一:删除已有的mysql步骤 1 卸载旧的mysql 1.1 查询有哪些mysql文件 [root@zookeeper init.d]# find / -name mysql /var/lock/su ...
C# Newtonsoft.Json JsonSerializerSettings配置
JsonSerializerSettings常用配置整理 1.忽略某些属性 MemberSerialization.OptIn 默认情况下,所有的成员不会被序列化,类中的成员只有标有特性JsonPro ...
Java基础语法04面向对象上-类-属性-方法-可变参数-重载-递归-对象数组
类面向对象是一种思想,一般指将事务的属性与方法抽出总结为模板(类/class),处理事务时通过类创建/new出对象由对象的功能/方法去完成所要计算处理的事情. 面向过程:POP:以过程,步骤为主,考 ...
Ajax简单应用之个人简历页面搭建
1.搭建HTTP静态Web服务器. 代码实现: # 1.导入socket模块 import socket import threading # 创建服务器类 class HttpServerSocke ...
爬虫(四)：requests模块
1. requests模块 1.1 requests简介 requests 是一个功能强大.简单易用的 HTTP 请求库,比起之前用到的urllib模块,requests模块的api更加便捷.(本质就 ...
深入浅出 PHP SPL（PHP 标准库)(转)
一.什么是spl库? SPL是用于解决典型问题(standard problems)的一组接口与类的集合. 此扩展只能在php 5.0以后使用,从PHP 5.3.0 不再被关闭,会一直有效.成为php ...