爬虫之解析库BeautifulSoup
介绍
Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据。官方解释如下:
Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。 Beautiful Soup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码。你不需要考虑编码方式,除非文档没有指定一个编码方式,这时,Beautiful Soup就不能自动识别编码方式了。然后,你仅仅需要说明一下原始编码方式就可以了。 Beautiful Soup已成为和lxml、html6lib一样出色的python解释器,为用户灵活地提供不同的解析策略或强劲的速度。
使用方法
(1) 根据标签名查找
- suop.a 只能找到第一个符合要求的标签
(2) 获取属性值
- suop.a.attrs 获取a所有的属性和属性值,返回一个字典
- suop.a.attrs["href"] 获取href属性值
- suop.a["href"] 简写为这种形式
(3) 获取内容
- suop.a.string 获取标签中直系的文本内容
- suop.a.text 获取所有标签中的文本内容
- suop.a.get_text() 获取所有标签中的文本内容
【注意】如果标签中还有标签,那么string获取到的结果为None,其他两个方法可以获取到文本内容
(4) find 找到第一个符合要求的标签
- suop.find("a") 找到第一个符合要求的
# 根据标签中的属性获取指定的a标签
- suop.find("a", class_="xxx") # class是关键字需要加_
- suop.find("a", id="xxx")
- suop.find("a", href="xxx")
- suop.find("a", alt="xxx")
- suop.find("a", tetle="xxx")
# 可以和获取内容的方法连用
- suop.find("a",href="/hecheng/27.html").text
(5) find_all 找到所有符合要求的标签
- suop.find_all("a")
- suop.find_all(["a","p"]) 找到所有a标签和p标签
- suop.find_all(["a","p"],limit=2) 取前两个
(6) 根据选择器选择指定的内容
select:suop.select("#id")
- 常见的选择器:标签选择器(a)|类选择器(.)|id选择器(#)|层级选择器
- 层级选择器:
div .mm div下面所有class属性值为mm的,子子孙孙,下面多级
div > .dd div儿子级class属性为dd的,下面一级
【注意】查询到的是所有数据,返回列表
项目演示
import requests
import lxml
from bs4 import BeautifulSoup
url = "http://www.shicimingju.com/book/sanguoyanyi.html"
response = requests.get(url).text
suop = BeautifulSoup(response,'lxml') # 实例化对象,使用lxml进行解析
a_list = suop.select('.book-mulu > ul > li > a')
url = "http://www.shicimingju.com"
for a in a_list:
fiction_name = a.string # 小说章节名称
fiction_url = url+a["href"] # 小说章节url地址
response = requests.get(fiction_url).text # 请求每个章节的url地址
suop = BeautifulSoup(response,'lxml')
content = suop.find("div",class_="chapter_content").text # 获取标签内所有文本数据
with open("./{}.txt".format(fiction_name),"w",encoding="utf-8") as fp:
fp.write(content)
print("下载成功!!!")
select选择器选择a标签中的文本内容和gref属性

效果

爬虫之解析库BeautifulSoup的更多相关文章
- Python爬虫【解析库之beautifulsoup】
解析库的安装 pip3 install beautifulsoup4 初始化 BeautifulSoup(str,"解析库") from bs4 import BeautifulS ...
- 爬虫解析库——BeautifulSoup
解析库就是在爬虫时自己制定一个规则,帮助我们抓取想要的内容时用的.常用的解析库有re模块的正则.beautifulsoup.pyquery等等.正则完全可以帮我们匹配到我们想要住区的内容,但正则比较麻 ...
- 爬虫----爬虫解析库Beautifulsoup模块
一:介绍 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你 ...
- 爬虫之解析库-----re、beautifulsoup、pyquery
一.介绍 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你 ...
- 爬虫解析库BeautifulSoup的一些笔记
BeautifulSoup类使用 基本元素 说明 Tag 标签,最基本的信息组织单元,分别是<>和</>标明开头和结尾 Name 标签的名字,<p></p ...
- 爬虫解析库beautifulsoup
一.介绍 Beautiful Soup是一个可以从HTML或XML文件中提取数据的python库. #安装Beautiful Soup pip install beautifulsoup4 #安装解析 ...
- python爬虫数据解析之BeautifulSoup
BeautifulSoup是一个可以从HTML或者XML文件中提取数据的python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式. BeautfulSoup是python爬虫三 ...
- python爬虫之解析库Beautiful Soup
为何要用Beautiful Soup Beautiful Soup是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式, 是一个 ...
- 解析库beautifulsoup
目录 一.介绍 二.遍历文档树 三.搜索文档树(过滤) 四.修改文档树 五.总结 一.介绍 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的 ...
随机推荐
- (三)ActiveMQ之发布- 订阅消息模式实现
一.概念 发布者/订阅者模型支持向一个特定的消息主题发布消息.0或多个订阅者可能对接收来自特定消息主题的消息感兴趣.在这种模型下,发布者和订阅者彼此不知道对方.这种模式好比是匿名公告板.这种模式被概括 ...
- kafka之基本介绍
什么是kafka? Kakfa起初是由LinkedIn公司开发的一个分布式的消息系统,后成为Apache的一部分,它使用Scala编写,以可水平扩展和高吞吐率而被广泛使用.目前越来越多的开源分布式处理 ...
- JS基础_函数作用域
<!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title> ...
- restTemplate源码解析(三)创建ClientHttpRequest请求对象
所有文章 https://www.cnblogs.com/lay2017/p/11740855.html 正文 上一篇文章中,我们大体看了一下restTemplate的核心逻辑.再回顾一下核心代码 p ...
- 基于【 centos7】四 || FastDFS集群+Nginx负载均衡
1. 架构设计 1.1 架构图 FastDFS是用c语言编写的一款开源的分布式文件系统.FastDFS为互联网量身定制,充分考虑了冗余备份.负载均衡.线性扩容等机制,并注重高可用.高性能等指标,使用F ...
- (详细)JAVA使用JDBC连接MySQL数据库(2)- MySQL Connectors
欢迎任何形式的转载,但请务必注明出处. 本节内容 mysql connectors介绍 下载安装 在java中配置 点击进入官网下载 一.mysql connectors介绍 mysql connec ...
- 【python】python3连接mysql数据库
一.安装pymysql 详见http://www.runoob.com/python3/python3-mysql.html 二.连接mysql数据库 db = pymysql.connect( #连 ...
- linux修改文件系统注册设备
- Linux下的帮助命令(man/help/info)
1.man 帮助命令 用法 man(选项)(参数) 选项 -a:在所有的man帮助手册中搜索: -f:等价于whatis指令,显示给定关键字的简短描述信息: -P:指定内容时使用分页程序: -M:指定 ...
- C#当中的BeginInvoke和EndInvoke
我们已经知道 C#当中 存在async/await .BackGroudWorker类以及TPL(任务并行库).当然C#还有一些旧的模式来支持异步编程.参考<C#图解教程> 1. Beg ...