介绍

Beautiful Soup是python的一个库，最主要的功能是从网页抓取数据。官方解释如下：

Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱，通过解析文档为用户提供需要抓取的数据，因为简单，所以不需要多少代码就可以写出一个完整的应用程序。

Beautiful Soup自动将输入文档转换为Unicode编码，输出文档转换为utf-8编码。你不需要考虑编码方式，除非文档没有指定一个编码方式，这时，Beautiful Soup就不能自动识别编码方式了。然后，你仅仅需要说明一下原始编码方式就可以了。

Beautiful Soup已成为和lxml、html6lib一样出色的python解释器，为用户灵活地提供不同的解析策略或强劲的速度。

使用方法

(1) 根据标签名查找

    - suop.a 只能找到第一个符合要求的标签

(2) 获取属性值

    - suop.a.attrs         获取a所有的属性和属性值,返回一个字典

    - suop.a.attrs["href"] 获取href属性值

    - suop.a["href"]       简写为这种形式

(3) 获取内容

    - suop.a.string        获取标签中直系的文本内容

    - suop.a.text          获取所有标签中的文本内容

    - suop.a.get_text()    获取所有标签中的文本内容

   【注意】如果标签中还有标签,那么string获取到的结果为None,其他两个方法可以获取到文本内容

(4) find 找到第一个符合要求的标签

    - suop.find("a")       找到第一个符合要求的

    # 根据标签中的属性获取指定的a标签

    - suop.find("a", class_="xxx")  # class是关键字需要加_

    - suop.find("a", id="xxx")

    - suop.find("a", href="xxx")

    - suop.find("a", alt="xxx")

    - suop.find("a", tetle="xxx")

    # 可以和获取内容的方法连用

    - suop.find("a",href="/hecheng/27.html").text

(5) find_all 找到所有符合要求的标签

    - suop.find_all("a")

    - suop.find_all(["a","p"])  找到所有a标签和p标签

    - suop.find_all(["a","p"],limit=2)   取前两个

(6) 根据选择器选择指定的内容

    select:suop.select("#id")

    - 常见的选择器:标签选择器(a)|类选择器(.)|id选择器(#)|层级选择器

    - 层级选择器:

        div .mm         div下面所有class属性值为mm的,子子孙孙,下面多级

        div > .dd       div儿子级class属性为dd的,下面一级

    【注意】查询到的是所有数据,返回列表

项目演示

import requests

import lxml

from bs4 import BeautifulSoup

url = "http://www.shicimingju.com/book/sanguoyanyi.html"

response = requests.get(url).text

suop = BeautifulSoup(response,'lxml') # 实例化对象,使用lxml进行解析

a_list = suop.select('.book-mulu > ul > li > a')

url = "http://www.shicimingju.com"

for a in a_list:

    fiction_name = a.string   # 小说章节名称

    fiction_url = url+a["href"]  # 小说章节url地址

    response = requests.get(fiction_url).text  # 请求每个章节的url地址

    suop = BeautifulSoup(response,'lxml')

    content = suop.find("div",class_="chapter_content").text  # 获取标签内所有文本数据

    with open("./{}.txt".format(fiction_name),"w",encoding="utf-8") as fp:

        fp.write(content)

print("下载成功！！！")

select选择器选择a标签中的文本内容和gref属性

效果

爬虫之解析库BeautifulSoup的更多相关文章

Python爬虫【解析库之beautifulsoup】
解析库的安装 pip3 install beautifulsoup4 初始化 BeautifulSoup(str,"解析库") from bs4 import BeautifulS ...
爬虫解析库——BeautifulSoup
解析库就是在爬虫时自己制定一个规则,帮助我们抓取想要的内容时用的.常用的解析库有re模块的正则.beautifulsoup.pyquery等等.正则完全可以帮我们匹配到我们想要住区的内容,但正则比较麻 ...
爬虫----爬虫解析库Beautifulsoup模块
一:介绍 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你 ...
爬虫之解析库-----re、beautifulsoup、pyquery
一.介绍 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你 ...
爬虫解析库BeautifulSoup的一些笔记
BeautifulSoup类使用基本元素说明 Tag 标签,最基本的信息组织单元,分别是<>和</>标明开头和结尾 Name 标签的名字,<p></p ...
爬虫解析库beautifulsoup
一.介绍 Beautiful Soup是一个可以从HTML或XML文件中提取数据的python库. #安装Beautiful Soup pip install beautifulsoup4 #安装解析 ...
python爬虫数据解析之BeautifulSoup
BeautifulSoup是一个可以从HTML或者XML文件中提取数据的python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式. BeautfulSoup是python爬虫三 ...
python爬虫之解析库Beautiful Soup
为何要用Beautiful Soup Beautiful Soup是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式, 是一个 ...
解析库beautifulsoup
目录一.介绍二.遍历文档树三.搜索文档树(过滤) 四.修改文档树五.总结一.介绍 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的 ...

随机推荐

Junit 学习1 junit的简单使用
package junit; import java.sql.Connection; import java.sql.SQLException; import org.junit.Test; impo ...
封装jquery的ajax
<!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title> ...
APP漏洞之WebView File域同源策略绕过漏洞
i春秋作家:MAX丶基本知识Android架构 Kernel内核层漏洞危害极大,通用性强驱动由于多而杂,也可能存在不少漏洞 Libaries系统运行库层系统中间件形式提供的运行库包括libc ...
linux服务器忘记密码操作
当重启镜像时候看到这个界面的时候按1 按1之后进入如下界面红色区域有解释按e是编译模式,我们按e OK 这里我们选择第二行按b 进入开发者模式,然后等待启动然后更改密码
JDK源码那些事儿之常用的ArrayList
前面已经讲解集合中的HashMap并且也对其中使用的红黑树结构做了对应的说明,这次就来看下简单一些的另一个集合类,也是日常经常使用到的ArrayList,整体来说,算是比较好理解的集合了,一起来看下 ...
写点恐怖小说为自己打call
https://github.com/zhangbo2008/TryingWriteHorrorStory
i p _ d o o p t i o n s函数
我们知道 i p i n t r在检测分组的目的地址之前调用 i p _ d o o p t i o n s.i p _ d o o p t i o n s被传给一个指针m,该指针指向某个分组, i ...
python2.7 psycopg2
psycopg2 安装 sql='''INSERT INTO "CNYB"."PRE_DQ_PLANT"("ID", "ORG_I ...
scrollReveal（页面缓入效果插件）
scrollReveal(页面缓入效果插件)实现页面滚动时动画加载元素效果前面我去了解了元素距页面视图距离,想实现页面滚动是动画加载元素(https://www.cnblogs.com/chengh ...
Codeforces Round #543 (Div. 1, based on Technocup 2019 Final Round) 题解
题面戳这里 A. Diana and Liana 首先如果s>ks>ks>k一定无解,特判一下.那么我们考虑找恰好满足满足题目中的要求的区间[l,r][l,r][l,r],那么需要要 ...

爬虫之解析库BeautifulSoup

介绍

使用方法

项目演示

select选择器选择a标签中的文本内容和gref属性

效果

爬虫之解析库BeautifulSoup的更多相关文章

随机推荐

热门专题