Beautiful Soup库介绍

开始前需安装Beautiful Soup 和lxml。

Beautiful Soup在解析时依赖解析器，下表列出bs4支持的解析器。

解析器	使用方法
Python标准库	BeautifulSoup(markup,"html.parser")
lxml HTML解析器	BeautifulSoup(markup,"lxml")
lxml XML解析器	BeautifulSoup(markup,"xml")
html5lib	BeautifulSoup(markup,"html5lib")

from bs4 import BeautifulSoup

import requests

url = 'http://bangumi.tv/anime/browser?sort=rank&page=1'

headers = {

　　'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.162 Safari/537.36'

}

response = requests.get(url, headers=headers)

soup = BeautifulSoup(response.content.decode('utf-8'),'lxml')

使用lxml初始化Beautiful Soup

print(soup.title)

#输出title节点

print(soup.title.string)

#输出title节点的文本内容

print(soup.p)

#当有多个p节点时，只选择到第一个p节点

print(soup.title.name)

#title节点的name属性

print(soup.p.attrs)

#选择p节点的所有属性以字典输出

print(soup.p.attrs['name'])

#选择p节点的name属性

print(soup.p['name'])

#上面的简单写法

print(soup.head.title.string)

#支持嵌套选择

print(soup.p.contents)

#选择p节点的直接子节点，包括节点与文本,以列表形式返回

print(soup.p.children)

#选择p节点的直接子节点，包括节点与文本,以生成器类型返回

print(soup.p.descendants)

#选择p节点的所有子孙节点，包括节点与文本,以生成器类型返回

print(soup.p.parent)

#选择p节点的直接父节点

print(soup.p.parents)

#选择p节点的所有父节点

print(soup.a.next_sibling)

print(soup.a.previous_sibling)

print(list(enumerate(soup.a.next_siblings)))

print(list(enumerate(soup.a.previous_siblings)))

#选择p节点的下一个兄弟元素、上一个兄弟元素、后面所有的兄弟元素、前面所有兄弟元素

find_all(name,attrs,recursive,text,**kwargs)

查询所有符合条件的元素

ul = soup.find_all(name='ul'))

#获取所有ul节点

print(ul.find_all(name='li'))

#获取ul节点的所有li节点

print(soup.find_all(attrs={'id':'list-1'}))

#利用属性值查询

print(soup.find_all(id='list-1'))

#上一句的简写

print(soup.find_all(text=re.compile('link')))

#text参数用来匹配节点的文本，可传入字符串或正则表达式

print(soup.find(id='list-1'))

#find()方法只返回第一个匹配到的元素

print(soup.select('.panel .panel-heading'))

print(soup.select('ul li'))

#使用CSS选择器时，需调用select()方法，传入相应的CSS选择器

Beautiful Soup库介绍的更多相关文章

Beautiful Soup库基础用法（爬虫）
初识Beautiful Soup 官方文档:https://www.crummy.com/software/BeautifulSoup/bs4/doc/# 中文文档:https://www.crumm ...
【转载】Beautiful Soup库（bs4）入门
转载自:Beautiful Soup库(bs4)入门该库能够解析HTML和XML 使用Beautiful Soup库: from bs4 import BeautifulSoup impo ...
Beautiful Soup库入门
1.安装:pip install beautifulsoup4 Beautiful Soup库是解析.遍历.维护“标签树”的功能库 2.引用:(1)from bs4 import BeautifulS ...
Python Beautiful Soup库
Beautiful Soup库 Beautiful Soup库:https://www.crummy.com/software/BeautifulSoup/ 安装Beautiful Soup: 使用B ...
python beautiful soup库的超详细用法
原文地址https://blog.csdn.net/love666666shen/article/details/77512353 参考文章https://cuiqingcai.com/1319.ht ...
【Python爬虫学习笔记（3）】Beautiful Soup库相关知识点总结
1. Beautiful Soup简介 Beautiful Soup是将数据从HTML和XML文件中解析出来的一个python库,它能够提供一种符合习惯的方法去遍历搜索和修改解析树,这将大大减 ...
python之Beautiful Soup库
1.简介简单来说,Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据.官方解释如下: Beautiful Soup提供一些简单的.python式的函数用来处理导航.搜索 ...
Beautiful Soup库
原文传送门:静觅 » Python爬虫利器二之Beautiful Soup的用法
crawler碎碎念4 关于python requests、Beautiful Soup库、SQLlite的基本操作
Requests import requests from PIL import Image from io improt BytesTO import jason url = "..... ...

随机推荐

C# 给图片添加透明的文字、图片水印
#region 添加水印 /// <summary> /// 添加文字水印 /// </summary> /// <param name="image" ...
关于PHP中的Trait
今天看PHP框架,看到Trait部分.没见过,好奇查了一下. PHP手册说的是解决多继承的问题.但是一般面向对象的语言中,解决多继承都是通过接口,PHP也有接口.貌似看上去Trait和Interfac ...
pch文件配置出现 Expected unqualified-id 和 Unkown type name 'NSString'
1.发生的现象之前代码还是没有报错的,由于某些代码比较常用,就打算配置一个pch文件引入常用的文件但是引入的时候就出现了报错 2.原因与解决办法 2.1 原因你引入的文件可能使用到OC与C++混 ...
centos7 docker 安装 zookeeper 3.4.13 集群
假设三台主机的ip分别为: 主机一:192.168.0.168 主机二:192.168.0.169 主机三:192.168.0.170 三台主机的安装步骤相似,以主机一为例: 1. 查找zookeep ...
Map/Reduce应用开发基础知识-摘录
Map/Reduce 这部分文档为用户将会面临的Map/Reduce框架中的各个环节提供了适当的细节.这应该会帮助用户更细粒度地去实现.配置和调优作业.然而,请注意每个类/接口的javadoc文档提供 ...
2019.3.7考试T2 离线数论？？
$ \color{#0066ff}{ 题目描述 }$ 一天,olinr 在 luogu.org 刷题,一点提交,等了一分钟之后,又蛙又替. olinr 发动了他的绝招,说:"为啥啊???&q ...
Zookeeper客户端对比选择_4
Zookeeper客户端对比选择本文思维导图使用框架的好处是自带一套实用的API,但是Zookeeper虽然非常强大,但是社区却安静的可怕,版本更新较慢,下面会先从zookeeper原生API的不 ...
2.2、Softmax Regression算法实践
Softmax Regression算法实践有了上篇博客的理论知识,我们可以利用实现好的函数,来构建Softmax Regression分类器,在训练分类器的过程中,我们使用多分类数据作为训练数据: ...
JAVA数据结构--插入排序
插入排序(英语:Insertion Sort)是一种简单直观的排序算法.它的工作原理是通过构建有序序列,对于未排序数据,在已排序序列中从后向前扫描,找到相应位置并插入.插入排序在实现上,通常采用in- ...
A Simple Problem with Integers(线段树区间更新复习，lazy数组的应用）-------------------蓝桥备战系列
You have N integers, A1, A2, ... , AN. You need to deal with two kinds of operations. One type of op ...

Beautiful Soup库介绍

Beautiful Soup库介绍的更多相关文章

随机推荐

热门专题