爬虫 ---- BeautifulSoup的基础使用

#BeautifulSoup的基础使用
from bs4 import BeautifulSoup    #导入bs4库

html = "<p class='stylecss'><!--index page--></p><div id='divid'><ul id='ulid'><li>Menu Title</li><li>Body Content</li></ul></div><p>Ending</p>"

soup = BeautifulSoup(html ,"lxml")    #创建对象

soup.p['class'] = 'newcss'  #修改p标签的class

#获取p标签的class

print(soup.p.attrs)

print(soup.p.get('class'))

print(soup.p['class'])

r = soup.find_all('p')  #soup.find('p')显示第一个p标签及内容, .find_all显示所有的p标签及内容

r = soup.p   # 同上一行find相同

r = soup.find(class_='stylecss')  #获取class为stylecss的标签及内容

r = soup.find(attrs = {'class':'stylecss'})

# 获取标签的内容文本

r = soup.p.string

# cdata = CData(r)

# print(cdata)

r = soup.div.ul.li.string

# if type(soup.p.string)==Comment:

#       r = soup.p.string

#       print(r)

r = soup.ul.contents[1]  # .contents[1]获取ul列表的第二个标签及内容

# .descendants循环获取当前页面的所有标签和标签内的内容

for child in soup.descendants:

    print(child)

# .strings循环获取页面中显示的所有文本内容，不包括注释内容

for string in soup.strings:

    print(string)

p = soup.li.parent.name  # .parent获取页面中li的父级标签名

# .parents递归得到当前元素的所有父级标签节点名

li = soup.li.string

for parent in li.parents:

    print(parent.name)

r = soup.ul.find_parent()  #获取当前节点标签的父节点及内容

r = soup.li.find_parents()  #获取当前节点标签的所有父节点及内容

r = soup.ul.find_all_previous()

r = soup.select('p')  #获取所有的p标签及内容

r = soup.select('p')[1]  #获取页面中的第二个p标签及内容

r = soup.select('#divid')

r = soup.select('.stylecss')

r = soup.select('div > ul')

r = soup.select('ul > li')[1].get_text()

print(r)

Python解析器  

1、Python标准库 ，使用方法：BeautifulSoup(markup, “html.parser”) ，优势：Python的内置标准库、执行速度适中、文档容错能力强

2、lxml HTML 解析器 ，使用方法：BeautifulSoup(markup, “lxml”)     ，优势：速度快、文档容错能力强，但需要安装C语言库。

3、lxml XML 解析器 ，使用方法：BeautifulSoup(markup, [“lxml”, “xml”]) 或 BeautifulSoup(markup, “xml”) ，优势：速度快、唯一支持XML的解析器，也需要安装C语言库。

4、html5lib ，使用方法：BeautifulSoup(markup, “html5lib”) ，优势：最好的容错性、以浏览器的方式解析文档、生成HTML5格式的文档，但其速度慢，不依赖外部扩展。

爬虫 ---- BeautifulSoup的基础使用的更多相关文章

python爬虫（5）——BeautifulSoup & docker基础
BeautifulSoup基础实战安装:pip install beautifulsoup4 常用指令: from bs4 import BeautifulSoup as bs import url ...
python爬虫实战：基础爬虫(使用BeautifulSoup4等)
以前学习写爬虫程序时候,我没有系统地学习爬虫最基本的模块框架,只是实现自己的目标而写出来的,最近学习基础的爬虫,但含有完整的结构,大型爬虫含有的基础模块,此项目也有,“麻雀虽小,五脏俱全”,只是没有考 ...
爬虫beautifulsoup实践
爬虫beautifulsoup实践: 目的:在https://unsplash.com/上爬取图片并保存到本地文件夹里. 一.观察response.首先,在Chrome浏览器里观察一下该网页的re ...
利用简易爬虫完成一道基础CTF题
利用简易爬虫完成一道基础CTF题声明:本文主要写给新手,侧重于表现使用爬虫爬取页面并提交数据的大致过程,所以没有对一些东西解释的很详细,比如表单,post,get方法,感兴趣的可以私信或评论给我.如 ...
爬虫入门一基础知识以及request
title: 爬虫入门一基础知识以及request date: 2020-03-05 14:43:00 categories: python tags: crawler 爬虫整体概述,基础知识. ...
python爬虫学习(一)：BeautifulSoup库基础及一般元素提取方法
最近在看爬虫相关的东西,一方面是兴趣,另一方面也是借学习爬虫练习python的使用,推荐一个很好的入门教程:中国大学MOOC的<python网络爬虫与信息提取>,是由北京理工的副教授嵩天老 ...
PYTHON 爬虫笔记五:BeautifulSoup库基础用法
知识点一:BeautifulSoup库详解及其基本使用方法什么是BeautifulSoup 灵活又方便的网页解析库,处理高效,支持多种解析器.利用它不用编写正则表达式即可方便实现网页信息的提取库. ...
Python爬虫 | Beautifulsoup解析html页面
引入大多数情况下的需求,我们都会指定去使用聚焦爬虫,也就是爬取页面中指定部分的数据值,而不是整个页面的数据.因此,在聚焦爬虫中使用数据解析.所以,我们的数据爬取的流程为: 指定url 基于reque ...
Python爬虫----Beautiful Soup4 基础
1. Beautiful Soup简介简单来说,Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据.官方解释如下: Beautiful Soup提供一些简单的.pyth ...

随机推荐

css兼容问题收集+部分效果收集+css重置
1.居中问题 div里的内容,IE默认为居中,而FF默认为左对齐,可以尝试增加代码margin: 0 auto; 2.高度问题两上下排列或嵌套的div,上面的div设置高度(height),如果di ...
Java 组件化（gradle）
组件化什么是组件化,直接看下面两张图. 上面是非组件化的项目,下面是组件化的项目. 非组件化的问题如果项目本身有多个互相不影响的模块,甚至有多人分开负责各个模块的开发时,非组件化项目的弊端就会暴露出来 ...
raft协议-分布式环境下的数据一致性问题
阅读了一个有意思的ppt,是Standford大学发表的raft协议网址:http://thesecretlivesofdata.com/raft/ 下面自己总结下咯: 1.raft是一个实现了解决 ...
用户在浏览器输入URL或者跳转到一个URL后发生了什么
一.从URL到页面渲染的整个过程1)处理用户输入2)开始导航3)读取响应4)查找渲染进程5)确认导航6)渲染页面二.每一步做了哪些事情 1)处理用户的输入浏览器的UI 线程处理用户的输入,判断是跳 ...
mock.js模拟ajax数据请求
在我们开发过程中存在着前端页面ui完成了,但是没有接口进行联调数据的情况,现在介绍一下用mock.js来完成数据的请求.这样在后期我们的后台接口完成后只需要更改请求的接口名字即可!前提是你的模拟字段名 ...
Codeforces1214D. Treasure Island （dp + Hash）
题目链接:传送门思路: 仔细观察可以发现,答案最多就是2,只要把(2,1)和(1,2)堵住就可以了. 答案是0的情况就是初始状态下,(1,1)就已经不可达(n,m)了,很好判断. 所以重点就是区分答 ...
tee 多重定向
1.命令功能 tee读取标准输入的数据,并将内容输出成文件. 2.语法格式 tee option file tee [-ai] 文件参数说明参数参数说明 -a 追加到文件后面,非覆盖 - ...
针对360浏览器读取不了cookie的问题
今天学习cookie的时候发现在360和谷歌浏览器下设置cookie打开是空白的!经过一番搜索才知道在本地是访问不了cookie只能在服务器端进行访问,但是仍然可以在火狐下进行访问
this 指向图
bzoj4810 [Ynoi2017]由乃的玉米田莫队+bitset(+数论)
题目传送门 https://lydsy.com/JudgeOnline/problem.php?id=4810 题解看数据范围和题目名字应该是根号算法. 因为询问除了区间外,还有第 \(3\) 个参 ...

爬虫 ---- BeautifulSoup的基础使用

爬虫 ---- BeautifulSoup的基础使用的更多相关文章

随机推荐

热门专题