Python-爬虫-Beautifulsoup解析

简介

Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间.你可能在寻找 Beautiful Soup3 的文档,Beautiful Soup 3 目前已经停止开发,官网推荐在现在的项目中使用Beautiful Soup 4, 移植到BS4

#安装 Beautiful Soup

pip install beautifulsoup4

#安装解析器

Beautiful Soup支持Python标准库中的HTML解析器,还支持一些第三方的解析器,其中一个是 lxml .根据操作系统不同,可以选择下列方法来安装lxml:

$ apt-get install Python-lxml

$ easy_install lxml

$ pip install lxml

另一个可供选择的解析器是纯Python实现的 html5lib , html5lib的解析方式与浏览器相同,可以选择下列方法来安装html5lib:

$ apt-get install Python-html5lib

$ easy_install html5lib

$ pip install html5lib

基本使用

from bs4 import BeautifulSoup
import requests,re
req_obj = requests.get('https://www.baidu.com')
soup = BeautifulSoup(req_obj.text,'lxml')

'''标签查找'''
print(soup.title)              #只是查找出第一个
print(soup.find('title'))      #效果和上面一样
print(soup.find_all('div'))    #查出所有的div标签

'''获取标签里的属性'''
tag = soup.div
print(tag['class'])   #多属性的话，会返回一个列表
print(tag['id'])      #查找标签的id属性
print(tag.attrs)      #查找标签所有的属性，返回一个字典（属性名：属性值）

'''标签包的字符串'''
tag = soup.title
print(tag.string)                 #获取标签里的字符串
tag.string.replace_with("哈哈")    #字符串不能直接编辑，可以替换

'''子节点的操作'''
tag = soup.head
print(tag.title)     #获取head标签后再获取它包含的子标签

'''contents 和 .children'''
tag = soup.body
print(tag.contents)        #将标签的子节点以列表返回
print([child for child in tag.children])      #输出和上面一样

'''descendants'''
tag = soup.body
[print(child_tag) for child_tag in tag.descendants]    #获取所有子节点和子子节点

'''strings和.stripped_strings'''
tag = soup.body
[print(str) for str in tag.strings]             #输出所有所有文本内容
[print(str) for str in tag.stripped_strings]    #输出所有所有文本内容，去除空格或空行

'''.parent和.parents'''
tag = soup.title
print(tag.parent)   　　　　　　　　　　　　　 #输出便签的父标签
[print(parent) for parent in tag.parents]  #输出所有的父标签

'''.next_siblings 和 .previous_siblings
    查出所有的兄弟节点
'''

'''.next_element 和 .previous_element
    下一个兄弟节点
'''

'''find_all的keyword 参数'''
soup.find_all(id='link2')                   #查找所有包含 id 属性的标签
soup.find_all(href=re.compile("elsie"))     #href 参数,Beautiful Soup会搜索每个标签的href属性:
soup.find_all(id=True)                       #找出所有的有id属性的标签
soup.find_all(href=re.compile("elsie"), id='link1')         #也可以组合查找
soup.find_all(attrs={"属性名": "属性值"})  #也可以通过字典的方式查找

Practice

from bs4 import BeautifulSoup as bs

import urllib.request

data=urllib.request.urlopen("http://edu.iqianyue.com/").read().decode("utf-8","ignore")

bs1=bs(data)

#格式化输出

#print(bs1.prettify())

#获取标签：bs对象.标签名

bs1.title

#获取标签里面的文字:bs对象.标签名.string

bs1.title.string

#获取标签名：bs对象.标签名.name

bs1.title.name

#获取属性列表：bs对象.标签名.attrs

bs1.a.attrs

#获取某个属性对应的值:bs对象.标签名[属性名] 或者 bs对象.标签名.get(属性名)

bs1.a["class"]

bs1.a.get("class")

#提取所有某个节点的内容：bs对象.find_all('标签名') bs对象.find_all(['标签名1','标签名2，…,标签n'])

bs1.find_all('a')

bs1.find_all(['a','ul'])

#提取所有子节点:bs对象.标签.contents bs对象.标签.children

k1=bs1.ul.contents

k2=bs1.ul.children

allulc=[i for i in k2]

#更多信息可以阅读官方文档：http://beautifulsoup.readthedocs.io/zh_CN/latest/

Python-爬虫-Beautifulsoup解析的更多相关文章

Python爬虫 | Beautifulsoup解析html页面
引入大多数情况下的需求,我们都会指定去使用聚焦爬虫,也就是爬取页面中指定部分的数据值,而不是整个页面的数据.因此,在聚焦爬虫中使用数据解析.所以,我们的数据爬取的流程为: 指定url 基于reque ...
python爬虫数据解析之BeautifulSoup
BeautifulSoup是一个可以从HTML或者XML文件中提取数据的python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式. BeautfulSoup是python爬虫三 ...
python爬虫网页解析之lxml模块
08.06自我总结 python爬虫网页解析之lxml模块一.模块的安装 windows系统下的安装: 方法一:pip3 install lxml 方法二:下载对应系统版本的wheel文件:http ...
python爬虫网页解析之parsel模块
08.06自我总结 python爬虫网页解析之parsel模块一.parsel模块安装官网链接https://pypi.org/project/parsel/1.0.2/ pip install ...
python爬虫数据解析之正则表达式
爬虫的一般分为四步,第二个步骤就是对爬取的数据进行解析. python爬虫一般使用三种解析方式,一正则表达式,二xpath,三BeautifulSoup. 这篇博客主要记录下正则表达式的使用. 正则表 ...
python爬虫--数据解析
数据解析什么是数据解析及作用概念:就是将一组数据中的局部数据进行提取作用:来实现聚焦爬虫数据解析的通用原理标签定位取文本或者属性正则解析正则回顾单字符: . : 除换行以外所有字符 ...
Python爬虫之解析网页
常用的类库为lxml, BeautifulSoup, re(正则) 以获取豆瓣电影正在热映的电影名为例,url='https://movie.douban.com/cinema/nowplaying/ ...
Python爬虫【解析库之beautifulsoup】
解析库的安装 pip3 install beautifulsoup4 初始化 BeautifulSoup(str,"解析库") from bs4 import BeautifulS ...
Python爬虫html解析工具beautifulSoup在pycharm中安装及失败的解决办法
1.安装步骤: 首先,你要先进入pycharm的Project Interpreter界面,进入方法是:setting(ctrl+alt+s) ->Project Interpreter,Pro ...
[转]Python爬虫html解析工具beautifulSoup在pycharm中安装及失败的解决办法
原文地址:https://www.cnblogs.com/yysbolg/p/9040649.html 刚开始学习一门技术最麻烦的问题就是搞定IDE环境,直接在PyCharm里安装BeautifulS ...

随机推荐

ExaWizards 2019 English D - Modulo Operations（DP）
Time Limit: 2 sec / Memory Limit: 1024 MB Score : 600600 points Problem Statement Snuke has a blackb ...
在QT中使用C/C++, 在linux下生成 .so, 并调用 .so
时间不早了, 先下班了... 明天再写..
Uint 5.css继承权重,盒模型和border padding
一 .css的继承性和权重 1.1 继承性:继承是CSS的一个主要特征,它是依赖于祖先-后代的关系的.继承是一种机制,它允许样式不仅可以应用于某个特定的元素,还可以应用于它的后代. 可以被继承的属性有 ...
[模板] 杜教筛 && bzoj3944-Sum
杜教筛浅谈一类积性函数的前缀和 - skywalkert's space - CSDN博客杜教筛可以在$O(n^{\frac 23})$的时间复杂度内利用卷积求出一些积性函数的前缀和. 算法 ...
pta寒假作业2
题目二币值转换题目代码 #include<stdio.h> int main (void) { int n, initial_n; scanf("%d", & ...
Mycat的读写分离
1. Mycat实现读写分离的部署: https://www.cnblogs.com/softidea/p/5447566.html springboot动态数据源的原理以及配置: Spring内置了 ...
微信小程序无法定位
获取定位的时候报:errMsg:getLocation:fail:require permission desc 错解决办法: 在app.js加入代码 //app.js新增如下代码 config = ...
使用nuxt.js官方脚手架构建项目时ES6编译问题SyntaxError: Unexpected token import
用nuxt集成koa2做vue后台,官方自带脚手架搭建的koa2仍是ES5语法,在构建koa2时默认的nodemon是没有使用babel编译的, 所以首先需要在启动命令后加上--exec babel- ...
jQuery使用（十二）：工具方法之type()之类型判断
type()的使用类型判断方法之is...() 实现原理可以参考我的另一篇js源码剖析博客: 类型和原生函数及类型转换(二:终结js类型判断) $.type( undefined ) === &qu ...
Andrew Ng机器学习公开课笔记 -- 线性回归和梯度下降
网易公开课,监督学习应用.梯度下降 notes,http://cs229.stanford.edu/notes/cs229-notes1.pdf 线性回归(Linear Regression) 先看个 ...

Python-爬虫-Beautifulsoup解析

简介

基本使用

Practice

Python-爬虫-Beautifulsoup解析的更多相关文章

随机推荐

热门专题