python爬虫beautifulsoup4系列2【转载】

本篇转自博客：上海-悠悠

原文地址：http://www.cnblogs.com/yoyoketang/tag/beautifulsoup4/

前言

本篇详细介绍beautifulsoup4的功能，从最基础的开始讲起，让小伙伴们都能入门

一、读取HTML页面

1.先写一个简单的html页面，把以下内容copy出来，保存为html格式文件

...
2.为了学习方便，可以把此html文件和脚本放同一文件夹下

3.用python的open函数读取这个html,如下图能正确打印出来，说明读取成功了

二、解析器：html.parser

1.用BeautifulSoup的构造方法,就能得到一个文档的对象, 可以传入一段字符串或一个文件句柄

2.如果我们调用BeautifulSoup这个类的时候，不带"html.parser"参数，这时候会有个waring的，下图红色框框区域给出了建议。

3.html.parser这个是python库里面自带的解析器，无需安装。

4.prettify()这个方法是把文件解析成html格式，用html的标准格式输出（有缩进的）

三、对象的种类

1.Beautiful Soup将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,所有对象可以归纳为4种:

Tag : 标签对象，如：yoyoketang，这就是一个标签

NavigableString ：字符对象，如：这里是我的微信公众号：yoyoketang

BeautifulSoup ：就是整个html对象

Comment ：注释对象，如：!-- for HTML5 --，它其实就是一个特殊NavigableString

2.弄清楚了这四个对象，后面所有的操作但是基于这四个（其实最后面一个comment可以忽略，几乎用不到）

四、Tag对象

1.html里面识别一个tag，其实一般像这种：

yoyoketang

yoyoketang

<head><title>yoyo ketang</title></head>

以上这些都是tag,很明显都是以<xx 开头</xx> 结尾这种，就是一个完整的tag

2.通过标签的名称，来获取tag对象

3.如果有多个相同的标签名称，返回的是第一个

五、Tag对象：name属性

1.tag的name属性，每一个tag都有name属性，用.name获取，如上面的三个name属性分别为p,b,head。也就是<xx开头的，这里的xx就是它的name属性

2.html是一个树状结构的，每个tag都有属性，整个html对象也有name属性，它的属性是：[document]

六、Tag对象：Attributes

1.tag.attrs可以打印出所有的属性，可以看出是个字典格式的

2.那么获取其中的某一个属性，就跟操作字典一样，如：tag["href"]

3.由于class属性一般可以为多个，中间空格隔开，所以class属性获取的是一个list类型：[u'sister']

4.tag.string，这里Tag对象变成NavigableString对象了，呵呵小伙伴们要懵逼了吧。其实打印出来就是一个字符串。

七、发福利

1.爬糗事百科首页的段子

# coding:utf-8
from bs4 import BeautifulSoup
import requests

r = requests.get("https://www.qiushibaike.com/")
qiubai = r.content
soup = BeautifulSoup(qiubai, "html.parser")
duanzi = soup.find_all(class_="content")
for i in duanzi:
    # tag的 .contents 属性可以将tag的子节点以列表的方式输出
    duan = i.span.contents[0] # 取第一个
    print duan

python爬虫beautifulsoup4系列2【转载】的更多相关文章

python爬虫beautifulsoup4系列1【转载】
本篇转自博客:上海-悠悠原文地址:http://www.cnblogs.com/yoyoketang/tag/beautifulsoup4/ 前言以博客园为例,爬取我的博客上首页的发布时间.标题. ...
python爬虫beautifulsoup4系列4-子节点【转载】
本篇转自博客:上海-悠悠原文地址:http://www.cnblogs.com/yoyoketang/tag/beautifulsoup4/ 前言很多时候我们无法直接定位到某个元素,我们可以先定位 ...
python爬虫beautifulsoup4系列2
前言本篇详细介绍beautifulsoup4的功能,从最基础的开始讲起,让小伙伴们都能入门一.读取HTML页面 1.先写一个简单的html页面,把以下内容copy出来,保存为html格式文件 &l ...
python爬虫beautifulsoup4系列1
前言以博客园为例,爬取我的博客上首页的发布时间.标题.摘要,本篇先小试牛刀,先了解下它的强大之处,后面讲beautifulsoup4的详细功能. 一.安装 1.打开cmd用pip在线安装beauti ...
python爬虫beautifulsoup4系列4-子节点
前言很多时候我们无法直接定位到某个元素,我们可以先定位它的父元素,通过父元素来找子元素就比较容易一.子节点 1.以博客园首页的摘要为例:<div class="c_b_p_desc ...
《Python爬虫学习系列教程》学习笔记
http://cuiqingcai.com/1052.html 大家好哈,我呢最近在学习Python爬虫,感觉非常有意思,真的让生活可以方便很多.学习过程中我把一些学习的笔记总结下来,还记录了一些自己 ...
[转]《Python爬虫学习系列教程》
<Python爬虫学习系列教程>学习笔记 http://cuiqingcai.com/1052.html 大家好哈,我呢最近在学习Python爬虫,感觉非常有意思,真的让生活可以方便很多. ...
Python爬虫beautifulsoup4常用的解析方法总结（新手必看）
今天小编就为大家分享一篇关于Python爬虫beautifulsoup4常用的解析方法总结,小编觉得内容挺不错的,现在分享给大家,具有很好的参考价值,需要的朋友一起跟随小编来看看吧摘要如何用beau ...
Python爬虫学习系列教程
最近想学一下Python爬虫与检索相关的知识,在网上看到这个教程,觉得挺不错的,分享给大家. 来源:http://cuiqingcai.com/1052.html 一.Python入门 1. Pyth ...

随机推荐

5.Mongodb聚合
聚合 aggregate 聚合(aggregate)主要用于计算数据,类似sql中的sum().avg() 语法 db.集合名称.aggregate([{管道:{表达式}}]) 1.管道管道在Uni ...
android 文件下载超简单
public void downloadPlug(String downloadUrl,String savePath) { try { URL url = new URL(downloadUrl); ...
使用Autofac实现依赖注入注入
依赖注入是什么意思? 依赖倒置在软件设计原则中,有一种重要的思想叫做依赖倒置.它的核心思想是:不能让高层组件依赖底层组件,而且,不管高层组件和底层组件,两者都应依赖于抽象.那么,这个原则和我们上面的 ...
【Java集合源码剖析】Java集合框架
Java集合工具包位于Java.util包下,包含了很多常用的数据结构,如数组.链表.栈.队列.集合.哈希表等.学习Java集合框架下大致可以分为如下五个部分:List列表.Set集合.Map映射.迭 ...
Jsoncpp 编译
1. linux下编译jsoncpp 从(http://jsoncpp.sourceforge.net/)下载源码包“jsoncpp-src-0.5.0.tar.gz”,解压后在其解压后目录中运行 $ ...
elasticsearch安装教程
目录 1 java8 环境 2 安装elasticsearch 3 安装kibana 4. 单服务器部署多个节点参考: 1 java8 环境 elasticsearch需要安装java 8 环境,配 ...
centos使用--防火墙
目录 1 切换到zsh 1.1 查看系统当前的shell 1.2 查看bin下是否有zsh包 1.3 安装zsh包 1.4 切换shell至zsh 2 安装oh-my-zsh 2.1 oh-my-zs ...
CentOS 单用户模式：修改Root密码和grub加密[转]
原文出处: http://zhengdl126.iteye.com/blog/430268 Linux 系统处于正常状态时,服务器主机开机(或重新启动)后,能够由系统引导器程序自动引导 Linux 系 ...
USACO Section1.5 Number Triangles 解题报告
numtri解题报告 —— icedream61 博客园(转载请注明出处)--------------------------------------------------------------- ...
Ipython\Jupyter数据分析工具
使用Python进行数据分析优点 1 Python大量的库为数据分析和处理提供了完整的工具集 2 比起R和Matlab等其他主要用于数据分析的编程语言,Python更全能 3 Python库一直在增加 ...

python爬虫beautifulsoup4系列2【转载】

python爬虫beautifulsoup4系列2【转载】的更多相关文章

随机推荐

热门专题