1 简介

from bs4 import BeautifulSoup

soup=BeautifulSoup(<p>data</p>,'html.parser')

2 基本元素

解析,遍历,维护,标签树的库

<p class="title"> ...</p>    tag对

名称 (属性 attributes)

beautifulsoup 或bs4

from bs4 import BeautifulSoup

import bs4

beautifulSoup 雷

html--------标签树(字符串)转换为beautifulsoup类

from bs4 import BeautifulSoup

soup=

注:解析器(4种)

html.parser    安装bs4库

lxml      pip install lxml

xml                同上

html5lib    pipinstall html5lib

beautiful 类的基本元素

Tag  标签 尖括号开头结尾

Name  格式:<tag>.name  <p>的名字是 ''p''

Attributes      标签的属性,字典形式组织  <tag>.attrs

NavigableString 标签内非属性字符串  表示尖括号之间的内容

soup.a.string 就可以了

Comment     标签内字符串的注释部分

用string 也可以得出这个类型

3 标签树的遍历

.contents 获得子节点的列表

.children 获得子节点的迭代形式

.descendants 获得子孙的迭代形式

儿子节点不管包括标签 还包括\n

soup.body.contents

.parent 节点的父亲标签

.parnets 节点的先辈形式迭代版的

平行遍历(返回按照html文本顺序的节点标签)

平行遍历时实在同一个父标签下的遍历

.next_sibling

.previous_sibling

.next_siblings   迭代版

.next_previous_siblings 迭代版

4 基于bs4显示html的内容

from bs4 import BeautifulSoup

soup=BeautifulSoup(demo,"html.parser")   //加载解析器的语句

soup.prettify()  //soup 是 BeautifulSoup类型 用以解析html 或者遍历html

"prettify()方法非常好用"

#增加换行符

print(soup.prettify())

PYTHON网络爬虫与信息提取[BeautifulSoup](单元四)的更多相关文章

  1. Python网络爬虫与信息提取

    1.Requests库入门 Requests安装 用管理员身份打开命令提示符: pip install requests 测试:打开IDLE: >>> import requests ...

  2. 第三次作业-MOOC学习笔记:Python网络爬虫与信息提取

    1.注册中国大学MOOC 2.选择北京理工大学嵩天老师的<Python网络爬虫与信息提取>MOOC课程 3.学习完成第0周至第4周的课程内容,并完成各周作业 第一周 Requests库的爬 ...

  3. 第3次作业-MOOC学习笔记:Python网络爬虫与信息提取

    1.注册中国大学MOOC 2.选择北京理工大学嵩天老师的<Python网络爬虫与信息提取>MOOC课程 3.学习完成第0周至第4周的课程内容,并完成各周作业 4.提供图片或网站显示的学习进 ...

  4. 第三次作业-Python网络爬虫与信息提取

    1.注册中国大学MOOC 2.选择北京理工大学嵩天老师的<Python网络爬虫与信息提取>MOOC课程 3.学习完成第0周至第4周的课程内容,并完成各周作业 过程. 5.写一篇不少于100 ...

  5. Python网络爬虫与信息提取笔记

    直接复制粘贴笔记发现有问题 文档下载地址//download.csdn.net/download/hide_on_rush/12266493 掌握定向网络数据爬取和网页解析的基本能力常用的 Pytho ...

  6. 【学习笔记】PYTHON网络爬虫与信息提取(北理工 嵩天)

    学习目的:掌握定向网络数据爬取和网页解析的基本能力the Website is the API- 1 python ide 文本ide:IDLE,Sublime    Text集成ide:Pychar ...

  7. Python网络爬虫与信息提取(一)

    学习 北京理工大学 嵩天 课程笔记 课程体系结构: 1.Requests框架:自动爬取HTML页面与自动网络请求提交 2.robots.txt:网络爬虫排除标准 3.BeautifulSoup框架:解 ...

  8. Python网络爬虫与信息提取(二)—— BeautifulSoup

    BeautifulSoup官方介绍: Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式. 官方 ...

  9. PYTHON网络爬虫与信息提取[信息的组织与提取](单元五)

    1 三种信息类型的简介 xml : extensible markup language 与html非常相似 现有html后有xml xml是html发展来的 扩展 通用 json  类型 javas ...

随机推荐

  1. Ubuntu 快速安装配置Odoo 12

    Odoo 12预计将于今年10月正式发布,这是一次大版本更新,带来了一些不错的新特性,如 文件管理系统(DMS) 用户表单中新增字段(Internal user, Portal, Public) HR ...

  2. FreeMarker 自定义 TemplateDirectiveModel(二)

    FreeMarker 是一个用 Java 语言编写的模板引擎,它基于模板来生成文本输出.FreeMarker 与 Web 容器无关,即在 Web 运行时,它并不知道 Servlet 或 HTTP.它不 ...

  3. java接口的意义

    java当中继承一个接口,要重写他的方法的话,那为什么还要多此一举的去实现一个接口呢? 直接把方法写在类当中不就可以了?就是说去掉类名后面的Implements 接口 ,可以不可以呢? 接口的最主要的 ...

  4. C++ 函数模板&类模板详解

    在 C++ 中,模板分为函数模板和类模板两种.函数模板是用于生成函数的,类模板则是用于生成类的. 函数模板&模板函数     类模板&模板类  必须区分概念 函数模板是模板,模板函数时 ...

  5. 滚动字幕标记<marquee></marquee>

    <marquee>滚动内容</marquee> 常用属性: Direction : 滚动方向 取值 up, down left right width  :滚动宽度 heigh ...

  6. kafka分析

    目录 1,kafka简介 2, Kafka Server 2.1,kafka中zookeeper的作用 2.2, Broker 2.2.1,Broker高性能设计 2.2.2,Broker选举机制 2 ...

  7. java linkedlist和arraylist添加元素时性能比较

  8. rsync+sersync

    Environmental introduction System Kernel : -.el6.x86_64 Source Server : 192.168.7.1 Target Server : ...

  9. 留下来做项目经理还是跳槽学Java

    毕业两年了,曾经给自己计划工作两年后跳一次槽,去尝试学习更多的东西.2012年7月5日入职,现在整整两年,最近面临这样的一个抉择:是留在公司继续做项目经理,还是跳槽去学习Java. 我的基本情况:本科 ...

  10. csdn vip文章:Unity游戏开发-小游戏-非常简单的游戏-unity-

    原文https://blog.csdn.net/qq_20484877/article/details/81841190 1*创建物体 Create菜单下 3D Object菜单下Cube 1.1设置 ...