python - beautifulsoup4模块
# beautifulsoup4学习
# 是一个python模块 用于接受一个HTML 或 XML 字符串,然后将其进行格式化,之后便可以使用模块提供的方法进行快速查找指定元素,
# 从而是的在HTML 或xml中差汇总指定元素变得简单 # 安装方式:
# pip beautifulsoup4 # 引入方式:
from bs4 import BeautifulSoup #实例化,指定文本类型
# soup = BeautifulSoup("HTML 文本",features="lxml") # 基本使用
#查找单个标签
# f1 = soup.find("标签属性/标签名") #查找一类标签
# f2 = soup.find_all("标签属性/标签名") #jquery方式查找 id='name'
# f3 = soup.select("#name") # 属性参数:
# # .find / .find_all ()
# .find/find_all(下面参数)
# # # 基本查找
# # name='属性',
# # attrs={'class':'属性'},
# # recursive = True/False, #是否递归查找
# # text='文本内容',
#
# # 高级查找
# name/id/class_/href/text =['需要查找的值']
#
# # 正则表达式
# import re
# res = re.compile("div")
# f1.find_all(name/id/class_/href/text = res)
#
# # 函数方式
# def abc(self)
# return self.has_attr('class') and self.has_attr("id")
# f1.find_all(name = abc()) # .get() 属性 获取标签的属性值 # .get_text 属性 获取当前标签的文本 # .has_attr 属性 检查标签是或否具有该属性 # .name属性: 获取标签的标签名子
# f1.name # .atters 获取属性
# .atters['属性'] = 新属性值 # .children 获取标签的子标签 # .descendants 获取当前标签的所有后代标签 # .clear 清空当前标签的所有子标签 # .decompose 删除当前所有标签 # .extract 删除当前所有标签,并返回值(所删除的标签) # .encode 将当前内容转换为字节数据,包含当前标签
# .encode_contents 将当前内容转换为字节数据,不包含当前标签 # .decode 将当前内容转换为字符数据,包含当前标签
# .decode_contents 将当前内容转换为字节数据,不包含当前标签
python - beautifulsoup4模块的更多相关文章
- 使用pip安装BeautifulSoup4模块
1.测试是否安装了BeautifulSoup4模块 import bs4 print bs4 执行报错说明没有安装该模块 Traceback (most recent call last): File ...
- python 相关模块安装 国内镜像地址
python 相关模块安装 国内镜像地址 pipy国内镜像目前有: http://pypi.douban.com/ 豆瓣 http://pypi.hustunique.com/ 华中理工大学 ht ...
- 为Qemu aarch32添加BeautifulSoup4模块
环境 Qemu:2.8.0 开发板:vexpress-ca9 概述 上一篇博文已经可以让我们的开发板可以成功的ping通百度了,据说Python的网络功能也很强大,而Beautiful Soup是 ...
- python---requests和beautifulsoup4模块的使用
Requests:是使用 Apache2 Licensed 许可证的 基于Python开发的HTTP 库,其在Python内置模块的基础上进行了高度的封装,从而使得Pythoner进行网络请求时,变得 ...
- Python标准模块--threading
1 模块简介 threading模块在Python1.5.2中首次引入,是低级thread模块的一个增强版.threading模块让线程使用起来更加容易,允许程序同一时间运行多个操作. 不过请注意,P ...
- Python的模块引用和查找路径
模块间相互独立相互引用是任何一种编程语言的基础能力.对于“模块”这个词在各种编程语言中或许是不同的,但我们可以简单认为一个程序文件是一个模块,文件里包含了类或者方法的定义.对于编译型的语言,比如C#中 ...
- Python Logging模块的简单使用
前言 日志是非常重要的,最近有接触到这个,所以系统的看一下Python这个模块的用法.本文即为Logging模块的用法简介,主要参考文章为Python官方文档,链接见参考列表. 另外,Python的H ...
- Python标准模块--logging
1 logging模块简介 logging模块是Python内置的标准模块,主要用于输出运行日志,可以设置输出日志的等级.日志保存路径.日志文件回滚等:相比print,具备如下优点: 可以通过设置不同 ...
- python基础-模块
一.模块介绍 ...
随机推荐
- SpringCloud第二弹(高可用Eureka+Ribbon负载均衡)
先建立父工程 .. ..一路next 搭建注册中心(需要建立三个工程,端口不一样) .. .. .. 修改入口类 package com.cloud.eurekaserver1111; import ...
- SSH框架下ajax调用action并生成JSON再传递到客户端【以get和post方式提交】
需要完成的任务: 主要是把JSP页面上图片ID传给服务器端,服务器读取cookie看是否有username,如果有则根据ID读取MongoDB数据库,读出图片URL,再存放到mysql中的collec ...
- 【内核】Linux内核Initrd机制解析,内核更新步骤,grub配置说明
什么是Initrd initrd的英文含义是 boot loader initialized RAM disk,就是由boot loader初始化的内存盘.在 linux内核启动前, boot loa ...
- (数字三角形)POJ1163 The Triangle
The Triangle Time Limit: 1000MS Memory Limit: 10000K Total Submissions: 59698 Accepted: 35792 De ...
- 数据库连接池 C3p0
数据库连接池 C3po 1 定义 本质上是个容器(集合) 存放数据库的连接容器(connection 对象) ,当系统初始化以后 容器就会创建 容器中就会申请一些连接对象 ,当用户来访问数据库的时候 ...
- 信用评分卡 (part 2of 7)
python信用评分卡(附代码,博主录制) https://study.163.com/course/introduction.htm?courseId=1005214003&utm_camp ...
- ruby读取exce文件,使用roo---Gem
module SEquipsHelper #设备台账,从excel文件读取信息 require 'roo' #require 'roo-xls' #读取excel文件 # SEquipsHelper. ...
- Git(介绍和安装)
Git 是什么 Git 是 Linus Torvalds 为了帮助管理 Linux 内核开发而开发的一个开放源码的分布式版本控制系统. 与常用的版本控制工具 CVS, Subversion 等不同,它 ...
- 使用 boot-repair 对 Windows + Ubuntu 双系统引导修复
问题描述: 由于在windows上进行更新/重装/修改了引导设置以后,windows会“自私”地重写引导,导致Ubuntu系统引导消失而无法选择Ubuntu启动.
- React 记录(2)
入门教程:https://www.reactjscn.com/tutorial/tutorial.html 慢慢学习:对照教程文档,逐句猜解,截图 React官网:https://reactjs.or ...