Python3处理HTML获取所需内容

处理HTML页面，经常使用的便是使用beautifulsoup库

pip install beautifulsoup4

执行上述语句下载bs4库

一般请求下来的所需数据都位于tbody的tr标签里，下面给出对应代码：

 soup = BeautifulSoup(r.text, "html.parser")

    informationlist = []

    for tr in soup.find('tbody').children:

        #出现/n情况，/n在soup中被认为是子节点之一

        if(tr!='\n'):

            tds = tr('td')

            informationlist.append([tds[0].string, tds[1].string, tds[8].string])

    for i in range(len(informationlist)):

        information = informationlist[i]

        print("{:^10}\t{:^6}\t{:^10}".format(information[0], information[1], information[2]))

Tag：标签，最基本的信息组织单元，分别用<>和</>标明开头和结尾

Name：标签的名字，<p>…</p>的名字是'p'，格式：<tag>.name

Attributes：标签的属性，字典形式组织，格式：<tag>.attrs

NavigableString：标签内非属性字符串，<>…</>中字符串，格式：<tag>.string

Comment：标签内字符串的注释部分，一种特殊的Comment类型

遍历方法：

for child in soup.body.children:

    print(child)

for child in soup.body.descendants:

    print(child)

下面给出一些常用的属性

.contents：子节点的列表，将<tag>所有儿子节点存入列表

.children：子节点的迭代类型，与.contents类似，用于循环遍历儿子节点

.descendants：子孙节点的迭代类型，包含所有子孙节点，用于循环遍历

.parent：节点的父亲标签

.parents：节点先辈标签的迭代类型，用于循环遍历先辈节点

.next_sibling：返回按照HTML文本顺序的下一个平行节点标签

.previous_sibling：返回按照HTML文本顺序的上一个平行节点标签

.next_siblings：迭代类型，返回按照HTML文本顺序的后续所有平行节点标签

.previous_siblings：迭代类型，返回按照HTML文本顺序的前续所有平行节点标签

Python3处理HTML获取所需内容的更多相关文章

python3获取指定目录内容的详细信息
不同平台获取指定目录内容的详细信息命令各不相同: Linux中可以通过ls -al获取获取 windows中可以通过dir命令获取下面是我写的一个通用获取目录内容详细信息的python3脚本: #! ...
SpringMVC——使用RequestDispatcher.include()和HttpServletResponseWrapper动态获取jsp输出内容
介绍本篇内容前,先抛出我遇到的问题或者说是需求!(精读阅读本篇可能花费您15分钟,略读需5分钟左右) 一:需求说明有一个Controller有两个方法第一个方法通过指定的路径和参数去渲染jsp内容 ...
黄聪：C#获取网页HTML内容的三种方式
C#通常有三种方法获取网页内容,使用WebClient.WebBrowser或者HttpWebRequest/HttpWebResponse. 方法一:使用WebClient static void ...
python开发_tkinter_获取文本框内容_给文本框添加键盘输入事件
在之前的blog中有提到python的tkinter中的菜单操作 python开发_tkinter_窗口控件_自己制作的Python IDEL_博主推荐 python开发_tkinter_窗口控件_自 ...
C#中，使用正式表达式匹配获取所需数据
.NET中,使用正式表达式匹配获取所需数据需求:获取一串字符串中,正则匹配出需要的数据. 例如以下字符串: string temp ="ErrorCode:-1,Message:{&quo ...
paip.uapi 获取网络url内容html 的方法java php ahk c++ python总结.
paip.uapi 获取网络url内容html 的方法java php ahk c++ python总结. 各种语言总结比较,脚本php.python果然是方便.简短,实用. uapi : get_w ...
POI教程之第二讲：创建一个时间格式的单元格，处理不同内容格式的单元格，遍历工作簿的行和列并获取单元格内容，文本提取
第二讲 1.创建一个时间格式的单元格 Workbook wb=new HSSFWorkbook(); // 定义一个新的工作簿 Sheet sheet=wb.createSheet("第一个 ...
java分别通过httpclient和HttpURLConnection获取图片验证码内容
前面的文章,介绍了如何通过selenium+Tesseract-OCR来识别图片验证码,如果用接口来访问的话,再用selenium就闲的笨重,下面就介绍一下分别通过httpclient和HttpURL ...
百度编辑器ueditor获取不到内容？请把form放在table等其他元素最外面
百度编辑器ueditor获取不到内容?请把form放在table等其他元素最外面. <form name="form" method="post" act ...

随机推荐

201521123069 《Java程序设计》第13周学习总结
1. 本周学习总结以你喜欢的方式(思维导图.OneNote或其他)归纳总结多网络相关内容. 2. 书面作业 Q1. 网络基础 1.1 比较ping www.baidu.com与ping cec.jm ...
Java：输入输出流 java.io包的层次结构
1.什么是IO Java中I/O操作主要是指使用Java进行输入,输出操作. Java所有的I/O机制都是基于数据流进行输入输出,这些数据流表示了字符或者字节数据的流动序列.Java的I/O流提供了读 ...
CSS 基本样式
1.CSS 背景: css 允许应用纯色作为背景,也允许使用背景图像创建相当复杂的效果属性描述 background-attachment 背景图像是否固定或者随着页面的其余部分滚动 backgr ...
云计算之阿里仓库停止openstack mitaka源报错“No package centos-release-openstack-mitaka available.”
之前学习了一个月的openstack的mitaka版本,写完脚本放置一段时间,最近准备正式部署突然发现 No package centos-release-openstack-mitaka avail ...
针对Openlayer3官网例子的简介
网址:http://openlayers.org/en/latest/examples/ 如果大家想了解ol3能做什么,或者说已提供的API有什么,又闲一个个翻例子跟API累的话,就看看这个吧. 1. ...
Two Sum IV - Input is a BST
Given a Binary Search Tree and a target number, return true if there exist two elements in the BST s ...
R语言基础语法
学习一门新的语言,率先学习输出hello world.我们就从这里开始学习. 首先打开RStudio这个IDE,然后在左边输入: > mystr <- "hello world& ...
spring 内部工作机制（二）
本章节讲Spring容器从加载配置文件到创建出一个完整Bean的作业流程及参与的角色. Spring 启动时读取应用程序提供的Bean配置信息,并在Spring容器中生成一份相应的Bean配置注册表, ...
我的第一个python web开发框架（6）——第一个Hello World
小白中午听完老菜讲的那些话后一直在思考,可想来想去还是一头雾水,晕晕呼呼的一知半解,到最后还是想不明白,心想:老大讲的太高深了,只能听懂一半半,看来只能先记下来,将明白的先做,不明白的等以后遇到再学. ...
C-一行或多行文章垂直居中
1 样式效果 2 table布局 li span

Python3处理HTML获取所需内容

Python3处理HTML获取所需内容的更多相关文章

随机推荐

热门专题