Python-beautifulsoup库

 #beautifulsoup库的安装

 pip install beautifulsoup4

 python -m pip install --upgrage pip

 from bs4 import BeautifulSoup

 #----------------beautifulsoup库的使用--------------------------------------

 import requests

 from bs4 import BeautifulSoup

 url = "http://python123.io/ws/demo.html"

 r = requests.get(url)

 # print(r.text)

 demo = r.text

 soup = BeautifulSoup(demo,"html.parser") #熬一锅`粥

 #print(soup.prettify()) #打印这锅粥

 #下行遍历函数：.contents()  .children()用于循环 .descendants()

 soup.head #获取head标签

 soup.head.contents #获取head的子节点，返回类型是列表

 soup.body.contents #

 len(soup.body.contents)  #terurn 5

 soup.body.contents[2]

 print('以下输出子节点：')

 for child in soup.body.children:

     print('##',child)

 print('以下输出子孙节点：')

 for child in soup.body.descendants:

     print('**',child)

 #---上行遍历 .parent  .parents(用于循环)

 soup.title.parent  #return  <head><title>This is a python demo page</title></head>

 soup.html.parents     #返回 html所有内容

 soup.parent         #返回为空

 print('以下输出父节点：')

 for par in soup.a.parents:

     if par is None:

         print('$$$',par)

     else:

         print('%',par.name)

 #----平行遍历----

 # 向后.next_sibling    向前.previous_sibling    加 s 用于遍历

 #title 与 p标签 不构成平行关系

 soup.a.next_sibling #return ' and ' 所以<a>标签的下一个标签不一定是<a>标签，需要判断

 soup.a.next_sibling.next_sibling #return <a ...</a>

 soup.a.previous_sibling

 soup.a.previous_sibling.previous_sibling

 print('以下输出下行遍历：')

 for sibling in soup.a.next_siblings:

     print('##',sibling)

 print('以下输出上行遍历：')

 for sibling in soup.a.previous_siblings:

     print('**',sibling)

Python-beautifulsoup库的更多相关文章

python BeautifulSoup库的基本使用
Beautiful Soup 是用Python写的一个HTML/XML的解析器,它可以很好的处理不规范标记并生成剖析树(parse tree). 它提供简单又常用的导航(navigating),搜索以 ...
python BeautifulSoup库用法总结
1. Beautiful Soup 简介简单来说,Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据.官方解释如下: Beautiful Soup提供一些简单的.pyt ...
Python BeautifulSoup库的用法
BeautifulSoup是一个可以从HTML或者XML文件中提取数据的Python库,它通过解析器把文档解析为利于人们理解的文档导航模式,有利于查找和修改文档. BeautifulSoup3目前已经 ...
Python爬虫-- BeautifulSoup库
BeautifulSoup库 beautifulsoup就是一个非常强大的工具,爬虫利器.一个灵活又方便的网页解析库,处理高效,支持多种解析器.利用它就不用编写正则表达式也能方便的实现网页信息的抓取 ...
Python爬虫小白入门（三）BeautifulSoup库
# 一.前言 *** 上一篇演示了如何使用requests模块向网站发送http请求,获取到网页的HTML数据.这篇来演示如何使用BeautifulSoup模块来从HTML文本中提取我们想要的数据. ...
python爬虫从入门到放弃（六）之 BeautifulSoup库的使用
上一篇文章的正则,其实对很多人来说用起来是不方便的,加上需要记很多规则,所以用起来不是特别熟练,而这节我们提到的beautifulsoup就是一个非常强大的工具,爬虫利器. beautifulSoup ...
python爬虫学习之使用BeautifulSoup库爬取开奖网站信息-模块化
实例需求:运用python语言爬取http://kaijiang.zhcw.com/zhcw/html/ssq/list_1.html这个开奖网站所有的信息,并且保存为txt文件和excel文件. 实 ...
python下载安装BeautifulSoup库
python下载安装BeautifulSoup库 1.下载https://www.crummy.com/software/BeautifulSoup/bs4/download/4.5/ 2.解压到解压 ...
python爬虫学习(一)：BeautifulSoup库基础及一般元素提取方法
最近在看爬虫相关的东西,一方面是兴趣,另一方面也是借学习爬虫练习python的使用,推荐一个很好的入门教程:中国大学MOOC的<python网络爬虫与信息提取>,是由北京理工的副教授嵩天老 ...
python库：bs4，BeautifulSoup库、Requests库
Beautiful Soup https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/ Beautiful Soup 4.2.0 文档 htt ...

随机推荐

$.ajax.html
<!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <link rel= ...
sqlite复制表
(1)复制表,并把原表的所有记录都复制到新表里. CREATE TABLE newTb AS SELECT * FROM oldTb (2)只复制表结构,不复制数据到新表里. 注:该语句无法复制关键 ...
Mongoose 基本用法
1. SchemaTypes数据类型数据类型描述 String 字符串 Number 数字 Date 日期 Boolean 布尔值 Mixed 混合 Objectid 对象ID Array 数组 ...
通俗地说逻辑回归【Logistic regression】算法（一）
在说逻辑回归前,还是得提一提他的兄弟,线性回归.在某些地方,逻辑回归算法和线性回归算法是类似的.但它和线性回归最大的不同在于,逻辑回归是作用是分类的. 还记得之前说的吗,线性回归其实就是求出一条拟合空 ...
高频Linux命令小结（新手向）
示例代码托管在:http://www.github.com/dashnowords/blogs 博客园地址:<大史住在大前端>原创博文目录华为云社区地址:[你要的前端打怪升级指南] 近期 ...
《Effective Java》读书笔记（二）在构造参数过多的时候优先考虑使用构造器
刚开始看见这个标题的时候,我想到了python可以选择初始化参数的语法,C++.C#能有默认参数. 为什么Java什么都没有~~ 好吧,我们是使用构造器来实现它. 1.当一个类的构造函数需要很多构造函 ...
iOS：探究视图控制器的转场动画
一.介绍在iOS开发中,转场动画的使用无处不见,不只是我们自己更多的使用UIViewblock动画实现一个转场动画,其实,在我们实现VC控制器跳转的时候都是转场动画的实现,例如标签栏控制器的切换.模 ...
NOIP模拟 14
垃圾成绩,一点都不稳定. 如果把数组开小的分得到的话..总分还挺不错.. 那又能怪谁,都快NOIP了还犯这种傻逼错误 nc哥是要阿卡的节奏..真是太强了某kyh也不知道偷了谁的rp,分高的一批 wd ...
【并发编程】ThreadLocal其实很简单
什么是ThreadLocal ThreadLocal有点类似于Map类型的数据变量.ThreadLocal类型的变量每个线程都有自己的一个副本,某个线程对这个变量的修改不会影响其他线程副本的值.需要注 ...
01-MyBatis启动流程分析
目录 MyBatis简单介绍启动流程分析简单总结附录 MyBatis内置别名转换参考 MyBatis简单介绍 MyBatis是一个持久层框架,使用简单,学习成本较低.可以执行自己手写的SQL语 ...

Python-beautifulsoup库

Python-beautifulsoup库的更多相关文章

随机推荐

热门专题