安装：pip install BeautifulSoup4

下表列出了主要的解析器,以及它们的优缺点:看个人习惯选取自己喜欢的解析方式

 # 获取html代码

 import requests

 r = requests.get('http://www.python123.io/ws/demo.html')

 demo = r.text

 from bs4 import BeautifulSoup

 soup = BeautifulSoup(demo,'html.parser')

 print(soup.prettify()) #按照标准的缩进格式的结构输出，代码如下

 <html>

  <head>

   <title>

    This is a python demo page

   </title>

  </head>

  <body>

   <p class="title">

    <b>

     The demo python introduces several python courses.

    </b>

   </p>

   <p class="course">

    Python is a wonderful general-purpose programming language. You can learn Python from novice to professional by tracking the following courses:

    <a class="py1" href="http://www.icourse163.org/course/BIT-268001" id="link1">

     Basic Python

    </a>

    and

    <a class="py2" href="http://www.icourse163.org/course/BIT-1001870001" id="link2">

     Advanced Python

    </a>

    .

   </p>

  </body>

 </html>

简单浏览数据化方法的用法

#demo的源代码

html_d="""

<html><head><title>This is a python demo page</title></head>

<body>

<p class="title"><b>The demo python introduces several python courses.</b></p>

<p class="course">Python is a wonderful general-purpose programming language. You can learn Python from novice to professional by tracking the following courses:

<a href="http://www.icourse163.org/course/BIT-268001" class="py1" id="link1">Basic Python</a> and <a href="http://www.icourse163.org/course/BIT-1001870001" class="py2" id="link2">Advanced Python</a>.</p>

</body></html>

"""

from bs4 import BeautifulSoup

soup=BeautifulSoup(html_d,'html.parser')

# 获取title标签

print(soup.title)

#获取文本内容

print(soup.text)

#获取标签名称

print(soup.title.name)

#获取标签属性

print(soup.title.attrs)

#获取head标签的子节点

print(soup.p.contents)

print(soup.p.children)

#获取所有的a标签

print(soup.find_all('a'))

常用解析方法

#demo的源代码

html_d="""

<html><head><title>This is a python demo page</title></head>

<body>

<p class="title"><b>The demo python introduces several python courses.</b></p>

<p class="course">Python is a wonderful general-purpose programming language. You can learn Python from novice to professional by tracking the following courses:

<a href="http://www.icourse163.org/course/BIT-268001" class="py1" id="link1">Basic Python</a> and <a href="http://www.icourse163.org/course/BIT-1001870001" class="py2" id="link2">Advanced Python</a>.</p>

</body></html>

"""

from bs4 import BeautifulSoup

soup = BeautifulSoup(html_d,"lxml")

#p下面所有的子节点

print(soup.p.contents)

soup.contents[0].name

#children本身没有子节点，得到一个迭代器,包含p下所有子节点

print(soup.p.children)

for child in enumerate(soup.p.children):

    print(child)

#子孙节点p下面所有的标签都会出来

print(soup.p.descendants)

for i in enumerate(soup.p.children):

  print(i)

# string 下面有且只有一个子节皆可以取出，如有多个字节则返回为none

print(soup.title.string)

# strings 如果有多个字符串

for string in soup.strings:

    print(repr(string))

#去掉空白

for line in soup.stripped_strings:

    print(line)

#获取a标签的父节点

print(soup.a.parent)

#找到a标签的父辈节点

print(soup.a.parents)

#兄弟节点

print(soup.a.next_sibling) #同一个兄弟

print(soup.a.next_sibling) #上一个兄弟

print(soup.a.next_sibling) #下一个兄弟

find_all的用法( name, attrs, recursive, text, **kwargs)

import re
from bs4 import BeautifulSoup
soup = BeautifulSoup(html_d,"lxml")
# name
for tag in soup.find_all(re.compile('b')):
print(tag.name)
#attrs
print(soup.find_all('p','course'))
#keyword
print(soup.find_all(id='link1'))
#recursive
# print(soup.find_all('a',recursive=False))
# string
# print(soup.find_all(string=re.compile('python')))

小案例

import requests

from bs4 import BeautifulSoup

import bs4

#获取URL里面信息

def getHtmlText(url):

    try:

        r= requests.get(url,timeout=30 )

        r.encoding=r.apparent_encoding

        return r.text

    except:

      return ""

#提起网页数据

def fillunivList(ulist,html):

    soup = BeautifulSoup(html,"html.parser")

    for tr in soup.find('tbody').children:

        if isinstance(tr,bs4.element.Tag):

            tds = tr('td')

            ulist.append([tds[0].string,tds[1].string,tds[2].string,tds[3].string])

    pass

#打印数据结果

def printUnivList(ulist,num):

    # tplt = "{0:^10}\t{1:{3}^10}\t{2:^10}\t{:^10}"

    # print(tplt.format('排名', '学校名称', '省份','总分',chr(12288)))

    # for i in range(num):

    #     u = ulist[i]

    #     print(tplt.format(u[0], u[1], u[2],u[3],chr(12288)))

    print("{:^10}\t{:^6}\t{:^10}\t{:^10}".format('排名', '学校名称', '地区', '总分'))

    for i in range(num):

         u = ulist[i]

         print("{:^10}\t{:^6}\t{:^10}\t{:^10}".format(u[0], u[1], u[2], u[3]))

    return

def main():

    unifo = []

    url = 'http://www.zuihaodaxue.cn/zuihaodaxuepaiming2019.html'

    html = getHtmlText(url)

    fillunivList(unifo,html)

    printUnivList(unifo,20) #打印前20所

main()

爬虫之BeautifulSoup类的更多相关文章

爬虫模块BeautifulSoup
中文文档:https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html# 1.1 安装BeautifulSoup模块 ...
BeautifulSoup类
from bs4 import BeautifulSoup soup1 = BeautifulSoup("<html>data</html>"," ...
使用Python爬虫库BeautifulSoup遍历文档树并对标签进行操作详解（新手必学）
为大家介绍下Python爬虫库BeautifulSoup遍历文档树并对标签进行操作的详细方法与函数下面就是使用Python爬虫库BeautifulSoup对文档树进行遍历并对标签进行操作的实例,都是最 ...
【Python爬虫】BeautifulSoup网页解析库
BeautifulSoup 网页解析库阅读目录初识Beautiful Soup Beautiful Soup库的4种解析器 Beautiful Soup类的基本元素基本使用标签选择器节点操作 ...
爬虫笔记之刷小怪练级：yymp3爬虫（音乐类爬虫）
一.目标爬取http://www.yymp3.com网站歌曲相关信息,包括歌曲名字.作者相关信息.歌曲的音频数据.歌曲的歌词数据. 二.分析 2.1 歌曲信息.歌曲音频数据下载地址的获取随便打开一 ...
爬虫之 BeautifulSoup与Xpath
知识预览 BeautifulSoup xpath BeautifulSoup 一简介简单来说,Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据.官方解释如下: '' ...
Python 爬虫—— requests BeautifulSoup
本文记录下用来爬虫主要使用的两个库.第一个是requests,用这个库能很方便的下载网页,不用标准库里面各种urllib:第二个BeautifulSoup用来解析网页,不然自己用正则的话很烦. req ...
python爬虫之BeautifulSoup
爬虫有时候写正则表达式会有假死现象就是正则表达式一直在进行死循环查找例如:https://social.msdn.microsoft.com/forums/azure/en-us/3f4390ac ...
Python开发爬虫之BeautifulSoup解析网页篇：爬取安居客网站上北京二手房数据
目标:爬取安居客网站上前10页北京二手房的数据,包括二手房源的名称.价格.几室几厅.大小.建造年份.联系人.地址.标签等. 网址为:https://beijing.anjuke.com/sale/ B ...

随机推荐

限制IP每分钟访问10次
转载:https://www.jianshu.com/p/d1326ab657ff IP请求限制,之前用过redis的set设置时间戳一分钟过期:也用过nginx的IP限流配置.前者,没法解决“用户在 ...
一、美国国家经济研究局NBER教育经济研究项目工作论文合集
一.美国国家经济研究局NBER教育经济研究项目工作论文合集 (一)项目地址: American National Bureau of Economic Research - Economics of ...
Node.js知识点详解（一）基础部分
转自:http://segmentfault.com/a/1190000000728401 模块 Node.js 提供了exports 和 require 两个对象,其中 exports 是模块公开的 ...
探索真实事物的虚拟再现——微软亚洲研究院SIGGRAPH Asia 2014精彩入选论文赏析
Asia 2014精彩入选论文赏析" title="探索真实事物的虚拟再现--微软亚洲研究院SIGGRAPH Asia 2014精彩入选论文赏析"> SIGGRAP ...
printf 输出浮点数
在测试printf函数输出结果时,写了如下代码: /** * printf:格式化输出函数 * printf函数不会按照格式控制而对数据类型进行转换,不管三七二十一, * 抓到二进制数据就按照格式控制 ...
vue-cli多页面应用常遇到的问题
1.TypeError: webpack.optimize.OccurenceOrderPlugin is not a constructor 此问题出现在webpack 3中,解决办法很简单,将oc ...
VRRP笔记二:配置keepalived为实现haproxy高可用的配置文件示例
! Configuration File for keepalived global_defs { notification_email { linuxedu@foxmail.com mageedu@ ...
（七）spring+druid多数据源配置
druid多数据源配置一.druid简介 Druid首先是一个数据库连接池,但它不仅仅是一个数据库连接池,它还包含一个ProxyDriver,一系列内置的JDBC组件库,一个SQL Parser. ...
docker实践-安装wordpress
很多人都有搭建wordpress的经历,可能被某些环境的配置搞得焦头乱耳的,这里使用docker,可以很轻松的进行wordpress的搭建工作. 安装 Docker sudo apt-get inst ...
numpy的基础计算2
import numpy as np A = np.arange(14,2,-1).reshape((3,4)) #平均值 print(np.mean(A)) print(A.mean()) prin ...

爬虫之BeautifulSoup类

下表列出了主要的解析器,以及它们的优缺点:看个人习惯选取自己喜欢的解析方式

简单浏览数据化方法的用法

常用解析方法

小案例

爬虫之BeautifulSoup类的更多相关文章

随机推荐

热门专题