Python for Infomatics 第12章网络编程四（译）

注：文章原文为Dr. Charles Severance 的《Python for Informatics》。文中代码用3.4版改写，并在本机测试通过。

12.7 用BeautifulSoup分析HTML

　　有很多Python库可以帮你分析HTML和抓取数据。每个库都有它们各自的强项和弱点，你可以基于你的需求选择一个。

　　下面的例子，我们将使用BeautifulSoup来分析一些HTML的输入，并抓取链接信息。你可以从www.crummy.com下载和安装BeautifulSoup代码。你可以在下载后安装它，或者简单的把BeautifulSoup.py文件放到和你应用程序同样的目录下。（译者选择的另一种安装方法：pip3 install BeautiflSoup4）

　　虽然HTML看起来像XML，一些页面还是仔细构建的XML。很多HTML的分析因为不正确格式引起XML分析器拒绝整个网页而中断。BeautifulSoup可以容忍有严重缺陷的HTML，还可以让你轻松提取你所需要的数据。我们将用urllib读取网页，然后使用BeautifulSoup抓取锚标签（a）的href属性。

　　具体的代码如下：

from bs4 import BeautifulSoup

import urllib.request

url = input('Enter - ')

html = urllib.request.urlopen(url).read()

soup = BeautifulSoup(html,"html.parser")

tags = soup('a')

for tag in tags:

    print(tag.get('href', None))

　　程序提示输入一个网页地址，然后打开这个网页，读取数据，并将数据传送给BeautifulSoup分析器，然后获取所有锚标签(a)的内容，打印出每个标签的属性。

　　程序运行后的输出如下：

Enter - http://www.py4inf.com/book.htm
http://amzn.to/1KkULF3
http://amzn.to/1KkULF3
http://amzn.to/1hLcoBy
http://amzn.to/1KkV42z
http://amzn.to/1fNOnbd
http://amzn.to/1N74xLt
http://do1.dr-chuck.net/py4inf/EN-us/book.pdf
http://do1.dr-chuck.net/py4inf/ES-es/book.pdf
https://twitter.com/fertardio
translations/KO/book_009_ko.pdf
http://www.xwmooc.net/python/
http://fanwscu.gitbooks.io/py4inf-zh-cn/
book_270.epub
translations/ES/book_272_es4.epub
https://www.gitbook.com/download/epub/book/fanwscu/py4inf-zh-cn
html-270/
html_270.zip
http://itunes.apple.com/us/book/python-for-informatics/id554638579?mt=13
http://www-personal.umich.edu/~csev/books/py4inf/ibooks//python_for_informatics.ibooks
http://www.py4inf.com/code
http://www.greenteapress.com/thinkpython/thinkCSpy/
http://allendowney.com/

　　你可以用BeautifulSoup 拉出每个标签的不同部分，具体代码如下：

from bs4 import BeautifulSoup

import urllib.request

url = input('Enter - ')

html = urllib.request.urlopen(url).read()

soup = BeautifulSoup(html,"html.parser")

tags = soup('a')

for tag in tags:

    print('TAG:', tag)

    print('URL:', tag.get('href', None)

    print('Content:', tag.contents[0])

    print('Attrs:', tag.attrs)

　　这个程序的输出如下：

Enter - http://www.dr-chuck.com/page1.html
TAG: <a href="http://www.dr-chuck.com/page2.htm">
Second Page</a>
URL: http://www.dr-chuck.com/page2.htm
Content:
Second Page
Attrs: {'href': 'http://www.dr-chuck.com/page2.htm'}

　　这个例子只是显示BeautifulSoup分析HTML力量的入门。想要了解更多的信息，请查看www.crummy.com的文档和示例。

Python for Infomatics 第12章网络编程四（译）的更多相关文章

Python for Infomatics 第12章网络编程一（译）
注:文章原文为Dr. Charles Severance 的 <Python for Informatics>.文中代码用3.4版改写,并在本机测试通过. 本书中的许多例子关注的是读取文件 ...
Python for Infomatics 第12章网络编程六（译）
注:文章原文为Dr. Charles Severance 的 <Python for Informatics>.文中代码用3.4版改写,并在本机测试通过. 12.9 词汇表 Beautif ...
Python for Infomatics 第12章网络编程五（译）
注:文章原文为Dr. Charles Severance 的 <Python for Informatics>.文中代码用3.4版改写,并在本机测试通过. 12.8 用urllib读取二进 ...
Python for Infomatics 第12章网络编程三（译）
注:文章原文为Dr. Charles Severance 的 <Python for Informatics>.文中代码用3.4版改写,并在本机测试通过. 12.5 HTML分析和网页抓取 ...
Python for Infomatics 第12章网络编程二（译）
注:文章原文为Dr. Charles Severance 的 <Python for Informatics>.文中代码用3.4版改写,并在本机测试通过. 12.3 用HTTP协议获取一张 ...
python之路（12）网络编程
前言基于网络通信(AF_INET)的socket(套接字)实现了TCP/UDP协议目录基于TCP协议的socket 基于UDP协议的socket TCP协议下粘包现象及处理使用socketse ...
Python for Infomatics 第13章网页服务四（译）
这几天因为其他事务,打断了自己的学习计划,今天继续我的翻译,避免又中途而废. 注:文章原文为Dr. Charles Severance 的 <Python for Informatics> ...
CSAPP：第十一章网络编程
CSAPP:第十一章网络编程 11.1 客户端服务器模型11.2 全球IP因特网11.3 套接字接口 11.1 客户端服务器模型每个网络应用都是基于客户端-服务器模型.采用这个模型,一个应用是 ...
Python学习day34-面向对象和网络编程总结
figure:last-child { margin-bottom: 0.5rem; } #write ol, #write ul { position: relative; } img { max- ...

随机推荐

win8.1系统的安装方法详细图解教程
win8.1系统的安装方法详细图解教程关于win8.1系统的安装其实很简单但是有的童鞋还不回所以今天就抽空做了个详细的图解教程, 安装win8.1系统最好用U盘安装,这样最方便简单而且系统安装 ...
HTTP超文本传输协议-HTTP/1.1中文版
摘要超文本传输协议(HTTP)是一种为分布式,合作式,多媒体信息系统服务,面向应用层的协议.它是一种通用的,不分状态(stateless)的协议,除了诸如名称服务和分布对象管理系统之类的超文本用途外 ...
jquery扫尾
blur和change事件的先后 change事件, 是要在失去焦点之后, 才和初始状态的值相比较, 如果在得到焦点等情况下, 你是无法和最后状态相比较等. 在失去焦点后, 首先触发等是change事 ...
passive 的事件监听器
很久以前,addEventListener() 的参数约定是这样的: addEventListener(type, listener, useCapture) 后来,最后一个参数,也就是控制监听器是在 ...
Android 网络编程
HttpClient 发送get请求创建一个客户端对象 HttpClient client = new DefaultHttpClient(); 创建一个get请求对象 HttpGet hg = n ...
JAVA关键字与保留字说明及使用
1.abstract 2.boolean 3.break 4.byte 5.case 6.catch 7.char 8.class 9.continue 10.default 11.do 12.dou ...
练习：使用nmcli 配置网络连接
显示所有连接 # nmcli con show 显示活动连接的所有配置信息 # nmcli con show "System eth0" --->引号内为连接的网卡名称显示 ...
UIScrollView和控制器
一般情况下,就设置UIScrollView所在的控制器为 UIScrollView的delegate 设置控制器为UIScrollView的delegate有2种方法: 通过代码(self就是控制器 ...
Private-code MaxCounter
No need for a double cycle: : You are given N counters, initially set to 0, and you have two possibl ...
MSSQL-to-MySQL v5.3, 从MSSQL迁移到mySQL的最佳工具
将现有的MSSQL数据库迁移到MySQL数据库,尝试了很多种工具 MySQL Workbench / MSSQL to MySQL Export / DB Converter / openDBcopy ...

Python for Infomatics 第12章 网络编程四（译）

Python for Infomatics 第12章 网络编程四（译）的更多相关文章

随机推荐

热门专题

Python for Infomatics 第12章网络编程四（译）

Python for Infomatics 第12章网络编程四（译）的更多相关文章