注:文章原文为Dr. Charles Severance 的 《Python for Informatics》。文中代码用3.4版改写,并在本机测试通过。

  本书中的许多例子关注的是读取文件并查找数据,但在互联网中还有许多不同信息源。

  本章我们将伪装成浏览器用超文本传送协议(HTTP)从网站获取网页,通读并分析它。

12.1 超文本传送协议-HTTP

  支撑网页运转的网络协议实际非常简单,在Python中内置了套接字(socket)模块,使得使用套接字创建网络连接并获取数据变得非常容易。

  套接字最很像文件,可以对它进行读写,但它还提供在两个程序间进行双向连接。如果你向套接字写信息,它将把信息发送另一端程序对应的套接字上,如果你读取信息,你得到的将是对端程序发送的信息。

  但是当你在对端未发送信息时去读套接字,那么你就只有坐干等了。如果两端的套接字都在接收数据而未发送数据,那么它们将等上很长一段时间。
  所以程序中用于互联网通信的重要部分必须有某种协议。协议是一个定义谁先发、发的消息要干什么、怎么响应这个消息、谁接着发等的准确规则的集合。在某种意义上,两端应用程序好像在跳舞,并且确保不要踩到对方的脚趾上。

  关于这些网络协议的文档有很多,超文本传送协议RFC2616链接如下:

http://www.w3.org/Protocols/rfc2616/rfc2616.txt

  这个176页又长又复杂的文档有很多细节信息,如果你感兴趣你可以通读它。如果你翻看第36页,你会发现GET请求的语法。你仔细阅读,你会发现从一个网站请求获取一个文档,我们需要先和网站建立套接字连接,然后再发送GET请求。例如我们在80端口和www.py4inf.com服务器建立连接,然后发送以下格式的请求:

GET http://www.py4inf.com/code/romeo.txt HTTP/1.0

  其中第二个参数是我们请求的网页,然后我们再发送一个空行。网页服务器将响应发送这个网页的头信息、文档内容和一个紧跟其后的空行。

 12.2 世界上最简单的浏览器

  也许显示HTTP协议如何工作的最简单方法就是写一个非常简单的Python程序,它将和网页服务器建立连接,并遵循HTTP协议规则,请求一个文档,然后在服务器送回后进行显示。代码如下:

import socket
mysock = socket.socket(socket.AF_INET, socket.SOCKET_STREAM)
mysock.connect(('www.py4inf.com', 80))
mysock.send(b'Get http://www.py4inf.com/code/romeo.txt HTTP/1.0\n\n')
while True:
data = mysock.recv(512).decode('utf-8')
if (len(data) < 1):
break
print (data)
mysock.close()

  首先这个程序和www.py4inf.com服务器在80端口建立了一个连接。因为我们的程序扮演的是网页浏览器的角色,所以HTTP协议说我们必须发送GET命令,并发送一个空行结束命令。

  等我们完成发送,我们循环从socket接收512个字符块,并打印出数据,直至读不到数据为止(即:rev()方法返回一个空字符串)。

  程序的输出如下:

HTTP/1.1 200 OK
Date: Fri, 22 Apr 2016 15:21:42 GMT

Server: Apache

Last-Modified: Fri, 04 Dec 2015 19:05:04 GMT

ETag: "e103c2f4-a7-526172f5b5d89"

Accept-Ranges: bytes

Content-Length: 167

Cache-Control: max-age=604800, public

Access-Control-Allow-Origin: *

Access-Control-Allow-Headers: origin, x-requested-with, content-type

Access-Control-Allow-Methods: GET

Connection: close

Content-Type: text/plain

But soft what light through yonder window breaks
It is the east and Juliet is the sun
Arise fai
r sun and kill the envious moon
Who is already sick and pale with grief

  输出的开头是网页服务器发送的描述这个文档的头信息。例如内容类型头表示这个文档时纯文本文件(text/plain)。

  在头文件之后,服务器发送了一个空行,表示头文件结束。然后发送romeo.txt的实际数据。

  这个例子展示了如何用套接字创建一个底层的网络连接。套接字可以和网页服务器、邮件服务器或其它许多类型的服务器通信。你要做就是找到描述这个协议的文档,然后依据协议编写发送和接收的代码。

  因为我们用得最多的是HTTP协议,所以在Python有一个专门设计用来支持HTTP协议的特定库,用来检索网上的文档和数据。
  下一节将介绍这个库。

Python for Infomatics 第12章 网络编程一(译)的更多相关文章

  1. Python for Infomatics 第12章 网络编程六(译)

    注:文章原文为Dr. Charles Severance 的 <Python for Informatics>.文中代码用3.4版改写,并在本机测试通过. 12.9 词汇表 Beautif ...

  2. Python for Infomatics 第12章 网络编程五(译)

    注:文章原文为Dr. Charles Severance 的 <Python for Informatics>.文中代码用3.4版改写,并在本机测试通过. 12.8 用urllib读取二进 ...

  3. Python for Infomatics 第12章 网络编程四(译)

    注:文章原文为Dr. Charles Severance 的 <Python for Informatics>.文中代码用3.4版改写,并在本机测试通过. 12.7 用BeautifulS ...

  4. Python for Infomatics 第12章 网络编程三(译)

    注:文章原文为Dr. Charles Severance 的 <Python for Informatics>.文中代码用3.4版改写,并在本机测试通过. 12.5 HTML分析和网页抓取 ...

  5. Python for Infomatics 第12章 网络编程二(译)

    注:文章原文为Dr. Charles Severance 的 <Python for Informatics>.文中代码用3.4版改写,并在本机测试通过. 12.3 用HTTP协议获取一张 ...

  6. python之路(12)网络编程

    前言 基于网络通信(AF_INET)的socket(套接字)实现了TCP/UDP协议 目录 基于TCP协议的socket 基于UDP协议的socket TCP协议下粘包现象及处理 使用socketse ...

  7. CSAPP:第十一章 网络编程

    CSAPP:第十一章 网络编程 11.1 客户端服务器模型11.2 全球IP因特网11.3 套接字接口 11.1 客户端服务器模型   每个网络应用都是基于客户端-服务器模型.采用这个模型,一个应用是 ...

  8. Python学习day34-面向对象和网络编程总结

    figure:last-child { margin-bottom: 0.5rem; } #write ol, #write ul { position: relative; } img { max- ...

  9. 《深入浅出Node.js》第7章 网络编程

    @by Ruth92(转载请注明出处) 第7章 网络编程 Node 只需要几行代码即可构建服务器,无需额外的容器. Node 提供了以下4个模块(适用于服务器端和客户端): net -> TCP ...

随机推荐

  1. OpenGL Common Mistakes

    https://www.opengl.org/wiki/Common_Mistakes Do not use constructors/destructors to initialize/destro ...

  2. 如何刷新或清除HttpURLConnection的连接缓存

    项目需要定期与远程服务器同步数据,基于如下代码: URL url = new URL("http://test.com/sales/info"); connection = (Ht ...

  3. 2015.4.24 移动端,chrome不兼容或无法运行的一些具体问题

    1.table内input,把它的边框和focus边框都变成透明,在ff可行,但是chrome会有样式,怎么解决? 解决方法:border:none;outline:0; 2.如下代码,css3动画在 ...

  4. 微信小程序开发视频教程新鲜出炉

    微信小程序开发公测了,可是对于新手来说,不同的框架不同的开发机制,如何快速适应呢?微信小程序开发视频教程新鲜出炉了,从零开始一步一步搭建微信小程序,每个章节都会涉及到不同的知识点,等教程学习完你不但掌 ...

  5. 自写网站入门阶段之三:兼容大战与jq初探

    自上一次作小结至今已整整一个月,在忙乎了半个月的工作之后闲下来的一个下午我终于可以再次作这个阶段的小结了.首先庆幸的是在同学的推荐下我顺利的找到了工作并于月初3号正式上班,这一点非常感谢他,让我免去了 ...

  6. SVN版本控制与分支设置

    使用SVN+Eclipse做软件版本控制. (2009年5月) 1,SVN目录结构 Trunk : 主干目录,此目录下的文件为基准文件 Branches : 用于开发的分支目录 Tags : 用于发布 ...

  7. MySQL索引的设计和使用

    一.索引可以有效地提升SELECT操作的性能,同时会影响UPDATE.CREATE和DELETE操作的性能.每种引擎对于表的索引有数量和长度的限制. 二.索引的设计原则 (A) 搜索的索引列,不一定是 ...

  8. BZOJ4551——[Tjoi2016&Heoi2016]树

    1.题意: 给定一颗有根树(根为1),有以下 两种操作:1. 标记操作:对某个结点打上标记(在最开始,只有结点1有标记,其他结点均无标记,而且对于某个 结点,可以打多次标记.)2. 询问操作:询问某个 ...

  9. js parseInt 显示0

    parseInt 有第二个参数, 就是进制参数 parseInt("08", 10);  //表示这个数字是十进制的就不会出错了.

  10. git 教程(13)--创建与合并分支

    在版本回退里,你已经知道,每次提交,Git都把它们串成一条时间线,这条时间线就是一个分支.截止到目前,只有一条时间线,在Git里,这个分支叫主分支,即master分支.HEAD严格来说不是指向提交,而 ...