【Python】Webpy 源码学习

那么webpy是什么呢？阅读它的源码我们又能学到什么呢？

简单说webpy就是一个开源的web应用框架（官方首页：http://webpy.org/）

它的源代码非常整洁精干，学习它一方面可以让我们快速了解python语法（遇到看不懂的语法就去google），另一方面可以学习到python高级特性的使用（譬如反射，装饰器），而且在webpy中还内置了一个简单HTTP服务器（文档建议该服务器仅用于开发环境，生产环境应使用apache之类的），对于想简单了解下HTTP服务器实现的朋友来说，这个是再好不过的例子了（并且在这个服务器代码中，还可以学习到线程池，消息队列等技术），除此之外webpy还包括模板渲染引擎，DB框架等等，这里面的每一个部分都可以单独拿出来学习.

在JavaWeb开发中有Servlet规范，那么Python Web开发中有规范吗？
答案就是：WSGI，它定义了服务器如何与你的webapp交互

关于WSGI规范，可以参看下面这个链接：
http://ivory.idyll.org/articles/wsgi-intro/what-is-wsgi.html

现在我们利用webpy内置的WSGIServer，按照WSGI规范，写一个简单的webapp，eg:

#/usr/bin/python
import web.wsgiserver
def my_wsgi_app(env, start_response):
status = '200 OK'
response_headers = [('Content-type','text/plain')]
start_response(status, response_headers)
return ['Hello world!']
server = web.wsgiserver.CherryPyWSGIServer(("127.0.0.1", 8080), my_wsgi_app);
server.start()

执行代码：

在具体看WSGIServer代码之前，我们先看一幅图，这幅图概述了WSGIServer内部执行流程：

接下来我们看下代码，ps: 为了较清晰的梳理主干流程，我只列出核心代码段

# Webpy内置的WSGIServer
class CherryPyWSGIServer(HTTPServer):
def __init__(self, bind_addr, wsgi_app, numthreads=10, server_name=None,
max=-1, request_queue_size=5, timeout=10, shutdown_timeout=5):
# 线程池(用来处理外部请求，稍后详述)
self.requests = ThreadPool(self, min=numthreads or 1, max=max)
# 响应外部请求的webapp
self.wsgi_app = wsgi_app
# wsgi网关（http_request ->wsgi_gateway ->webpy/webapp)
self.gateway = WSGIGateway_10
# wsgi_server监听地址
self.bind_addr = bind_addr
# ...
class HTTPServer(object):
# 启动一个网络服务器
# 如果你阅读过<<Unix网络编程>>，那么对于后面这些代码将会再熟悉不过,唯一的区别一个是c，
#一个是python
def start(self):
# 如果bind_addr是一个字符串（文件名），那么采用unix domain协议
if isinstance(self.bind_addr, basestring):
try: os.unlink(self.bind_addr)
except: pass
info = [(socket.AF_UNIX, socket.SOCK_STREAM, 0, "", self.bind_addr)]
else:
# 否则采用TCP/IP协议
host, port = self.bind_addr
try:
info = socket.getaddrinfo(host, port, socket.AF_UNSPEC,
socket.SOCK_STREAM, 0, socket.AI_PASSIVE)
except socket.gaierror:
# ...
# 循环测试 getaddrinfo函数返回值，直到有一个bind成功或是遍历完所有结果集
for res in info:
af, socktype, proto, canonname, sa = res
try:
self.bind(af, socktype, proto)
except socket.error:
if self.socket:
self.socket.close()
self.socket = None
continue
break
if not self.socket:
raise socket.error(msg)
# 此时socket 进入listening状态（可以用netstat命令查看）
self.socket.listen(self.request_queue_size)
# 启动线程池（这个线程池做些什么呢？稍后会说）
self.requests.start()
self.ready = True
while self.ready:
# HTTPSever核心函数，用来接受外部请求(request)
# 然后封装成一个HTTPConnection对象放入线程池中的消息队列里，
# 接着线程会从消息队列中取出该对象并处理
self.tick()
def bind(self, family, type, proto=0):
# 创建socket
self.socket = socket.socket(family, type, proto)
# 设置socket选项(允许在TIME_WAIT状态下，bind相同的地址)
self.socket.setsockopt(socket.SOL_SOCKET, socket.SO_REUSEADDR, 1)
# socket bind
self.socket.bind(self.bind_addr)
# HTTPSever核心函数
def tick(self):
try:
# 接受一个TCP连接
s, addr = self.socket.accept()
# 把外部连接封装成一个HTTPConnection对象
makefile = CP_fileobject
conn = self.ConnectionClass(self, s, makefile)
# 然后把该对象放入线程池中的消息队列里
self.requests.put(conn)
except :
# ...

之前我们说过HTTPServer中的request属性是一个线程池(这个线程池内部关联着一个消息队列)，现在我们看看作者是如何实现一个线程池的：

class ThreadPool(object):
def __init__(self, server, min=10, max=-1):
# server实例
self.server = server
# 线程池中线程数配置（最小值，最大值）
self.min = min
self.max = max
# 线程池中的线程实例集合（list）
self._threads = []
# 消息队列（Queue是一个线程安全队列）
self._queue = Queue.Queue()
# 编程技巧，用来简化代码，等价于：
# def get(self)
# return self._queue.get()
self.get = self._queue.get
# 启动线程池
def start(self):
# 创建min个WorkThread并启动
for i in range(self.min):
self._threads.append(WorkerThread(self.server))
for worker in self._threads:
worker.start()
# 把obj(通常是一个HTTPConnection对象)放入消息队列
def put(self, obj):
self._queue.put(obj)
# 在不超过允许创建线程的最大数下，增加amount个线程
def grow(self, amount):
for i in range(amount):
if self.max > 0 and len(self._threads) >= self.max:
break
worker = WorkerThread(self.server)
self._threads.append(worker)
worker.start()
# kill掉amount个线程
def shrink(self, amount):
# 1.kill掉已经不在运行的线程
for t in self._threads:
if not t.isAlive():
self._threads.remove(t)
amount -= 1
# 2.如果已经kill掉线程数小于amount，则在消息队列中放入线程退出标记对象_SHUTDOWNREQUEST
# 当线程从消息队列中取到的不是一个HTTPConnection对象，而是一个_SHUTDOWNREQUEST，则退出运行
if amount > 0:
for i in range(min(amount, len(self._threads) - self.min)):
self._queue.put(_SHUTDOWNREQUEST)
# 工作线程WorkThread
class WorkerThread(threading.Thread):
def __init__(self, server):
self.ready = False
self.server = server
# ...
threading.Thread.__init__(self)
def run(self):
# 线程被调度运行，ready状态位设置为True
self.ready = True
while True:
# 尝试从消息队列中获取一个obj
conn = self.server.requests.get()
# 如果这个obj是一个“退出标记”对象，线程则退出运行
if conn is _SHUTDOWNREQUEST:
return
# 否则该obj是一个HTTPConnection对象，那么线程则处理该请求
self.conn = conn
try:
# 处理HTTPConnection
conn.communicate()
finally:
conn.close()

刚才我们看到，WorkThread从消息队列中获取一个HTTPConnection对象，然后调用它的communicate方法，那这个communicate方法究竟做了些什么呢？

class HTTPConnection(object):
RequestHandlerClass = HTTPRequest
def __init__(self, server, sock, makefile=CP_fileobject):
self.server = server
self.socket = sock
# 把socket对象包装成类File对象，使得对socket读写就像对File对象读写一样简单
self.rfile = makefile(sock, "rb", self.rbufsize)
self.wfile = makefile(sock, "wb", self.wbufsize)
def communicate(self):
# 把HTTPConnection对象包装成一个HTTPRequest对象
req = self.RequestHandlerClass(self.server, self)
# 解析HTTP请求
req.parse_request()
# 响应HTTP请求
req.respond()

在我们具体看HTTPRequest.parse_request如何解析HTTP请求之前，我们先了解下HTTP协议. HTTP协议是一个文本行的协议，它通常由以下部分组成：

引用

请求行（请求方法 URI路径 HTTP协议版本）
请求头（譬如：User-Agent，Host等等）
空行
可选的数据实体

而HTTPRequest.parse_request方法就是把socket中的字节流，按照HTTP协议规范解析，并且从中提取信息(最终封装成一个env传递给webapp)：

def parse_request(self):
self.rfile = SizeCheckWrapper(self.conn.rfile,
self.server.max_request_header_size)
# 读取请求行
self.read_request_line()
# 读取请求头
success = self.read_request_headers()
# ----------------------------------------------------------------
def read_request_line(self):
# 从socket中读取一行数据
request_line = self.rfile.readline()
# 按照HTTP协议规范，把request_line分割成请求方法(method)，uri路径(uri)，HTTP协议版本(req_protocol)
method, uri, req_protocol = request_line.strip().split(" ", 2)
self.uri = uri
self.method = method
scheme, authority, path = self.parse_request_uri(uri)
# 获取uri请求参数
qs = ''
if '?' in path:
path, qs = path.split('?', 1)
self.path = path
# ----------------------------------------------------------------
def read_request_headers(self):
# 读取请求头，inheaders是一个dict
read_headers(self.rfile, self.inheaders)
# ----------------------------------------------------------------
def read_headers(rfile, hdict=None):
if hdict is None:
hdict = {}
while True:
line = rfile.readline()
# 把line按照":"分割成k, v，譬如 Host:baidu.com就被分割成Host和baidu.com两部分
k, v = line.split(":", 1)
# 格式化分割后的
k = k.strip().title()
v = v.strip()
hname = k
# HTTP协议中的有些请求头允许重复(譬如Accept等等)，那么webpy就会把这些相同头的value用","连接起来
if k in comma_separated_headers:
existing = hdict.get(hname)
if existing:
v = ", ".join((existing, v))
# 把请求头k, v存入hdict
hdict[hname] = v
return hdict

至此我们就分析完了HTTPRequest.parse_request方法如何解析HTTP请求，下面我们就接着看看HTTPRequest.respond如何响应请求：

def respond(self):
# 把请求交给gateway响应
self.server.gateway(self).respond()

在继续往下看代码之前，我们先简单思考下，为什么要有这个gateway，为什么这里不把请求直接交给webapp处理？
我自己觉得还是出于分层和代码复用性考虑。因为可能存在，或者需要支持很多web规范，目前我们使用的是wsgi规范，明天可能出来个ysgi，大后天可能还来个zsgi，如果按照当前的设计，我们只需要替换HTTPServer的gateway属性，而不用修改其他代码（类似JAVA概念中的DAO层），下面我们就来看看这个gateway的具体实现(回到本文最初，我们在Server中注册的gateway是WSGIGateway_10)：

WSGI网关

class WSGIGateway(Gateway):
def __init__(self, req):
self.req = req # HTTPRequest对象
self.env = self.get_environ()
# 获取wsgi的环境变量(留给子类实现)
def get_environ(self):
raise NotImplemented
def respond(self):
# -----------------------------------
# 按照 WSGI 规范调用我们得 webapp/webpy
# -----------------------------------
response = self.req.server.wsgi_app(self.env, self.start_response)
# 把处理结果写回给客户端
for chunk in response:
self.write(chunk)
def start_response(self, status, headers, exc_info = None):
self.req.status = status
self.req.outheaders.extend(headers)
return self.write
def write(self, chunk):
# 写http响应头
self.req.send_headers()
# 写http响应体
self.req.write(chunk)

WSGIGateway_10继承WSGIGateway类，并实现get_environ方法

class WSGIGateway_10(WSGIGateway):
def get_environ(self):
# build WSGI环境变量(req中的这些属性，都是通过HTTPRequest.prase_request解析HTTP请求获得的)
req = self.req
env = {
'ACTUAL_SERVER_PROTOCOL': req.server.protocol,
'PATH_INFO': req.path,
'QUERY_STRING': req.qs,
'REMOTE_ADDR': req.conn.remote_addr or '',
'REMOTE_PORT': str(req.conn.remote_port or ''),
'REQUEST_METHOD': req.method,
'REQUEST_URI': req.uri,
'SCRIPT_NAME': '',
'SERVER_NAME': req.server.server_name,
'SERVER_PROTOCOL': req.request_protocol,
'SERVER_SOFTWARE': req.server.software,
'wsgi.errors': sys.stderr,
'wsgi.input': req.rfile,
'wsgi.multiprocess': False,
'wsgi.multithread': True,
'wsgi.run_once': False,
'wsgi.url_scheme': req.scheme,
'wsgi.version': (1, 0),
}
# ...
# 请求头
for k, v in req.inheaders.iteritems():
env["HTTP_" + k.upper().replace("-", "_")] = v
# ...
return env

【Python】Webpy 源码学习的更多相关文章

python SimpleHTTPServer源码学习
SimpleHTTPServer.SimpleHTTPRequestHandler继承了BaseHTTPServer.BaseHTTPRequestHandler. 源码中主要实现了BaseHTTPS ...
Python库源码学习1：Flask之app.run
先列出app.run()实现的功能,我们以debug=True的情况下进行分析. 1. web服务器,处理http请求 2. 当代码修改后,重启服务器那么app.run()是如何实现这两个功能的呢? ...
python源码学习（一）——python的总体架构
python源码学习(一)——python的总体架构学习环境: 系统:ubuntu 12.04 STLpython版本:2.7既然要学习python的源码,首先我们要在电脑上安装python并且下载 ...
python 协程库gevent学习--gevent源码学习(二)
在进行gevent源码学习一分析之后,我还对两个比较核心的问题抱有疑问: 1. gevent.Greenlet.join()以及他的list版本joinall()的原理和使用. 2. 关于在使用mon ...
『TensorFlow』SSD源码学习_其一：论文及开源项目文档介绍
一.论文介绍读论文系列:Object Detection ECCV2016 SSD 一句话概括:SSD就是关于类别的多尺度RPN网络基本思路: 基础网络后接多层feature map 多层feat ...
《python解释器源码剖析》第0章--python的架构与编译python
本系列是以陈儒先生的<python源码剖析>为学习素材,所记录的学习内容.不同的是陈儒先生的<python源码剖析>所剖析的是python2.5,本系列对应的是python3. ...
[阿里DIN] 从论文源码学习之 embedding层如何自动更新
[阿里DIN] 从论文源码学习之 embedding层如何自动更新目录 [阿里DIN] 从论文源码学习之 embedding层如何自动更新 0x00 摘要 0x01 DIN源码 1.1 问题 1 ...
Java集合专题总结（1）：HashMap 和 HashTable 源码学习和面试总结
2017年的秋招彻底结束了,感觉Java上面的最常见的集合相关的问题就是hash--系列和一些常用并发集合和队列,堆等结合算法一起考察,不完全统计,本人经历:先后百度.唯品会.58同城.新浪微博.趣分 ...
jQuery源码学习感想
还记得去年(2015)九月份的时候,作为一个大四的学生去参加美团霸面,结果被美团技术总监教育了一番,那次问了我很多jQuery源码的知识点,以前虽然喜欢研究框架,但水平还不足够来研究jQuery源码, ...

随机推荐

Vue打包项目图片等静态资源的处理
项目打包,默认是打包在根目录下面的.当然我们可以通过设置,打包到任意子目录中去. 但是,当项目中引入资源的,比如:引入图片资源.js资源.或者字体图标之类的.那么可能在这个中间又会踩坑. 1.在vue ...
iptables不小心把127.0.0.1封了，导致redis连不上
写了个脚本扫描apache日志,自动把恶意攻击者的ip交给iptables给封掉谁知道一不小心把127.0.0.1也给封了... 直接导致redis无法链接. redis-server服务正常启动, ...
[Webpack] Detect Unused Code with Webpack and unused-files-webpack-plugin
As you refactor and modify applications, it's difficult to manage and keep track of files as they be ...
聊聊jvm的PermGen与Metaspace
转载:https://segmentfault.com/a/1190000012577387 序本文主要讲述一下jvm的PermGen与Metaspace java memory结构分代概念对于 ...
rapidxml的常见读写操作
rapidxml官网地址:http://rapidxml.sourceforge.net/ rapidxml只包含4个hpp头文件,把这四个头文件放到项目中,即可使用rapidxml #include ...
win64 QT（VS2013）配置 CGAL+libQGLViewer
网上讲的都不是太全我来说说把~ 首先感谢这位大神: chenwk891:http://blog.csdn.net/chenwk891/article/details/42171495#reply 还 ...
程序猿的职场潜意识Top10
什么叫潜规则?事实上就是不明文规定的一些规则,关键是他没法明文规定,由于有的规则太没节操. 在我们职场中有些规则你不遵守将举步艰难.而要玩转这些潜规则.那么你必需要具备例如以下10个潜意识: 1.项目 ...
Unity UI代码自动生成
最近在做新项目跟同事讨论UI制作方案, 这里就说下根据节点来生成UI代码, 这个工具可以根据预设生成一个分布类.目前组件还不是很完善, 自己使用需要修改部分代码组件功能如下: 1. 自动设置引用 ...
linux下自己下载的程序装哪？
有两个选择: /usr/local:类似于C:\Program Files /opt:类似于D:\soft 其实都可以,关键是保持一致.
微信小程序之趣闻
代码地址如下:http://www.demodashi.com/demo/13433.html 前言小程序的火热程度我就不多说了,我之前对这个就蛮有兴趣的,于是花了大概5天的时间,完成了学习-入 ...

【Python】Webpy 源码学习

【Python】Webpy 源码学习的更多相关文章

随机推荐

热门专题