python web编程-web客户端编程

web应用也遵循客户服务器架构

浏览器就是一个基本的web客户端，她实现两个基本功能，一个是从web服务器下载文件，另一个是渲染文件

同浏览器具有类似功能以实现简单的web客户端的模块式urllib以及urllib2（可以打开需要登录的网页）等模块

另外还有一些负载的web客户端，它不仅下载web文件，还执行其它复杂的任务，一个典型的例子就是爬虫

python实现爬虫也有一些框架模块：如Scrapy

使用python创建一个简单web客户端

你要弄清楚浏览器只是web客户端的一种，而且功能有限，任何通过web的请求的应用程序都是web客户端

比如curl以及python的urllib

为什么是urllib呢而不是httplib呢？往下阅读

什么是URL？？？构成很重要

URL用来在Web 上定位一个文档，或者调用一个CGI 程序来为你的客户端产生一个文档。

CGI产生文档就是像一些web框架吧，特别是python的

web客户端其实也算是文件传输，最为直接方式就是直接使用url来定位和获得文件了，其实大部分客户端都是靠这个

所以应该首先了解一下url的构成

http://zh.wikipedia.org/zh/%E7%BB%9F%E4%B8%80%E8%B5%84%E6%BA%90%E5%AE%9A%E4%BD%8D%E7%AC%A6

python的URL模块介绍：urllib及urlparse

Python 支持两种不同的模块，分别以不同的功能和兼容性来处理URL。一种是urlparse，一种

是urllib。

其中urlparse就是用来进行url解析与合成的。利用它你也可以学习url的构成哦，关于它的用法你可以help一下

urllib是一个高层次的模块，urllib 模块提供了所有你需要的功能，除非你计划写一个更加低层的网络客户端。urllib 提供

了了一个高级的Web 交流库，支持Web 协议，HTTP， FTP 和Gopher 协议，同时也支持对本地文件的

访问。urllib 模块的特殊功能是利用上述协议下载数据(从因特网、局域网、主机上下载)。使用这

个模块可以避免使用httplib， ftplib 和gopherlib 这些模块，除非你想用更低层的功能

urllib的主要功能就是从url来下载文件，想要了解这个模块的功能可以从下面几个函数入手

urlopen()

urllib.urlretrieve()

urllib.quote() and urllib.quote_plus()

urllib.unquote() 和 urllib.unquote_plus()

urllib.urlencode()

urllib2

如果你打算访问更加复杂的URL 或者想要处理更复杂的情况如基于数字的权限验证，重定位，

coockie 等问题，我们建议你使用urllib2 模块

这对于登陆来抓取数据是特别有用的

urllib3

urllib2的升级版

Requests

该模块建立在urllib3上面的，提供了比较友好的借口，尽量使用它，以减少代码量

参考：http://blog.csdn.net/iloveyin/article/details/21444613

wget和python绑定

wget是一个linux命令行工具，专注下载功能，有关下载任务合适使用它的python绑定

curl和pycurl

curl是一个基础的，先进的命令行工具（提供的功能类似于Request），也提供了各种语言的绑定

参考：http://www.ruanyifeng.com/blog/2011/09/curl.html

http://man.linuxde.net/curl

高级web客户端

浏览器实现的其实是一个简单的web客户端，基本的web客户端从服务器下载文件，urllib以及urllib2以及上面介绍的这些模块就是实现类似的功能

那么高级的web客户端就不只是下载那么简单

高级Web 客户端的一个例子就是网络爬虫（aka 蜘蛛和机器人）。这些程序可以基于不同目的在

因特网上探索和下载页面，其中包括：

为 Google 和Yahoo 这类大型的搜索引擎建索引
脱机浏览—将文档下载到本地，重新设定超链接，为本地浏览器创建镜像。（这个需求就是通常所说的下载整个在线的帮助文档）
下载并保存历史记录或框架
Web 页的缓存，节省再次访问Web 站点的下载时间。

这里给出一个爬虫的实现

 #!/usr/bin/env python

 from sys import argv

 from os import makedirs, unlink, sep

 from os.path import isdir, exists, dirname, splitext

 from string import replace, find, lower

 from htmllib import HTMLParser

 from urllib import urlretrieve

 from urlparse import urlparse, urljoin

 from formatter import DumbWriter, AbstractFormatter

 from cStringIO import StringIO

 class Retriever(object):    # download Web pages

     def __init__(self, url):

         self.url = url

         self.file = self.filename(url)

     def filename(self, url, deffile='index.htm'):

         parsedurl = urlparse(url, 'http:', 0)  # parse path

         path = parsedurl[1] + parsedurl[2]

         ext = splitext(path)

         if ext[1] == '':

             if path[-1] == '/':

                 path += deffile

             else:

                 path += '/' + deffile

         ldir = dirname(path)    # local directory

     if sep != '/':        # os-indep. path separator

         ldir = replace(ldir, ',', sep)

         if not isdir(ldir):      # create archive dir if nec.

             if exists(ldir): unlink(ldir)

             makedirs(ldir)

         return path

     def download(self):        # download Web page

         try:

             retval = urllib.urlretrieve(self.url, self.file)

         except IOError:

             retval = ('*** ERROR: invalid URL "%s"' % \

                 self.url, )

         return retval

     def parseAndGetLinks(self):    # pars HTML, save links

         self.parser = HTMLParser(AbstractFormatter( \

             DumbWriter(StringIO())))

         self.parser.feed(open(self.file).read())

         self.parser.close()

         return self.parse.anchorlist

 class Crawler(object):        # manage entire crawling process

     count = 0            # static downloaded page counter

     def __init__(self, url):

         self.q = [url]

         self.seen = []

         self.dom = urlparse(url)[1]

     def getPage(self, url):

         r = Retriever(url)

         retval = r.download()

         if retval[0] == '*':     # error situation, do not parse

             print retval, '... skipping parse'

             return

         Crawler.count = Crawler.count + 1

         print '\n(', Crawler.count, ')'

         print 'URL:', url

         print 'FILE:', retval[0]

         self.seen.append(url)

         links = r.parseAndGetLinks()  # get and process links

         for eachLink in links:

             if eachLink[:4] != 'http' and \

                     find(eachLink, '://') == -1:

                 eachLink = urljoin(url, eachLink)

             print '* ', eachLink,

             if find(lower(eachLink), 'mailto:') != -1:

                 print '... discarded, mailto link'

                 continue

             if eachLink not in self.seen:

                 if find(eachLink, self.dom) == -1:

                     print '... discarded, not in domain'

                 else:

                     if eachLink not in self.q:

                         self.q.append(eachLink)

                         print '... new, added to Q'

                     else:

                         print '... discarded, already in Q'

             else:

                     print '... discarded, already processed'

     def go(self):                # process links in queue

         while self.q:

             url = self.q.pop()

             self.getPage(url)

 def main():

     if len(argv) > 1:

         url = argv[1]

     else:

         try:

             url = raw_input('Enter starting URL: ')

         except (KeyboardInterrupt, EOFError):

             url = ''

     if not url: return

     robot = Crawler(url)

     robot.go()

 if __name__ == '__main__':

     main()

实际上这里也有一些爬虫的库，不多介绍

python web编程-web客户端编程的更多相关文章

python web编程-CGI帮助web服务器处理客户端编程
这几篇博客均来自python核心编程如果你有任何疑问,欢迎联系我或者仔细查看这本书的地20章另外推荐下这本书,希望对学习python的同学有所帮助概念预热 eb客户端通过url请求web服务器里 ...
day03-hdfs的客户端操作\hdfs的java客户端编程
5.hdfs的客户端操作客户端的理解 hdfs的客户端有多种形式: 1.网页形式 2.命令行形式 3.客户端在哪里运行,没有约束,只要运行客户端的机器能够跟hdfs集群联网文件的切块大小和存储的副 ...
Unity3D 客户端编程
Photon Server 和 Unity3D 数据交互: Photon Server 服务端编程 Unity3D 客户端编程. VS2017 之 MYSQL实体数据模 1:打开unity新建新项目, ...
Python 四大主流 Web 编程框架
Python 四大主流 Web 编程框架目前Python的网络编程框架已经多达几十个,逐个学习它们显然不现实.但这些框架在系统架构和运行环境中有很多共通之处,本文带领读者学习基于Python网络框架 ...
[Real World Haskell翻译]第22章扩展示例：Web客户端编程
第22章扩展示例:Web客户端编程至此,您已经看到了如何与数据库交互,解析一些数据,以及处理错误.现在让我们更进了一步,引入Web客户端库的组合. 在本章,我们将开发一个真正的应用程序:一个播客下 ...
Web Worker javascript多线程编程（一）
什么是Web Worker? web worker 是运行在后台的 JavaScript,不占用浏览器自身线程,独立于其他脚本,可以提高应用的总体性能,并且提升用户体验. 一般来说Javascript ...
Web Worker javascript多线程编程（二）
Web Worker javascript多线程编程(一)中提到有两种Web Worker:专用线程dedicated web worker,以及共享线程shared web worker.不过主要讲 ...
Atitit.web三大编程模型 Web Page Web Forms 和 MVC
Atitit.web三大编程模型 Web Page Web Forms 和 MVC 1. 编程模型是 Web Forms 和 MVC (Model, View, Controller). 2. ...
WEB前端研发工程师编程能力成长之路（1）（转）
WEB前端研发工程师编程能力成长之路(1) [背景] 如果你是刚进入WEB前端研发领域,想试试这潭水有多深,看这篇文章吧: 如果你是做了两三年WEB产品前端研发,迷茫找不着提高之路,看这篇文章吧: ...
Atitit.web三编程模型 Web Page Web Forms 和 MVC
Atitit.web三编程模型 Web Page Web Forms 和 MVC 1. 编程模型是 Web Forms 和 MVC (Model, View, Controller). 2. W ...

随机推荐

zpf框架的business使用方法
2015年3月9日 10:58:42 controller 是接受数据分派任务的地方 model 接收controller来的数据, 获取并处理数据库中的数据, 然后再返回给controller 的业 ...
ACM/ICPC 之 BFS-广搜+队列入门-抓牛(POJ3278)
这一题是练习广度优先搜索很好的例题,在很多广搜教学中经常用到,放在这里供学习搜索算法的孩纸们看看= = 题目大意:一维数轴上,农夫在N点,牛在K点,假定牛不会移动,农夫要找到这头牛只能够进行以下三种移 ...
如果你修改了ashx.cs的命名空间
如果你修改了ashx.cs的命名空间,记得要同时修改ashx的WebHandler的Class. 在解决方案资源管理器中右键,查看标记
uva 1584.Circular Sequence
题目链接:https://uva.onlinejudge.org/index.php?option=com_onlinejudge&Itemid=8&page=show_problem ...
C#文本选中及ContextMenuStrip菜单使用
'文本框选中显示'TextBox1.SelectAll()选择所有文本'textBox1.Text.Insert(start,strInsertText)指定位置添加文本1 Private Sub T ...
Java IO流总结
Java IO流分类以及主要使用方式如下: IO流 |--字节流 |--字节输入流 InputStream: int read();//一次读取一个字节 int read(byte[] bys);// ...
让项目同时支持ARC和非ARC
ttp://code4app.com/snippets/one/禁止某几个文件用ARC模式编译/502344256803fa246d000000#s0 如果你的绝大部分代码需要ARC,那么就设置项目支 ...
Git命令之上传与同步
操作步骤,可参考:http://blog.csdn.net/chenyufeng1991/article/details/47299461. 1.在本地仓库中,即项目目录下创建文件,如: 2.查看当前 ...
三、jQuery--jQuery基础--jQuery基础课程--第1章初识jQuery
环境搭建搭建一个jQuery的开发环境非常方便,可以通过下列几个步骤进行. 下载jQuery文件库在jQuery的官方网站(http://jquery.com)中,下载最新版本的jQuery文件库 ...
【翻译十三】java-并发之饥饿与活锁
Starvation and Livelock Starvation and livelock are much less common a problem than deadlock, but ar ...

python web编程-web客户端编程

python web编程-web客户端编程的更多相关文章

随机推荐

热门专题