【py网页】urlopen的补充，完美

urllib 是 python 自带的一个抓取网页信息一个接口，他最主要的方法是 urlopen()，是基于 python 的 open() 方法的。下面是主要说明：

`1`	`urllib.urlopen('网址')`

这里传入urlopen()的参数有特别说要求，要遵循一些网络协议，比如http,ftp,也就是说，在网址的开头必须要有http://这样的说明，如：urllib.urlopen('http://www.baidu.com')。
要么就是本地文件，本地文件需要使用file关键字，比如 urllib.urlopen('file:nowamagic.py')，注意，这里的hello.py是指的是当前的classpath所指定的内容，如果对hello.py这里有什么疑问那一定是python寻找classpath的顺序不是很清楚了，当然也可以直接写全部路径，urllib.urlopen('file:F:\pythontest\nowamagic.py')。
打开 ftp 文件也是可以的，写法 urllib.urlopen(url='ftp://用户名:密码@ftp地址/') 等。

示例程序：

`1`	`import` `urllib`

`2`	`f` `=` `urllib.urlopen('file:F:\pythontest\nowamagic.py')`

`3`	`a` `=` `f.read()`

`4`	`print` `a`

如果传入的参数正确，比如该网站可以访问，没有特殊情况（比如需要代理，被墙等），那么将返回一个类似于文件对象的对象。即上面代码中的f，f对象有的方法一些操作方法，使用dir(f)：

`1`	`['__doc__',` `'__init__',` `'__iter__',` `'__module__',` `'__repr__',` `'close','fileno',` `'fp',` `'geturl',` `'headers',` `'info',` `'next',` `'read',` `'readline','readlines',` `'url']`

使用read()方法会将所有内容读取出来，并且同时f对象类似于先入先出的数据，在使用f.read()将得不到任何数据，也就是说，得到的数据在这个时候如果想在后面进行任何处理操作的话，需要另外定义一个对象来进行存储。如上例中的a。而info(),geturl()方法，也是基于f这个文档对象的，所以，使用

`1`	`>>>f.geturl()`

`2`	`'F://pythontest//nowamagic.py'`

接下来是urllib的代理设置：

`1`	`import` `urllib`

`2`	`proxies` `=` `{'http':'http://*...*:1984'}`

`3`	`filehandle` `=` `urllib.urlopen('http://www.需要代理才能访问的网站.com/',proxies=` `proxies)`

`4`	`a` `=` `filehandle.read()`

`5`	`print` `a`

以上是最基本代理，即代理访问到该网站，并且能够获得该网站的内容。但是如果遇到需要登录，或者需要cookie等的网站呢？

查看urllib的源码：

`01`	`def` `urlopen(url, data=None, proxies=None):`

`02`	`"""urlopen(url [, data]) -> open file-like object"""`

`03`	`global` `_urlopener`

`04`	`if` `proxies` `is` `not` `None:`

`05`	`opener` `=` `FancyURLopener(proxies=proxies)`

`06`	`elif` `not` `_urlopener:`

`07`	`opener` `=` `FancyURLopener()`

`08`	`_urlopener` `=` `opener`

09 else:

`10`	`opener` `=` `_urlopener`

`11`	`if` `data` `is` `None:`

`12`	`return` `opener.open(url)`

13 else:

`14`	`return` `opener.open(url, data)`

由上面urllib的urlopen的源码，可以看出，还可以传入一个data参数，data参数也应该是一个字典，因为在使用浏览器向服务器发送数据的时候，我们发送的就是字典类型的数据。

还有一点，就是代理支持是 python 2.3 以后加入的

【py网页】urlopen的补充，完美的更多相关文章

【py网页】urllib模块，urlopen
Python urllib 库提供了一个从指定的 URL 地址获取网页数据,然后对其进行分析处理,获取想要的数据. 下面是在 Python Shell 里的 urllib 的使用情况: 01 Pyth ...
利用PhantomJS进行网页截屏，完美解决截取高度的问题
关于PhantomJS PhantomJS 是一个基于WebKit的服务器端 JavaScript API.它全面支持web而不需浏览器支持,其快速,原生支持各种Web标准: DOM 处理, CSS ...
【py网页】urllib.urlretrieve远程下载
下面我们再来看看 urllib 模块提供的 urlretrieve() 函数.urlretrieve() 方法直接将远程数据下载到本地. 1 >>> help(urllib.urlr ...
web.py网页模板中使用jquery
由于$是web.py针对模板的保留字符,所以在模板文件内不能直接使用$("#id")的格式. 解决办法: 1.$$("#id")可以避免$被误解析 2.jque ...
【py网页】sitecopy代码
001 #coding:utf-8 002 import re,os,shutil,sys 003 import urllib2,socket,cookielib 004 from threading ...
Py修行路内置模块补充 datetime模块
Python提供了多个内置模块用于操作日期时间,像calendar,time,datetime.datetime模块用于是date和time模块的合集,他内部重新封装了time模块,相比于time ...
python--爬虫入门（八）体验HTMLParser解析网页，网页抓取解析整合练习
python系列均基于python3.4环境基本概念 html.parser的核心是HTMLParser类.工作的流程是:当你feed给它一个类似HTML格式的字符串时,它会调用goahead方法 ...
python3下urlopen解析中文url编码错误
这是在ipython下测试的结果: In [24]: x Out[24]: 'http://127.0.0.1:8000/xxx/?id=a45ex0bad3c9&game=五子棋' In [ ...
web.py学习心得
1.注意判断数字时,如果是get传递的参数,一定要用int转换.不然出错. 2.$var 定义时,冒号后的内容不是python内容,需加上$符号.如$var naviId:$naviId. 3.各个模 ...

随机推荐

说说怎么写clean code
前两天参加了公司组织的一个培训,主题是“如何写出好的代码” ,刚看到这个主题,第一反应是又不知道是哪个培训机构来忽悠钱的!老大安排了,就去听听呗. 说实在的,课程内容没有什么新鲜的东西,就是讲讲如何发 ...
A Framework for Programme Management
In business today organisations manage multiple projects concurrently with shared or overlapping res ...
Java学习-012-文件删除实例及源代码
此文源码主要为应用 Java 创建文件的源代码.若有不足之处,敬请大神指正,不胜感激! 文件删除源代码如下: /** * @function 文件操作:删除文件.若文件存在且未被占用,则删除文件:若文 ...
maven3创建多模块web项目
实现步骤创建项目目录进入“工作空间”目录,创建名为treasure的文件夹,切换至控制台,进入该文件夹. 配置模块生成各个模块 maven-archetype-quickstart 默认的Ar ...
js传值
//传值$('.choose li').click(function(){ //alert('z'); $("#address").empty().prepend($ ...
Oracle利用external table 查看trace文件
1. 用下面的语句找到trace文件的路径 select * from v$diag_info where name='Default Trace File'; 2. 创建一个directory用来加 ...
iOS：使用Github托管自己本地的项目代码方式三（命令行方式: Terminal Line）
使用终端命令行将本地项目代码上传到github上进行托管对于IOS开发者来说,Github的使用是必须要掌握的一种技能,而把项目由本地上传到Github有多种方式 1.开发工具Xcode配置Git, ...
onRetainNonConfigurationInstance和getLastNonConfigurationInstance
很多网友可能知道Android横竖屏切换时会触发onSaveInstanceState,而还原时会产生 onRestoreInstanceState,但是Android的Activity类还有一个方法 ...
AsyncTask的使用方法和理解
.对于耗时的操作,我们的一般方法是开启“子线程”.如果需要更新UI,则需要使用handler 2.如果耗时的操作太多,那么我们需要开启太多的子线程,这就会给系统带来巨大的负担,随之也会带来性能方面的问 ...
Redis 安全性设置
redis安装好后,默认情况下登陆客户端和使用命令操作时不需要密码的.某些情况下,为了安全起见,我们可以设置在客户端连接后进行任何操作之前都要进行密码验证. 我这边是安装的window系统,修改red ...

【py网页】urlopen的补充，完美

【py网页】urlopen的补充，完美的更多相关文章

随机推荐

热门专题