Python学习笔记012_网络_异常
1,Python如何访问互联网?
url + lib = urllib
>>> # 使用urllib包下的request模块
>>>
>>> import urllib.request
>>>
>>> # 使用函数 .urlopen(),第一个是 string形式的地址,或者Request对象
>>> response = urllib.request.urlopen("http://www.baidu.com/")
>>> print(response)
<http.client.HTTPResponse object at 0x02927610>
>>> # 读取返回的信息
>>> # 这里要返回的是二进制数据,需要解码的
>>> html = response.read()
>>> html = html.decode("utf-8")
>>> print(html)
2, 下载一只猫?
我们可以访问网站 http://placekitten.com/ ,我们只需要加上 宽度和高度参数就可以得到一张量身定制的猫的图片.
如下形式 : http://placekitten.com/g/200/300 http://placekitten.com/400/300
# 编写一个 download_cat.py ,完成下载一张猫图 内容如下:
import urllib.request
response = urllib.request.urlopen("http://placekitten.com/g/200/300")
cat_img = response.read()
with open("cat_200_300.jpg","wb") as f:
f.write(cat_img)
>>> >>> # 除了read()方法之外,还可以使用以下方法: >>> # geturl() info() getcode() >>> >>> response.geturl() 'http://placekitten.com/g/200/300' >>> response.info() <http.client.HTTPMessage object at 0x028A6E50> >>> print(response.info()) Date: Tue, 02 Aug 2016 08:57:00 GMT Content-Type: image/jpeg Content-Length: 9162 Connection: close Set-Cookie: __cfduid=d58fa9ee9079943b9db4ce64366aa85f61470128220; expires=Wed, 02-Aug-17 08:57:00 GMT; path=/; domain=.placekitten.com; HttpOnly Accept-Ranges: bytes X-Powered-By: PleskLin Access-Control-Allow-Origin: * Cache-Control: public Expires: Thu, 31 Dec 2020 20:00:00 GMT Server: cloudflare-nginx CF-RAY: 2cc051e22cad22a0-LAX >>> >>> response.getcode() 200 >>>
3,模拟有道翻译 POST请求
如果 urllib.request.urlopen(url,data) data参数被赋值时,就会使用POST请求,并且data参数是基于 application/x-www-form-urlencoded格式,可以使用urllib.parse.urlencode()处理data
import urllib.request
import urllib.parse
import json
url = 'http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule&smartresult=ugc&sessionFrom=null'
conent = input('请输入要翻译的内容:')
data = {'type':'AUTO','i':conent,'doctype':'json','xmlVersion':'1.8',
'keyfrom':'fanyi.web','ue':'UTF-8','action':'FY_BY_CLICKBUTTON',
'typoResult':'true'}
# encode 是把Unicode形式变成其它编码形式
data = urllib.parse.urlencode(data).encode('utf-8')
response = urllib.request.urlopen(url,data)
# decode 是把其它编码形式变成Unicode形式
html = response.read().decode("utf-8")
# html是一个json格式的字符串数据
target = json.loads(html)
print("翻译结果: %s" %(target['translateResult'][0][0]['tgt']))
Python编码问题的解决方案总结 http://bbs.fishc.com/thread-56452-1-1.html
4,headers 设置
headers是一个字典形式的数据,有两种设置方式 第一种是在 urlopen(url,data,headers)的第三个参数中设置;第二种方式是生成Request对象,调用 add_header(key,value)添加
服务器检查是程序访问还是浏览器访问一般是通过
- User-Agent:Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.63 Safari/537.36
header ={}
header['User-Agent'] = 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.63 Safari/537.36'
req = urllib.request.Request(url,data,header)
response = urllib.request.urlopen(req)
>>> req.headers
{'User-agent': 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.63 Safari/537.36'}
>>>
req = urllib.request.Request(url,data)
req.add_header('User-Agent','Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.63 Safari/537.36')
time 模块的 sleep(5) , 表示睡5秒钟
5,代理
步骤:
1,参数是一个字典{'类型':'代理IP:端口port'}
proxy_support = urllib.request.ProxyHandler({})
2,定制、创建一个opener
opener = urllib.request.build_opener(proxy_support )
3a. 安装opener
urllib.request.install_opener(opener)
3b.调用opener
opener.open(url)
在网上搜索 代理IP,可以搜索到很多免费的代理IP 比如: http://www.xicidaili.com/
import urllib.request
import random
#该url地址是一个查询IP的地址
url = 'http://www.whatismyip.com.tw'
iplist = ['183.129.178.14:8080','123.57.190.51:7777','101.231.250.102:80']
proxy_support = urllib.request.ProxyHandler({'http':random.choice(iplist)})
opener = urllib.request.build_opener(proxy_support)
opener.addheaders=[('User-Agent','Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.63 Safari/537.36')]
urllib.request.install_opener(opener)
response = urllib.request.urlopen(url)
html = response.read().decode("utf-8")
print(html)
小应用,下载煎蛋网的妹子图 http://jandan.net/
import urllib.request
import os
import random
'''
打开网址.
'''
def open_url(url):
iplist = ['121.193.143.249:80','119.6.136.122:80','101.231.250.102:80']
proxy_support = urllib.request.ProxyHandler({'http':random.choice(iplist)})
opener = urllib.request.build_opener(proxy_support)
opener.addheaders=[('User-Agent','Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.63 Safari/537.36')]
urllib.request.install_opener(opener)
response = urllib.request.urlopen(url)
html = response.read()
#req = urllib.request.Request(url)
#req.add_header('User-Agent','Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36')
#response = urllib.request.urlopen(req)
#html = response.read()
return html
'''
获取当前要下载的图片编号
'''
def get_page(url):
html = open_url(url).decode('utf-8')
# 在html中查找 <span class="current-comment-page">[2081]</span>
a = html.find('current-comment-page') + 23
# 从a开始找 有中括号 ]
b = html.find(']',a)
return html[a:b]
def find_imgs(page_url):
html = open_url(page_url).decode('utf-8')
# 在html中查找 <img src="XXX.jpg">
img_addrs = []
find_start = html.find('ol class="commentlist"')
find_end = html.find('/ol',find_start)
a = html.find('img src=',find_start,find_end)
while a != -1:
#从a开始找,最多找255个字符
b = html.find('.jpg',a,a+255)
if b != -1:
img_addrs.append(html[a+9:b+4])
else:
b =a + 9
a = html.find('img src=', b,find_end)
return img_addrs
def save_imgs(folder,img_addrs):
print(folder)
for each in img_addrs:
# 图片地址 斜杠拆分,取最后一个
img_name = each.split('/')[-1]
with open(img_name,'wb') as f:
img = open_url(each)
f.write(img)
'''
下载妹子图,保存到folder文件夹,下载pages张图
'''
def download_mm(folder='ooxx' , pages = 10):
#使用 os模块,创建文件夹和切换到该文件夹
#os.mkdir(folder)
os.chdir(folder)
url = 'http://jandan.net/ooxx/'
#获取要下载的当前图片编号
page_num = int(get_page(url))
# 组装下载链接
for i in range(pages):
page_num -= i
page_url = url + 'page-' + str(page_num)+ '#comments'
#从链接中获取图片地址
image_addrs = find_imgs(page_url)
# 下载保存图片
save_imgs(folder,image_addrs)
print('--download__over--')
if __name__ == '__main__':
download_mm()
网络异常 URLError HTTPError , HTTPError 是 URLError的子类




Python学习笔记012_网络_异常的更多相关文章
- python学习笔记11 ----网络编程
网络编程 网络编程需要知道的概念 网络体系结构就是使用这些用不同媒介连接起来的不同设备和网络系统在不同的应用环境下实现互操作性,并满足各种业务需求的一种粘合剂.网络体系结构解决互质性问题彩是分层方法. ...
- Python学习笔记七-错误和异常
程序员总是和各种错误打交道,学习如何识别并正确的处理程序错误是很有必要的. 7.1错误和异常 1.错误 从软件方面来看,错误分为语法错误和逻辑错误两种.这两种错误都将导致程序无法正常进行下去,当Pyt ...
- Python学习笔记008_类_对象_继承_组合_类相关的BIF
# 对象 = 属性 + 方法>>> # Python中的类名约定以大写字母开始>>> # tt = Turtle() 这就是创建类实例的方法,其它语言用new ,它 ...
- python学习笔记014——错误和异常
Python有两种错误很容易辨认:语法错误和异常. 1 什么是语法错误 Python 的语法错误或者称之为解析错,是初学者经常碰到的,如下实例 if i>4 print("if语句输出 ...
- python学习笔记10 ----网络编程
网络编程 网络编程需要知道的概念 网络体系结构就是使用这些用不同媒介连接起来的不同设备和网络系统在不同的应用环境下实现互操作性,并满足各种业务需求的一种粘合剂.网络体系结构解决互质性问题彩是分层方法. ...
- python学习笔记:网络请求——urllib模块
python操作网络,也就是打开一个网站,或者请求一个http接口,可以使用urllib模块.urllib模块是一个标准模块,直接import urllib即可,在python3里面只有urllib模 ...
- Python学习笔记13—错误和异常
常见的异常:
- Python学习笔记011_模块_标准库_第三方库的安装
容器 -> 数据的封装 函数 -> 语句的封装 类 -> 方法和属性的封装 模块 -> 模块就是程序 , 保存每个.py文件 # 创建了一个hello.py的文件,它的内容如下 ...
- Python学习笔记010_迭代器_生成器
迭代器 迭代就类似于循环,每次重复的过程被称为迭代的过程,每次迭代的结果将被用来作为下一次迭代的初始值,提供迭代方法的容器被称为迭代器. 常见的迭代器有 (列表.元祖.字典.字符串.文件 等),通常 ...
随机推荐
- AugularJS1.X不升级到2.X
面试中提到AugularJS1.X不升级到2.X,而是改用React的原因是,可以利用很多React现成的组件,需要确认下 以及提到了Vue, Weex技术
- 用Redis实现优先级队列
在最近在面试过程中,张先森遇到一个面试官这么问,如果一个并发很大的消息应用,想要根据请求的优先级来处理,该怎么做.我当时只是笼统地回答用redis,面试官点了点头,这个问题就此通过. 那么用redis ...
- Framework7
完美的HTML框架 可以构建精美的iOS & Android 应用
- pandas数据分析(数据结构)
本文主要从以下两个方向对pandas的数据结构进行展开,分别为Series和DataFrame(对应的分别是系列与numpy中的一维数组和二维数组) 1.首先从Series讲起,主要介绍Series的 ...
- JVM内存结构和6大区域
摘自 http://www.iteye.com/news/30350 对于我们一般理解的计算机内存,它算是CPU与计算机打交道最频繁的区域,所有数据都是先经过硬盘至内存,然后由CPU再从内存中获取数据 ...
- 【JSP】JSP Action动作标签
Action动作标签简述 JSP action是JSP技术体系内置的一组标签,使用无需导入,或者添加另外的库.JSP action标签都是对Java代码的逻辑的封装.主要使用的是下面这些. 标签 作用 ...
- 使用Composer安装ThinkPHP5
1.Windows 系统,下载并运行 Composer-Setup.exe. 2.安装compose.PHP采用的是wampserver集成开发环境(这也之后的问题埋下伏笔). 3.然后在命令行下面, ...
- 关于用VMware克隆linux系统后,无法联网找不到eth0网卡的问题
当使用克隆后的虚拟机时发现系统中的网卡eth0没有了,使用ifconfig -a会发现只有eth1.因为系统是克隆过来的,原有的eth0以及ip地址都是原先网卡的,VMware发现已经被占用,就会创建 ...
- spring整合mybatis错误:class path resource [config/spring/springmvc.xml] cannot be opened because it does not exist
spring 整合Mybatis 运行环境:jdk1.7.0_17+tomcat 7 + spring:3.2.0 +mybatis:3.2.7+ eclipse 错误:class path reso ...
- 使用imageLoader加载图片资源