python爬虫之趟雷整理

雷一：URLError

　　问题具体描述：urllib.error.URLError: <urlopen error [Errno 11004] getaddrinfo failed

 import urllib.request

 def load_message():

     url = 'http://www.baidu.com'

     request = urllib.request.Request(url)

     response = urllib.request.urlopen(request)

     response_str = response.read().decode('utf-8')

     return response.headers, request.headers, response_str

 response_header, request_header, response_data = load_message()

 print(request_header)

 print('----------------------------------------')

 print(response_header)

 print('----------------------------------------')

 print(response_data)

　　分析：报错原因为URLError，产生原因为URL，简单来说，就是URL资源无法访问或者访问不了。具体问题出在三个方向，URL本身，客户端，服务器。

　　解决办法：第一点，检查URL书写是否正确；第二点，检查客户端网络连接状态；第三点，使用URL在浏览器地址栏访问验证服务器是否存在。

　　问题具体描述：urllib.error.URLError: <urlopen error [SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed: unable to get local issuer certificate (_ssl.c:1045)>

 #!/usr/bin/env python

 # -*- coding=utf-8 -*-

 # Author: Snow

 import urllib.request

 def create_cookie():

     url = 'https://www.yaozh.com/member/'

     headers = {

         'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko\

 Chrome/69.0.3497.92 Safari/537.36',

         'Cookie': 'think_language=zh-CN; _ga=GA1.2.179792116.1550119571; _gat=1; acw_tc=2f624a2115501195808648935e4f2de7e89205315a7c9e8934c938389d8999; _gid=GA1.2.111857803.1550119581; yaozh_logintime=1550119751; yaozh_user=692948%09snown_1; yaozh_userId=692948; yaozh_uidhas=1; acw_tc=2f624a2115501195808648935e4f2de7e89205315a7c9e8934c938389d8999; MEIQIA_VISIT_ID=1H9g97Ef1WpjYsWf4b7UlGe3wel; PHPSESSID=5itl5rejqnekb07bfrtmuvr3l6; yaozh_mylogin=1550196658; MEIQIA_VISIT_ID=1HCCOYdyjR0FalzMfFm4vYsqevT; Hm_lvt_65968db3ac154c3089d7f9a4cbb98c94=1550119570%2C1550119584%2C1550119751%2C1550196659; Hm_lpvt_65968db3ac154c3089d7f9a4cbb98c94=1550196663'

     }

     request = urllib.request.Request(url, headers=headers)

     response = urllib.request.urlopen(request)

     response_data = response.read().decode('utf-8')

     return response_data

 result = create_cookie()

 with open('cookies.html', 'w', encoding='utf-8') as f:

     f.write(result)

　　分析：问题产生原因python使用urllib.request,urlopen()打开https链接时，需要验证SSL证书，如果网站使用自签名的证书会抛出异常。

　　解决办法：第一点，使用SSL创建context验证上下文，传入urlopen()中context上下文参数；第二点，取消证书验证。

 #!/usr/bin/env python

 # -*- coding=utf-8 -*-

 # Author: Snow

 import urllib.request

 import ssl    #导入ssl模块

 def create_cookie():

     url = 'https://www.yaozh.com/member/'

     headers = {

         'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko\

 Chrome/69.0.3497.92 Safari/537.36',

         'Cookie': 'think_language=zh-CN; _ga=GA1.2.179792116.1550119571; _gat=1; acw_tc=2f624a2115501195808648935e4f2de7e89205315a7c9e8934c938389d8999; _gid=GA1.2.111857803.1550119581; yaozh_logintime=1550119751; yaozh_user=692948%09snown_1; yaozh_userId=692948; yaozh_uidhas=1; acw_tc=2f624a2115501195808648935e4f2de7e89205315a7c9e8934c938389d8999; MEIQIA_VISIT_ID=1H9g97Ef1WpjYsWf4b7UlGe3wel; PHPSESSID=5itl5rejqnekb07bfrtmuvr3l6; yaozh_mylogin=1550196658; MEIQIA_VISIT_ID=1HCCOYdyjR0FalzMfFm4vYsqevT; Hm_lvt_65968db3ac154c3089d7f9a4cbb98c94=1550119570%2C1550119584%2C1550119751%2C1550196659; Hm_lpvt_65968db3ac154c3089d7f9a4cbb98c94=1550196663'

     }

     context = ssl._create_unverified_context()  # 创建验证SSL上下文

     request = urllib.request.Request(url, headers=headers)

     response = urllib.request.urlopen(request， context=context)  # 传入context参数

     response_data = response.read().decode('utf-8')

     return response_data

 result = create_cookie()

 with open('cookies.html', 'w', encoding='utf-8') as f:

     f.write(result)

 #!/usr/bin/env python

 # -*- coding=utf-8 -*-

 # Author: Snow

 import urllib.request

 import ssl

 def create_cookie():

     url = 'https://www.yaozh.com/member/'

     headers = {

         'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko\

 Chrome/69.0.3497.92 Safari/537.36',

         'Cookie': 'think_language=zh-CN; _ga=GA1.2.179792116.1550119571; _gat=1; acw_tc=2f624a2115501195808648935e4f2de7e89205315a7c9e8934c938389d8999; _gid=GA1.2.111857803.1550119581; yaozh_logintime=1550119751; yaozh_user=692948%09snown_1; yaozh_userId=692948; yaozh_uidhas=1; acw_tc=2f624a2115501195808648935e4f2de7e89205315a7c9e8934c938389d8999; MEIQIA_VISIT_ID=1H9g97Ef1WpjYsWf4b7UlGe3wel; PHPSESSID=5itl5rejqnekb07bfrtmuvr3l6; yaozh_mylogin=1550196658; MEIQIA_VISIT_ID=1HCCOYdyjR0FalzMfFm4vYsqevT; Hm_lvt_65968db3ac154c3089d7f9a4cbb98c94=1550119570%2C1550119584%2C1550119751%2C1550196659; Hm_lpvt_65968db3ac154c3089d7f9a4cbb98c94=1550196663'

     }

     ssl._create_default_https_context = ssl._create_unverified_context  # 缺省context参数不做验证，取消验证ssl证书

     request = urllib.request.Request(url, headers=headers)

     response = urllib.request.urlopen(request)

     response_data = response.read().decode('utf-8')

     return response_data

 result = create_cookie()

 with open('cookies.html', 'w', encoding='utf-8') as f:

     f.write(result)

雷二：HTTPError

　　问题具体描述：urllib.error.HTTPError: HTTP Error 503: Service Temporarily Unavailable

 #!/usr/bin/env python

 # -*- coding=utf-8 -*-

 # Author: Snow

 import urllib.request

 def fee_proxy():

     url = 'https://www.xicidaili.com/nn/'

     # 付费代理IP第一种方式

     # proxy_1 = {

     #     'http': 'user_name:passswor@121.61.1.222:9999'

     # }

     # 付费代理IP第二种方式

     user_name = 'admin'

     password = ''

     proxy_ip = '121.61.1.222:9999'

     proxy_manage = urllib.request.HTTPPasswordMgrWithDefaultRealm()  # 密码管理器

     proxy_manage.add_password(None, proxy_ip, user_name, password)

     # proxy_handler = urllib.request.ProxyHandler(proxy_1)

     proxy_handler = urllib.request.ProxyBasicAuthHandler(proxy_manage)  # 代理IP验证处理器

     proxy_openner = urllib.request.build_opener(proxy_handler)

     response = proxy_openner.open(url)

     response_str = response.read().decode('utf-8')

     return response_str

 data = fee_proxy()

 print(data)

　　分析：

　　解决办法：

python爬虫之趟雷的更多相关文章

python高级—— 从趟过的坑中聊聊爬虫、反爬以及、反反爬，附送一套高级爬虫试题
前言: 时隔数月,我终于又更新博客了,然而,在这期间的粉丝数也就跟着我停更博客而涨停了,唉是的,我改了博客名,不知道为什么要改,就感觉现在这个名字看起来要洋气一点. 那么最近到底咋不更新博客了呢?说 ...
Python爬虫——城市公交、地铁站点和线路数据采集
本篇博文为博主原创,转载请注明. 城市公交.地铁数据反映了城市的公共交通,研究该数据可以挖掘城市的交通结构.路网规划.公交选址等.但是,这类数据往往掌握在特定部门中,很难获取.互联网地图上有大量的信息 ...
【Python爬虫】正则表达式与re模块
正则表达式与re模块阅读目录在线正则表达式测试常见匹配模式 re.match re.search re.findall re.compile 实战练习在线正则表达式测试 http://tool ...
[框架安装趟雷指南]Ubuntu+1060+cuda+cudnn+Keras+TH+TF+MXnet
[框架安装趟雷指南]Ubuntu+1060+cuda+cudnn+Keras+TH+TF+MXnet https://zhuanlan.zhihu.com/p/23480983 天清 9 个月前写这 ...
2019应届生，用python爬虫记录自己求职经历，分享求职中的一些坑
前言文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取http ...
Python 爬虫模拟登陆知乎
在之前写过一篇使用python爬虫爬取电影天堂资源的博客,重点是如何解析页面和提高爬虫的效率.由于电影天堂上的资源获取权限是所有人都一样的,所以不需要进行登录验证操作,写完那篇文章后又花了些时间研究了 ...
python爬虫成长之路（一）：抓取证券之星的股票数据
获取数据是数据分析中必不可少的一部分,而网络爬虫是是获取数据的一个重要渠道之一.鉴于此,我拾起了Python这把利器,开启了网络爬虫之路. 本篇使用的版本为python3.5,意在抓取证券之星上当天所 ...
python爬虫学习(7) —— 爬取你的AC代码
上一篇文章中,我们介绍了python爬虫利器--requests,并且拿HDU做了小测试. 这篇文章,我们来爬取一下自己AC的代码. 1 确定ac代码对应的页面如下图所示,我们一般情况可以通过该顺序 ...
python爬虫学习(6) —— 神器 Requests
Requests 是使用 Apache2 Licensed 许可证的 HTTP 库.用 Python 编写,真正的为人类着想. Python 标准库中的 urllib2 模块提供了你所需要的大多数 H ...

随机推荐

正则表达式复习 (?<=) (?=)
1.首先值得一说的是"<" 和">" 不是元字符 "."是元字符 ,连接字符"-",即使在字符组内部也不一定 ...
[GO]随机生成四们数字
package main import ( "math/rand" "time" "fmt" ) func InitData(p *int) ...
Cloud Design Patterns: Prescriptive Architecture Guidance for Cloud Applications
January 2014 Containing twenty-four design patterns and ten related guidance topics, this guide arti ...
css总结1：position定位:absolute/relative/fixed
1 [Positioning(定位)] Positioning作用:指定了元素的定位类型.position包括四个值:static,relative,fixed,absolute. css定位解析:元 ...
Arduino I2C + 数字式环境光传感器BH1750FVI
BH1750FVI是日本罗姆(ROHM)半导体生产的数字式环境光传感IC.其主要特性有: I2C数字接口,支持速率最大400Kbps 输出量为光照度(Illuminance) 测量范围1~65535 ...
window phone 8资源管理器打开文件
一.打开安装包里面文件: StorageFolder sf = Package.Current.InstalledLocation;//ApplicationData.Current.LocalFol ...
Android动态显示或隐藏密码框中的密码（Android学习笔记）
activity_main.xml <LinearLayout xmlns:android="http://schemas.android.com/apk/res/android&qu ...
Selenium API（一）
1.设置浏览器大小: # -*- coding:utf- -*- from selenium import webdriver import time driver = webdriver.Firef ...
【bzoj3576】[Hnoi2014]江南乐数论分块+博弈论
Description 小A是一个名副其实的狂热的回合制游戏玩家.在获得了许多回合制游戏的世界级奖项之后,小A有一天突然想起了他小时候在江南玩过的一个回合制游戏. 游戏的规则是这样的,首先给定一个数F ...
CPU 的工作原理
内部架构 CPU 的根本任务就是执行指令,对计算机来说最终都是一串由 0 和 1 组成的序列.CPU 从逻辑上可以划分成 3 个模块,分别是控制单元.运算单元和存储单元 .其内部架构如下: [1]控制 ...

python爬虫之趟雷

python爬虫之趟雷整理

雷一：URLError

雷二：HTTPError

python爬虫之趟雷的更多相关文章

随机推荐

热门专题