# coding=utf-8

# urllib
"""
使用python的urllib库去模拟浏览器请求网页,常用内容如下: urllib.request 发送HTTP请求
urllib.error 处理请求过程中出现的异常
urllib.parse 处理url
urllib.robotparser 解析robots.txt """ # 处理ssl异常
# import ssl
# ssl._create_default_https_context = ssl._create_unverified_context # 1.使用urllib.request请求网页
# import urllib.request # url = "https://www.jianshu.com"
# data = urllib.request.urlopen(url) # 请求url这个网页,返回值类型为对象
# print(data.read().decode()) # 打印网页源代码,默认为bytes类型,decode()后解码为utf-8 # print(data.geturl()) # 打印请求地址
# print(data.getcode()) # 返回请求结果的状态码 200表示请求正常
# print(data.info()) 返回请求url时的headers相关信息 # 2.模拟浏览器访问 添加headers头信息 '''
代码访问网页和电脑访问时传递的headers内容不同,
因此将headers修改为电脑访问网址时的headers,
就可以将代码伪装成浏览器来访问网页。
'''
# import urllib.request # url = "https://www.jianshu.com"
#
# # headers类型是字典,尽量使用关键字参数传参
# headers = {
# 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'
# } # 在请求中添加已伪装好的headers
'''
urllib.request.Request接受一个data(字典类型)的参数,
当没有传data参数时,默认为get请求
需要post请求时,传一个data参数,会自动识别为post请求
data = {'a':1}
data = urllib.parse.urlencode(data).encode() # 编码为bytes类型
request = urllib.request.Request(url,data=data,headers=headers) #实例
'''
# request = urllib.request.Request(url, headers=headers)
#
# # 访问网站
# urllib.request.urlopen(request) # 3.cookie的使用,分三个步骤
"""
部分网站需药cookies信息才能登陆,urllib中提供携带cookie信息的请求
分三个步骤:
创建cookieJar对象
创建cookie处理器
安装处理器
"""
# import urllib.request
# import http.cookiejar
#
# url = "https://www.jianshu.com"
# 1.创建cookieJar对象
# cookie_jar = http.cookiejar.CookieJar() # 2.使用HTTPCookieProcessor创建cookie处理器,并以它为参数创建opener对象
# opener = urllib.request.build_opener(urllib.request.HTTPCookieProcessor(cookie_jar))
#
# 3.把opener变成urlopen
# urllib.request.install_opener(opener) # 此时发起的请求就已经携带了cookie信息
# data = urllib.request.urlopen(url)
# print(cookie_jar) # 4.设置代理 请求别人的网站
"""
一般网站可能存在反爬虫机制,最基础的反爬就是检测IP,
如果一个IP频繁出现,可能就会被识别为爬虫
因此,使用代理(就是利用别人的IP+端口)伪装自己的IP地址
分为三个步骤:
创建代理处理器
创建opener对象
安装处理器
"""
# import urllib.request # url = "http://httpbin.org/ip" # 用于测试ip地址的网站 # 使用代理时,将代理处理为一下格式
# proxy = {'http': '115.193.96.143:9000', 'https': '115.193.96.143:9000'} # 1.创建代理处理器
# proxies = urllib.request.ProxyHandler(proxy) # 2.创建opener对象
# opener = urllib.request.build_opener(proxies, urllib.request.HTTPHandler) # 3.安装
# urllib.request.install_opener(opener) # 此时,发起的请求就不是自己的ip地址,而是一个匿名的代理IP
# data = urllib.request.urlopen(url)
# print(data.read().decode()) # 5.异常处理urllib.error URLError(父类) HTTPError
"""
用于处理请求时发生的一些异常,常用的URLError和HTTPError
URLError用于处理请求地址或服务器不存在的情况
HTTPError用于服务器存在但是页面不存在的情况
"""
import urllib.error
import urllib.request # url = "http://www.1844hhjhhlkxxx.com"
# try:
# urllib.request.urlopen(url)
# except urllib.error.URLError as e:
# print(e.reason) # 打印异常原因 # url = 'https://jianshu.com/p/sddfsdf'
# try:
# urllib.request.urlopen(url)
# except urllib.error.URLError as e:
# # 判断是否有code属性,如果有code属性说明是HTTPError
# if hasattr(e, "code"):
# print("HTTPError")
# # 判断是否有reason属性,如果有reason属性说明是URLError
# elif hasattr(e, "reason"):
# print("URLError") # 5.urllib.parse 解析url
"""
对请求的url进行一定的处理
"""
import urllib.parse # urllib.parse.urljoin() # 拼接字符串,对url进行一定的拼接
# urllib.parse.urlencode() # 将字典转化为转字符串
# urllib.parse.urlquote() # url解码
# urllib.parse.urlunquote() # url编码 # 请求地址中含有中文时,需要将其编码为ascii格式
# url = 'http://www.baidu.com/s?wd={}'.format(urllib.parse.urlunqote('爬虫')) # data = {'a': 1, 'b': 2}
# print(urllib.parse.encode(data))
#
# print(urllib.parse.urljoin('http://www.baidu.com/', 's?wd=')) # 6.urllib3请求库 # import urllib3
# http = urllib3.PoolManager() # 发送请求,参数为请求方法和请求地址
# r = http.request("GET", 'https://www.jianshu.com', redirect=False) # 关闭重定向

请求库urllib和urllib3的更多相关文章

  1. Python3编写网络爬虫01-基本请求库urllib的使用

    安装python后 自带urllib库 模块篇 分为几个模块如下: 1. urllib.request 请求模块 2. urllib.parse 分析模块 3. urllib.error 异常处理模块 ...

  2. Python 爬虫十六式 - 第二式:urllib 与 urllib3

    Python请求标准库 urllib 与 urllib3 学习一时爽,一直学习一直爽!   大家好,我是 Connor,一个从无到有的技术小白.上一次我们说到了什么是HTTP协议,那么这一次我们就要动 ...

  3. Python网络请求urllib和urllib3详解

    Python网络请求urllib和urllib3详解 urllib是Python中请求url连接的官方标准库,在Python2中主要为urllib和urllib2,在Python3中整合成了urlli ...

  4. Python3爬虫(三)请求库的使用之urllib

    Infi-chu: http://www.cnblogs.com/Infi-chu/ 一.urllib库: 1. 是Python内置的HTTP请求库 2. 在Python2中,由urllib和urll ...

  5. python中urllib, urllib2,urllib3, httplib,httplib2, request的区别

    permike原文python中urllib, urllib2,urllib3, httplib,httplib2, request的区别 若只使用python3.X, 下面可以不看了, 记住有个ur ...

  6. 爬虫请求库——requests

    请求库,即可以模仿浏览器对网站发起请求的模块(库). requests模块 使用requests可以模拟浏览器的请求,requests模块的本质是封装了urllib3模块的功能,比起之前用到的urll ...

  7. urllib和urllib3

    urllib库 urllib 是一个用来处理网络请求的python标准库,它包含4个模块. urllib.request---请求模块,用于发起网络请求 urllib.parse---解析模块,用于解 ...

  8. 爬虫(一)—— 请求库(一)requests请求库

    目录 requests请求库 爬虫:爬取.解析.存储 一.请求 二.响应 三.简单爬虫 四.requests高级用法 五.session方法(建议使用) 六.selenium模块 requests请求 ...

  9. python学习笔记——爬虫学习中的重要库urllib

    1 urllib概述 1.1 urllib库中的模块类型 urllib是python内置的http请求库 其提供了如下功能: (1)error 异常处理模块 (2)parse url解析模块 (3)r ...

随机推荐

  1. 设计模式(十一)Composite模式

    Composite模式模式能够使容器与内容具有一致性,创造出递归结构.有时,与将文件夹和文件都作为目录条目看待一样,将容器和内容作为同一种东西看待,可以帮助我们方便地处理问题.在容器中既可以放入内容, ...

  2. QQ聊天记录分析

    今天我们用R语言来处理一下.我们会用到一下技术:. (1)正则表达式 (2)词频统计 (3)文本可视化 (4)ggplot2绘图 (5)中文分词 一.数据处理 首先我们要讲QQ聊天记录导出成txt文件 ...

  3. spring cloud 面试题总结

    前言,随着分布式的时代到来,现在微服务越来越火了,Spring Cloud已经成为一个面试必问的考点,下面我们就Cloud这一些列的组件来一个入门到面试的过程.开篇前,先让大家看几个常见的Spring ...

  4. ajax 跨域问题处理

    第一种方法 服务端处理 response.addHeader("Access-Control-Allow-Origin", "*"); 第二种 客户端使用Jso ...

  5. SpringBoot正确打日志的姿势

    前篇 Spring Boot 日志处理你还在用Logback? 本文简介 前篇侧重 Log4j2 的配置,本篇侧重统一日志处理的应用,以下包含 HTTP 请求的日志处理.Exception 异常日志处 ...

  6. 清华大学教学内核ucore学习系列(1) bootloader

    ucore是清华大学操作系统课程的实验内核,也是一个开源项目,是不可多得的非常好的操作系统学习资源 https://github.com/chyyuu/ucore_lab.git, 各位同学可以使用g ...

  7. 20190630模拟赛B(单调队列优化dp)

    .dp无疑了其实. 在考场上,我写了一个错解,但是数据小都能过,只是会爆空间,考场上想着怎么用滚动数组优化来着....把错解的方程列出来吧 ;i<=n;i++) { ;j<=k;j++) ...

  8. P2380 狗哥采矿

    #include<iostream> #include<algorithm> #include<cstring> ; using namespace std; in ...

  9. 吐血推荐珍藏的Visual Studio Code插件

    作为一名Java工程师,由于工作需要,最近一个月一直在写NodeJS,这种经历可以说是一部辛酸史了.好在有神器Visual Studio Code陪伴,让我的这段经历没有更加困难.眼看这段经历要告一段 ...

  10. 百度艾尼ERNIE专场再入魔都,11月23日线下开讲!

    这个十一月,是属于深度学习开发者们的秋季盛宴.『WAVE Summit+』2019 深度学习开发者秋季峰会刚刚落下帷幕,基于ERNIE的语义理解工具套件也在此次峰会上全新发布,旨在为企业级开发者提供更 ...