urllib-Proxy

代理的使用：

首先，当我们正确爬取一个网页时，发现代码没有错误，可就是不能爬取网站。原因是有些网站设置了反爬取手段，就是知道你就是用python代码爬取该网站，设置了屏蔽。如果我们又想爬取该网站，便要我们使用代理服务了。

from urllib import request

url = "http://httpbin.org/"

headers = {

    #使用代理 伪装一个火狐浏览器

    "User-Agent":'Mozilla/5.0 (Windows NT 6.2; WOW64; rv:51.0) Gecko/20100101 Firefox/51.0',

    "host":'httpbin.org'

}

req = request.Request(url=url,headers=headers)      #发出url请求

response = request.urlopen(req)                     #打开req对象

print(response.read().decode("utf-8"))

from urllib import request

url = "http://httpbin.org/"

req = request.Request(url=url)      #发出url请求

req.add_header(

    "User-Agent",'Mozilla/5.0 (Windows NT 6.2; WOW64; rv:51.0) Gecko/20100101 Firefox/51.0'

)

response = request.urlopen(req)                     #打开req对象

print(response.read().decode("utf-8"))

意思就是以浏览器的身份去访问被屏蔽的网站，这样就不会被认为是python爬取的代码了

urllib-Proxy的更多相关文章

urllib的实现---timeout,获取http响应码，重定向，proxy的设置
1.Timeout设置超时只能修改Socket设置全局Timeout #! /usr/bin/env python3 import socket import urllib.request # ti ...
Python3使用urllib访问网页
介绍改教程翻译自python官网的一篇文档. urllib.request是一个用于访问URL(统一资源定位符)的Python模块.它以urlopen函数的形式提供了一个非常简单的接口,可以访问使用 ...
urllib源码简单分析
对下面这段代码做分析 import urllib params = urllib.urlencode({'wd': 'python'}) f = urllib.urlopen("http:/ ...
爬虫---request+++urllib
网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.另外一些不常使用的名字还有蚂蚁.自动索引.模拟程序或者蠕 ...
python2 urllib 笔记
python2 urllib 笔记 import urllib base='http://httpbin.org/' ip=base+'ip' r=urllib.urlopen(ip) print r ...
Python3学习笔记（urllib模块的使用）转http://www.cnblogs.com/Lands-ljk/p/5447127.html
Python3学习笔记(urllib模块的使用) 1.基本方法 urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, ...
urllib,urllib2,requests对比
#coding:utf-8 import urllib2 import urllib import httplib import socket import requests #实现以下几个方面内容: ...
[转]Python中urllib与urllib2的区别与联系
引用文章1:http://my.oschina.net/u/558071/blog/144792 引用文章2:http://zhuoqiang.me/python-urllib2-usage.html ...
python中urllib, urllib2,urllib3, httplib,httplib2, request的区别
permike原文python中urllib, urllib2,urllib3, httplib,httplib2, request的区别若只使用python3.X, 下面可以不看了, 记住有个ur ...
Python3 内建模块 hashlib、itertools、HTMLParser、urllib
Python的hashlib提供了常见的摘要算法,如MD5,SHA1等等. 什么是摘要算法呢?摘要算法又称哈希算法.散列算法.它通过一个函数,把任意长度的数据转换为一个长度固定的数据串(通常用16进制 ...

随机推荐

对称加密之AES加密详解
最近有人问我AES对称加密是啥,我回答了个大概,发现自己不能清晰的讲出来,特此记录,以供学习一.对称加密对称加密是最快速.最简单的一种加密方式,加密(encryption)与解密(decrypti ...
Sublime Text3—自带快捷键介绍
摘要: Sublime Text是个小巧便捷的编辑器,除了众多好用的插件外,还有它自带的快捷键,打代码事半功倍,不会用的赶紧看看吧! 其实菜单上都有,看不懂可以汉化,Key Bindings-Defa ...
java中getAttribute与getParameter方法的区别
知识点1:getAttribute表示从request范围取得设置的属性,必须要先setAttribute设置属性,才能通过getAttribute来取得,设置与取得的为object对象类型例: r ...
J.U.C-volatile
禁止指令重排
077、跨主机使用Rex-Ray volume （2019-04-24 周三）
参考https://www.cnblogs.com/CloudMan6/p/7630205.html 上一节我们在docker1上创建mysql容器,并使用了 Rex-Ray volume mys ...
Knockoutjs 响应式计算研究
reactive programming https://en.wikipedia.org/wiki/Reactive_programming In computing, reactive progr ...
iview-admin安装
桌面创建project文件夹. 文件夹内右键选择gitbash here,输入git init.文件夹内会生成.git文件夹. 再输入git config --global user.name &qu ...
Optimal Marks SPOJ 839
这题远超其他题非常靠近最小割的实际意义: 割边<=>付出代价<=>决定让两个点的值不相同,边权增加最小割<=>点的值与s一个阵营的与s相同,与t一个阵营的与t相同 ...
OOP的魔术方法
1.构造函数:__construct(): 构造函数是类中的一个特殊函数,当我们使用new关键字实例化对象时,相当于调用了类的构造函数. function __construct($name){ $t ...
apply,all,bind的区别
这三个都是用来改变this指向的 call() 和apply()的第一个参数相同,就是指定的对象.这个对象就是该函数的执行上下文.call()和apply()的区别就在于,两者接收的参数不一样.cal ...

urllib-Proxy

代理的使用：

urllib-Proxy的更多相关文章

随机推荐

热门专题