python抓取数据，python使用socks代理抓取数据

　　在python中，正常的抓取数据直接使用urllib2 这个模块：

import urllib2

url = 'http://fanyi.baidu.com/'

stream = urllib2.urlopen(url)

cont = stream.read()

print cont

　　如果要走http代理的话，我们也可以使用urllib2，不需要引用别的模块：

import urllib2

url = 'https://clients5.google.com/pagead/drt/dn/dn.js'

proxy_handler = urllib2.ProxyHandler({'http':'127.0.0.1:1080'})

opener = urllib2.build_opener(proxy_handler)

f = opener.open(url)

print f.read()

　　如果要使用socks5代理，我们需要别的模块 sockes， socket，我们可以通过pip install socksipy ，（我是windows的系统，还需要另外的一个模块， pip install win_inet_pton）建议直接下载安装包到python的安装目录，切换到对应目录，执行python setup.py install安装，真被大天朝的墙给坑死了，然后在需要代理的模块上添加socket代码：

import socks

import socket

socks.setdefaultproxy(socks.PROXY_TYPE_SOCKS5, "127.0.0.1", )

socket.socket = socks.socksocket

　　完整的代码如下：

//添加的代码开头
import win_inet_pton

import socks

import socket

socks.setdefaultproxy(socks.PROXY_TYPE_SOCKS5, "127.0.0.1", )

socket.socket = socks.socksocket
//添加的代码结束

import urllib2

steam = urllib2.urlopen('https://clients5.google.com/pagead/drt/dn/dn.js')

print steam.read()

　　使用requests模块，我们也在requests之前添加socket的代码，后面的http请求不用改了，还是走原来的逻辑：

//添加的代码开头
import win_inet_pton

import socket

import socks

import requests

ip='localhost'

port =

socks.setdefaultproxy(socks.PROXY_TYPE_SOCKS5, ip, port)

socket.socket = socks.socksocket

//添加的代码结束
url = 'https://clients5.google.com/pagead/drt/dn/dn.js'

print requests.get(url).text

作者： NONO
出处：http://www.cnblogs.com/diligenceday/

企业网站：http://www.idrwl.com/ 厦门点燃未来网络科技
开源博客：http://www.github.com/sqqihao
QQ：287101329

微信：18101055830

厦门点燃未来网络科技有限公司，是厦门最好的微信应用，小程序，微信网站，公众号开发公司

python抓取数据，python使用socks代理抓取数据的更多相关文章

部分APP无法代理抓包的原因及解决方法
引言 HTTP应用层的抓包已经成为日常工作测试与调试中的重要一环,最近接触新项目突然之间发现之前的抓包手段都不好使了,顿时模块与模块之间的前端与服务之间的交互都变成了不可见,整个人都好像被蒙住了眼睛. ...
Python开发爬虫之动态网页抓取篇：爬取博客评论数据——通过Selenium模拟浏览器抓取
区别于上篇动态网页抓取,这里介绍另一种方法,即使用浏览器渲染引擎.直接用浏览器在显示网页时解析 HTML.应用 CSS 样式并执行 JavaScript 的语句. 这个方法在爬虫过程中会打开一个浏览器 ...
【Python入门只需20分钟】从安装到数据抓取、存储原来这么简单
基于大众对Python的大肆吹捧和赞赏,作为一名Java从业人员,我本着批判与好奇的心态买了本python方面的书<毫无障碍学Python>.仅仅看了书前面一小部分的我......决定做一 ...
如何抓取电商的数据 & Python
如何抓取电商的数据 & Python https://www.zhihu.com/question/40720286 https://www.zhihu.com/question/382455 ...
用Python抓取并分析了1982场英雄联盟数据，教你开局前预测游戏对局胜负！
英雄联盟想必大多数读者不会陌生,这是一款来自拳头,由腾讯代理的大型网络游戏,现在一进网吧,你就能发现一大片玩英雄联盟的人.在2017年中国战队无缘鸟巢的世界总决赛后,一大片人选择了弃游,只是终究没躲过 ...
【转】详解抓取网站，模拟登陆，抓取动态网页的原理和实现（Python，C#等）
转自:http://www.crifan.com/files/doc/docbook/web_scrape_emulate_login/release/html/web_scrape_emulate_ ...
python网络爬虫（10）分布式爬虫爬取静态数据
目的意义爬虫应该能够快速高效的完成数据爬取和分析任务.使用多个进程协同完成一个任务,提高了数据爬取的效率. 以百度百科的一条为起点,抓取百度百科2000左右词条数据. 说明参阅模仿了:https: ...
我不就是吃点肉，应该没事吧——爬取一座城市里的烤肉店数据（附完整Python爬虫代码）
写在前面的一点屁话: 对于肉食主义者,吃肉简直幸福感爆棚!特别是烤肉,看着一块块肉慢慢变熟,听着烤盘上"滋滋"的声响,这种期待感是任何其他食物都无法带来的.如果说甜点是" ...
使用python/casperjs编写终极爬虫-客户端App的抓取-ZOL技术频道
使用python/casperjs编写终极爬虫-客户端App的抓取-ZOL技术频道使用python/casperjs编写终极爬虫-客户端App的抓取

随机推荐

IE中div被视频遮住的解决方法
使用embed来内嵌视频,因为视频是windows media player,上面想用div浮动一些内容,之前尝试了一些方法,比如 1. 通过设定不同组件的z-index值 2. 通过设定 wmode ...
Google 镜像站搜集
在特殊的地方和特殊的时间,流畅顺利的打开一个网站也变得如此艰难. 2016.01.16 更新.本站订阅更新功能已上线,欢迎订阅! 以下是直接使用谷歌的方法,如需***戳这里(VPN | Shadows ...
JavaScript进阶系列01,函数的声明，函数参数，函数闭包
本篇主要体验JavaScript函数的声明.函数参数以及函数闭包. □ 函数的声明 ※ 声明全局函数通常这样声明函数: function doSth() { alert("可以在任何时候调 ...
VS Supercharger插件的破解
Supercharger我已经用了很多年了,感觉十分不错,最初使用的时候,是叫做CodeMap.不过要想很好的使用起来这个VS插件,需要对其进行细致的设置. 这里不再多说了,看下,这个软件怎么破解吧. ...
java的异常和java web容器的异常
一.java的异常,只要catch住异常了,程序就不会挂,依然会执行catch之后的语句 Java程序发生异常就挂了吗? 为了验证程序不会挂,我写了个例子给大家看看. 测试代码: import jav ...
【pycharm】pycharm上安装tensorflow，报错：AttributeError: module 'pip' has no attribute 'main' 解决方法
pycharm上安装tensorflow,报错:AttributeError: module 'pip' has no attribute 'main' 解决方法解决方法: 在pycharm的安装目 ...
redis + Tomcat 8 的session共享解决
如果英文不错的看,建议直接看官网吧,官网写的挺清楚.下面的内容是转载的一篇文章,自己补充了一些,供大家参考,也欢迎大家一起讨论官方截止到2015-10-12前是不支持Tomcat8的,详情见官网:h ...
应用内截屏的代码，在Activity中测试可用
截屏功能让我十分头疼,想做个无需root的又找不到资料.这里暂且分享一个无需root的,在应用内截屏的代码,本文转自:http://blog.csdn.net/csh159/article/detai ...
Java生成8位随机邀请码,不重复
public static String[] chars = new String[] { "a", "b", "c", "d&q ...
<A>标签锚标记
链接到本页面 – 锚记标签用于使用户“跳”到文档的某个部分 – HTML 的NAME 属性用于创建锚标记 <A NAME = “marker”>主题名称</A> – 为达到这种 ...

python抓取数据，python使用socks代理抓取数据

python抓取数据，python使用socks代理抓取数据的更多相关文章

随机推荐

热门专题