Python使用浏览器模拟访问页面之使用ip代理

最近需要使用浏览器模拟访问页面，同时需要使用不同的ip访问，这个时候就考虑到在使用浏览器的同时加上ip代理。

本篇工作环境为win10,python3.6.

Chorme

使用Chrome浏览器模拟访问，代码如下

import time

from selenium import webdriver

url = "https://www.cnblogs.com/"

driver = webdriver.Chrome("D:/tools/wedriver/chromedriver.exe")

driver.get(url)

time.sleep(2)

print(driver.title)

driver.close()

“D:/tools/wedriver/chromedriver.exe” 是下载的谷歌浏览器驱动，下载地址http://npm.taobao.org/mirrors/chromedriver/

chorme使用ip代理比较简单，使用如下代码即可

import time

from selenium import webdriver

url = "https://www.baidu.com/s?wd=ip"

proxy = "118.190.217.182:80"

chromeOptions = webdriver.ChromeOptions()  # 设置代理

chromeOptions.add_argument("--proxy-server=http://%s" % proxy)

driver = webdriver.Chrome("D:/tools/wedriver/chromedriver.exe", chrome_options=chromeOptions)

driver.get(url)

time.sleep(2)

print(driver.title)

driver.close()

得到的效果如下图：

可以见到百度查询到的本机ip已经改变。Chrome的这种代理方式中，访问使用http、https的网站都代理了。

Firefox

使用Firefox访问网页，代码如下：

import time

from selenium import webdriver

url = "https://www.cnblogs.com/"

driver = webdriver.Firefox()

driver.get(url)

time.sleep(2)

print(driver.title)

driver.close()

直接这样运行会遇到以下错误：

selenium.common.exceptions.WebDriverException: Message: 'geckodriver' executable needs to be in PATH.

需要装geckodriver，下载地址https://github.com/mozilla/geckodriver/releases。使用方式为，将对应版本geckodriver.exe放到python.exe的同目录下。

装好之后再次运行即可访问网站。

Firefox的ip代理较为麻烦，需要设置一些参数，具体如下

import time

from selenium import webdriver

url = "https://www.baidu.com/s?wd=ip"

proxy = "118.190.217.182:80"

ip, port = proxy.split(':')

profile = webdriver.FirefoxProfile()

profile.set_preference('network.proxy.type', 1)

profile.set_preference('network.proxy.http', ip)    # 设置http代理

profile.set_preference('network.proxy.http_port', int(port))  # 注意端口一定要使用数字而非字符串

profile.set_preference('network.proxy.ssl', ip)     # 设置https代理

profile.set_preference('network.proxy.ssl_port', int(port))

profile.update_preferences()

driver = webdriver.Firefox(profile)

driver.get(url)

time.sleep(2)

print(driver.title)

driver.close()

这里有两个注意点：

1.当需要访问的网站为https时，一定要设置network.proxy.ssl参数才行

2.协议的端口号一定要是整数，不能直接使用字符串，如果拿到的是字符串就使用int转一下；我之前就是使用了字符串，一直代理不生效，以为哪里出了问题，磨了半天。。。

运行以上代码之后，得到的页面和上一张图相同，这里不再贴图。

整体代码如下：

# encoding=utf-8

# date: 2018/9/14

__Author__ = "Masako"

import time

from selenium import webdriver

def visit_web(url, proxy):

    # chrome

    # chromeOptions = webdriver.ChromeOptions() # 设置代理

    # chromeOptions.add_argument("--proxy-server=http://%s" % proxy)

    # driver = webdriver.Chrome("D:/tools/wedriver/chromedriver.exe", chrome_options=chromeOptions)

    # firefox

    ip, port = proxy.split(':')

    profile = webdriver.FirefoxProfile()

    profile.set_preference('network.proxy.type', 1)

    profile.set_preference('network.proxy.http', ip)

    profile.set_preference('network.proxy.http_port', int(port))  # 注意端口一定要使用数字而非字符串

    profile.set_preference('network.proxy.ssl', ip)

    profile.set_preference('network.proxy.ssl_port', int(port))

    profile.set_preference("network.proxy.share_proxy_settings", True)

    profile.update_preferences()

    driver = webdriver.Firefox(profile)

    driver.get(url)

    time.sleep(2)

    print(driver.title)

    driver.delete_all_cookies()  # 清除cookies

    driver.close()

    driver.quit()

if __name__ == "__main__":

    url = "https://www.baidu.com/s?wd=ip"

    proxy = "118.190.217.182:80"

    visit_web(url, proxy)

Python使用浏览器模拟访问页面之使用ip代理的更多相关文章

chrome浏览器模拟访问移动端
谷歌Chrome浏览器,可以很方便地用来当3G手机模拟器.在Windows的[开始]-->[运行]中输入以下命令,启动谷歌浏览器,即可模拟相应手机的浏览器去访问3G手机网页: 谷歌Android ...
Win10 Edge浏览器应用商店 IE浏览器无法访问页面 0x8000FFFF 问题解决
基于Python, Selenium, Phantomjs无头浏览器访问页面
引言: 在自动化测试以及爬虫领域,无头浏览器的应用场景非常广泛,本文将梳理其中的若干概念和思路,并基于代码示例其中的若干使用技巧. 1. 无头浏览器通常大家在在打开网页的工具就是浏览器,通过界面上输 ...
Python爬虫常用之登录(二) 浏览器模拟登录
浏览器模拟登录的主要技术点在于: 1.如何使用python的浏览器操作工具selenium 2.简单看一下网页,找到帐号密码对应的框框,要知道python开启的浏览器如何定位到这些一.使用selen ...
python 跑服务器，访问自己制作的简单页面
1 python 跑服务器,访问自己制作的简单页面 2 # win+b出现一个网址http:/0.0.1:5000/复制到浏览器查看# http://127.0.0.1:5000/home 做这个首 ...
Python使用mechanize模拟浏览器
Python使用mechanize模拟浏览器之前我使用自带的urllib2模拟浏览器去进行訪问网页等操作,非常多站点都会出错误,还会返回乱码.之后使用了 mechanize模拟浏览器,这些情况都没出 ...
python 使用selenium模块爬取同一个url下不同页的内容（浏览器模拟人工翻页）
页面翻页,下一页可能是一个新的url 也有可能是用js进行页面跳转,url不变,解决方法是实现浏览器模拟人工翻页目标:爬取同一个url下不同页的数据(上述第二种情况) url:http://www. ...
在PC机上，如何用Chrome浏览器模拟查看和调试手机的HTML5页面？
如题,如何用PC机上的Chrome浏览器模拟查看和调试手机HTML5页面? 参考操作步骤如下: 第一步.用Chrome打开要调试的页面: 第二步.按F12,打开“开发者工具”,点击其右上角的“Dock ...
RF使用ie浏览器访问页面，浏览器启动只显示This is the initial start page for the WebDriver server，页面访问失败
问题描述:启动ie浏览器后,页面显示如下: 问题定位: 1.IE页面缩放没有设置成100% 2.ie浏览器的安全模式设置是否都将“启动保护模式”勾选上 3.iedriver驱动版本号是否和seleni ...

随机推荐

POJ1751 Highways 2017-04-14 15:46 70人阅读评论(0) 收藏
Highways Time Limit: 1000MS Memory Limit: 10000K Total Submissions: 14819 Accepted: 4278 Speci ...
Codeforces 766D Mahmoud and a Dictionary 2017-02-21 14:03 107人阅读评论(0) 收藏
D. Mahmoud and a Dictionary time limit per test 4 seconds memory limit per test 256 megabytes input ...
acm.njupt 1001-1026 简单题
点击可展开上面目录 Acm.njupt 1001-1026简单题第一页许多是简单题,每题拿出来说说,没有必要,也说不了什么. 直接贴上AC的代码.初学者一题题做,看看别人的AC代码,寻找自己的问题. ...
[label][paypal] Paypal 支付页面的语言显示问题
答复 Frank 通过 Email2014-11-12 02:01 上午您好感谢您联系PayPal商家技术支持中心. PayPal登陆页面的语言是PayPal服务器根据以下各种因素来自动判断的:1 ...
ORACLE PATCH 版本的查询 PL/SQL
--ORACLE PATCH 版本的查询 PL/SQL SELECT DD.PATCH_NAME, PP.CREATION_DATE, PP.DRIVER_FILE_NAM ...
ASP.NET系列：自定义配置节点的复用
appSettings太简单,为每个程序自定义配置节点太复杂,因此要解决app.config&web.config自定义配置的复用问题. 1.读取不依赖SectionName,根节点可以定义为 ...
PDF文档转换为图片、图片转成PDF 及PDF合并
简介功能:PDF文档按每页转换成一张图片,一张图片转换成一张PDF 并将多张PDF合成一个多页的PDF文档. 经历:在各个网站上搜索始终出现各种问题,尤其是遇到引用的版本问题尤其头疼,不是不能适用当 ...
Sql语法高级应用之一：使用sql语句如何实现不同的角色看到不同的数据
前言在常见的管理系统中,通常都有这样的需求,管理员可以看到所有数据,部门可以看到本部门的数据,组长可以看到自己组的数据,组员只能看到自己相关的数据. 一般人的做法是,根据不同的角色通过if...el ...
iOS Mac忘记登录密码的4种解决方法
4种方法: 一.使用Apple ID重置用户账户密码使用这个方法有一个前提如上图红框,此项必须勾选,否则无法使用Apple ID重置密码.(如果你不记得有没有勾选,则你起码要记得首次启动 OS X ...
python网络编程--进程(方法和通信),锁, 队列,生产者消费者模型
1.进程正在进行的一个过程或者说一个任务.负责执行任务的是cpu 进程(Process: 是计算机中的程序关于某数据集合上的一次运行活动,是系统进行资源分配和调度的基本单位,是操作系统结构的基础.在 ...

Python使用浏览器模拟访问页面之使用ip代理

Python使用浏览器模拟访问页面之使用ip代理的更多相关文章

随机推荐

热门专题