关于python中phantomjs无法访问网页的处理

笔者使用的系统是linux ubuntu，最近在学习爬虫的过程中遇到了一个抓狂的问题，我尝试使用selenium加phantomjs来登陆网页的时候，Pythony一直提示selenium无法找到元素，不管我怎样修改定位的方法，永远出现No such elements的错误，让我几乎抓狂。再确认了测试了好几遍编写的代码后，我将程序出现的错误定位在了其中这几行代码里面

>>> from selenium import webdriver
>>> driver = webdriver.PhantomJS()
>>> driver.get("http://weibo.com")

正常情况下，这三行无比简单的代码是不可能有错的，但是事实告诉我错就在这里。

>>> driver.page_source
'<html><head></head><body></body></html>'

我尝试查看网页的源码，结果出来的就只有这些，新浪主页就这点东西？？？

>>> driver.get("asfgsdagshgdfh")
>>> driver.page_source
'<html><head></head><body></body></html>'

接下来我尝试乱输了一堆字符进去，查看源代码，还是这堆东西，这就让我比较抓狂了。随便输都是这样，那代表我安装的phantomjs浏览器是无法访问网页的，在按照网上的方法重新安装了最新的phantomojs后，结果还是这样，来来回回重装了N次，丝毫没有作用，折腾了一个下午也没有出结果

>>> driver.get("http://news.sina.com.cn/")
dri
>>> len(driver.page_source)
584412
>>>

再然后我不报希望的测试其它网页，百度，微博都是不行的，但新浪网反而可以访问，刚开始我觉得问题可能是出在网页的设置上，在更改了浏览器的headers之后还是无法访问，又经过几次尝试和归类，总结出这家伙其实是不能访问https开头的网址，http是超文本传输协议，s是ssl加密，https就是http加ssl，这就意味着我其实是不能访问经过ssl加密后的http网站。得到了这个结论之后，我开始在寻找解决的方法，在翻遍了国内各大网站无果后，我在国外的一个论坛发现了解决的办法。

driver=webdriver.PhantomJS(service_args=['--ssl-protocol=any'])
or
driver = webdriver.PhantomJS( service_args=['--ignore-ssl-errors=true'])

就这么一行简单的代码。
其实phantomjs的参数是可以在构造时设定的，我无法访问https的网站就是因为参数错了，在创建浏览器对象时将ssl的属性设置为any就可以解决。

关于python中phantomjs无法访问网页的处理的更多相关文章

Python中的属性访问与描述符
Python中的属性访问与描述符请给作者点赞--> 原文链接在Python中,对于一个对象的属性访问,我们一般采用的是点(.)属性运算符进行操作.例如,有一个类实例对象foo,它有一个nam ...
Python调用Webservice、访问网页
昨天在调试Webservice的时候,由于不想写测试程序,就想用Python访问Webservice,结果还是相当的麻烦.远没有VSIDE用的方便不得不说VS还是很强大的,人性化做的很好,不需要你看 ...
在Python中使用BeautifulSoup进行网页爬取
目录什么是网页抓取? 为什么我们要从互联网上抓取数据? 网站采集合法吗? HTTP请求/响应模型创建网络爬虫步骤1:浏览并检查网站/网页步骤2:创建用户代理步骤3:导入请求库检查状态码步 ...
Python中通过cx_Oracle访问数据库遇到的问题总结
以下是Python中通过cx_Oracle操作数据库的过程中我所遇到的问题总结,感谢我们测试组的前辈朱勃给予的帮助最终解决了下列两个问题: 1)安装cx_Oracle会遇到的问题:在Windo ...
Python 中的属性访问与描述符
在Python中,对于一个对象的属性访问,我们一般采用的是点(.)属性运算符进行操作.例如,有一个类实例对象foo,它有一个name属性,那便可以使用foo.name对此属性进行访问.一般而言,点(. ...
python+selenium+PhantomJS爬取网页动态加载内容
一般我们使用python的第三方库requests及框架scrapy来爬取网上的资源,但是设计javascript渲染的页面却不能抓取,此时,我们使用web自动化测试化工具Selenium+无界面浏览 ...
Python中使用 Selenium 实现网页截图实例
Selenium 是一个可以让浏览器自动化地执行一系列任务的工具,常用于自动化测试.不过,也可以用来给网页截图.目前,它支持 Java.C#.Ruby 以及 Python 四种客户端语言.如果你使用 ...
使用python标准库urllib2访问网页
#访问不需要登录的网页import urllib2target_page_url='http://10.224.110.118/myweb/view.jsp' f = urllib2.urlopen( ...
python中定义函数和参数的传递问题
作者:達聞西链接:https://zhuanlan.zhihu.com/p/24162430来源:知乎著作权归作者所有.商业转载请联系作者获得授权,非商业转载请注明出处. 5.2.4 函数.生成器和类 ...

随机推荐

PS 滤镜——旋转模糊
这里给出灰度图像的模糊算法,彩色图像只要分别对三个通道做模糊即可. %% spin blur % 旋转模糊 clc; clear all; close all; I=imread('4.jpg'); ...
android的服务分类-andrioid学习之旅（94）
摘自韩国棒子的书,android框架摘要 android服务类型分类,如下图: 对于本地服务,有两种类型,一中是绑定进行数据交流,一种是不绑定的,生命周期如下图:
使用微服务架构思想，设计部署OAuth2.0授权认证框架
1,授权认证与微服务架构 1.1,由不同团队合作引发的授权认证问题去年的时候,公司开发一款新产品,但人手不够,将B/S系统的Web开发外包,外包团队使用Vue.js框架,调用我们的WebAPI,但是 ...
自动布局Autoresizing与Autolayout
一.关于iPhone屏幕的一些基本常识 1.ios屏幕适配的尺寸 iPhone的尺寸3.5inch.4.0inch.4.7inch.5.5inch iPad的尺寸7.9inch.9.7inch 2.点 ...
eclipse调试的方法和技巧
eclipse调试图标所代表的含义: Step into 单步进入-将进入执行的方法内部继续执行. Step over 单步前进-执行下一步. Step return – 单步退出-跳出正在执行的方 ...
struts2线程安全
struts2线程安全 2012-02-16 21:07:58 分类: 系统运维问题:Struts 2 Action对象为每一个请求产生一个实例,因此没有线程安全问题.Spring的Ioc容器管理 ...
layerX参数构建
var defaults = { name: 'layerX', url: [ { name: 'sub', url: '', focus: true } ], parent: { name: '', ...
浅析跨域的方法之一 JSONP
概念: 什么叫跨域? 同源策略:它是由Netscape提出的一个著名的安全策略.现在所有支持JavaScript 的浏览器都会使用这个策略. 所谓同源是指,域名,协议,端口相同. 同源的脚本才会被执行 ...
Kinect 骨骼追踪数据的处理方法
http://www.ituring.com.cn/article/196144 作者/ 吴国斌博士,PMP,微软亚洲研究院学术合作经理.负责中国高校及科研机构Kinect for Windows学 ...
Ubuntu 安装LAMP
简要记录一下. 环境准备虚拟机环境 lz@starnight:~$ sudo -i [sudo] password for lz: root@starnight:~# cat /etc/issue ...

关于python中phantomjs无法访问网页的处理

关于python中phantomjs无法访问网页的处理的更多相关文章

随机推荐

热门专题