使用selenium+phantomJS实现网页爬取

有些网站反爬虫技术设计的非常好，很难采用WebClient等技术进行网页信息爬取，这时可以考虑采用selenium+phantomJS模拟浏览器（其实是真实的浏览器）的方式进行信息爬取。之前一直使用的selenium操作Firefox浏览器进行爬取，但是需要安装并打开firefox浏览器，实际操作中不方便配置且占用大量内存。今日发现网上介绍可以采用phantomJS（无界面浏览器），经测试，果然可以达到目的，只是会出现一个控制台，并不影响整体效果，所以将其记录下来，以方便以后使用。

第一步：下载selenium-dotnet，选择相应的版本并引用。

第二步：下载phantomjs-2.1.1-windows.zip(http://phantomjs.org/download.html),解压下载的文件，将phantomjs.exe文件拷贝到系统目录或者项目的exe目录下。

第三步：通过调用phantomjs爬取网页信息，代码如下：

1、创建driver实例

static IWebDriver GetPhantomJSDriver()

{

     return new OpenQA.Selenium.PhantomJS.PhantomJSDriver();

}

2、跳转到URL

/// <summary>

/// 跳转URL

/// </summary>

/// <param name="url"></param>

static bool Navigate(string url)

{

	try

	{

		driver = driver ?? GetPhantomJSDriver();

		if (driver == null)

		{

			return false;

		}

	}

	catch (WebDriverException e)

	{

		return false;

	}

	driver .Navigate().GoToUrl(url);

	return true;

}

3、之后就可以解析获取想要的信息。

使用selenium+phantomJS实现网页爬取的更多相关文章

使用Selenium&PhantomJS的方式爬取代理
前面已经爬取了代理,今天我们使用Selenium&PhantomJS的方式爬取快代理 :快代理 - 高速http代理ip每天更新. 首先分析一下快代理,如下使用谷歌浏览器,检查,发现每个代理 ...
selenium&phantomjs实战--漫话爬取
为什么直接保存当前网页,而不是找到所有漫话链接,再有针对性的保存图片? 因为防盗链的原因,当直接保存漫话链接图片时,只能保存到防盗链的图片. #!/usr/bin/env python # _*_ c ...
动态网页爬取例子（WebCollector+selenium+phantomjs）
目标:动态网页爬取说明:这里的动态网页指几种可能:1)需要用户交互,如常见的登录操作:2)网页通过JS / AJAX动态生成,如一个html里有<div id="test" ...
针对源代码和检查元素不一致的网页爬虫——利用Selenium、PhantomJS、bs4爬取12306的列车途径站信息
整个程序的核心难点在于上次豆瓣爬虫针对的是静态网页,源代码和检查元素内容相同:而在12306的查找搜索过程中,其网页发生变化(出现了查找到的数据),这个过程是动态的,使得我们在审查元素中能一一对应看到 ...
Selenium+Chrome/phantomJS模拟浏览器爬取淘宝商品信息
#使用selenium+Carome/phantomJS模拟浏览器爬取淘宝商品信息 # 思路: # 第一步:利用selenium驱动浏览器,搜索商品信息,得到商品列表 # 第二步:分析商品页数,驱动浏 ...
Node.js 动态网页爬取 PhantomJS 使用入门(转)
Node.js 动态网页爬取 PhantomJS 使用入门原创NeverSettle101 发布于2017-03-24 09:34:45 阅读数 8309 收藏展开版权声明:本文为 winte ...
使用urllib进行网页爬取
# coding=gbk # 抓取开奖号码 # url:http://datachart.500.com/dlt/zoushi/jbzs_foreback.shtml ''' 对网页逐行迭代,找到目标 ...
WebFetch 是无依赖极简网页爬取组件
WebFetch 是无依赖极简网页爬取组件,能在移动设备上运行的微型爬虫. WebFetch 要达到的目标: 没有第三方依赖jar包减少内存使用提高CPU利用率加快网络爬取速度简洁明了的api ...
Python和BeautifulSoup进行网页爬取
在大数据.人工智能时代,我们通常需要从网站中收集我们所需的数据,网络信息的爬取技术已经成为多个行业所需的技能之一.而Python则是目前数据科学项目中最常用的编程语言之一.使用Python与Beaut ...

随机推荐

[poi2007]mem
题意:给定点数n<=300000的一棵树,然后初始时每条边权值为1,接下来按照时间点先后顺序的n+m-1个操作, 操作有两种: 1.A a b 把a到b的边权改为0 2.W u 求1号点到u号点 ...
linux定时执行任务crontab命令用法
linux系统的定时任务是由 cron (crond) 这个系统服务来控制的.Linux 系统上面原本就有非常多的计划性工作,因此这个系统服务是默认启动的.另外, 由于使用者自己也可以设置计划任务,所 ...
《利用Python进行数据分析》第7章学习笔记
数据规整化:清理.转换.合并.重塑合并数据集 pandas.merge pandas.concat combine_first 数据库风格的DataFrame合并索引上的合并 join()实例方法 ...
Cron表达式备忘
Cron表达式(在Quartz.net里面会用到) 由7段构成:秒分时日月星期年(可选)"-" :表示范围 MON-WED表示星期一到星期三"," ...
Arcgis –>ArcToolBox 有些工具不能用，没有许可
问题描述错误信息: You do not have the necessary license to execute the selected tool 我3D Analyst是有许可的. ...
STC12C5A60S2笔记8（串口）
1. 基本特性 1) 概念 1.1) 并行通信:数据的各位同时进行传输,传输速度快: 1.2)串行通信:通过一根或两根数据线传输数据,数据在信号线上依次传输:串行通信分为同步和异步两种: 1.2.1) ...
ReentrantLock实现原理深入探究
前言这篇文章被归到Java基础分类中,其实真的一点都不基础.网上写ReentrantLock的使用.ReentrantLock和synchronized的区别的文章很多,研究ReentrantLoc ...
web.xml详解
web.xml的作用 web.xml,一个Tomcat工程中最重要的配置文件.web.xml没有其实也可以----只要你确定你的项目里面不需要任何过滤器.监听器.Servlet等等.我试了一下,没有w ...
TW2015技术雷达中文版发布
今天thoughtworks 2015新版技术雷达pdf发布了,你可以从这里下载http://engage.thoughtworks.com/HQ0000Q0QOf5pE70nbD00GP,在这里你可 ...
[.net 面向对象编程基础] (7) 基础中的基础——流程控制语句
[.net 面向对象编程基础] (7) 基础中的基础——流程控制语句本来没有这一节的内容,后来考虑到既然是一个系列文章,那么就尽可能写的详细一些,本节参考了网上朋友所写的例子,为的是让更多小伙伴学习 ...

使用selenium+phantomJS实现网页爬取

使用selenium+phantomJS实现网页爬取的更多相关文章

随机推荐

热门专题