selenium-java爬虫实现

推荐的网站学习网站

　　1.官方文档　　http://www.seleniumhq.org/docs/

　　2.selenium多线程　　http://www.cnblogs.com/dingmy/p/3438084.html

Selenium Standalone Server

搭建RC环境

　　1.下载Selenium Standalone Server（http://www.seleniumhq.org/download/）

　　2.下载Chrome Drivers,与selenium-server-standalone.jar包放在同目录（http://www.seleniumhq.org/download/）

启动hub

　　1.打开终端，切换到selenium-server-standalone所在的目录

　　2.执行java -jar selenium-server-standalone-3.2.0.jar -role hub -maxSession 40 -port 4444

　 3.启动成功时，提示信息信息如图

参数说明：

maxSession最大会话数

port 监听端口，默认4444，如果监听端口被其他程序占用，程序无法启动成功（可自定义）

启动node

打开终端，切花对应目录

1.执行java -Dwebdriver.chrome.driver=D:\chromeDriver\chrodriver.exe -jar selenium-server-standalone-3.2.0.jar -role node -hub http://(自己的ip):4444/grid/register -maxSession 20 -browser "browser=chrome,maxInstances=20" -port 5555

参数说明：

-Dwebdriver.chrome.driver chrome驱动

-hub hub服务器地址

-browser 设置浏览器参数，最大进程数

-maxSession 最大会话数，注意分支node上的最大会话数不能超过hub服务器上定义的最大会话数

-port 监听端口，默认5555

调用RC

DesiredCapabilities capabilities = DesiredCapabilities.chrome();

WebDriver driver = new RemoteWebdriver(new URL(new URL("http://192.168.199.146:4444/wd/hub")),capabilities);

要在代码中始终selenium工具，需要在maven配置中添加依赖

<groupId>org.seleniumhq.selenium</groupId>

<artifactId>selenium-java</artifactId>

</dependency>

注意：最后选用最好都使用最新版本，因为要和浏览器兼容（曾经踩过的坑）。

selenium-java爬虫实现的更多相关文章

（java）selenium webdriver爬虫学习--爬取阿里指数网站的每个分类的top50 相关数据；
主题:java 爬虫--爬取'阿里指数'网站的每个分类的top50 相关数据: 网站网址为:http://index.1688.com/alizs/top.htm?curType=offer& ...
java爬虫的selenium基础使用
实用博客 selenium java教程具体项目运用项目背景:从西安市人民政府网站上获取到县区新闻,从下图可以看出“区县热点”是需要在页面中进行点击的,这里页面使用的是javascript的函数 ...
webmagic的设计机制及原理-如何开发一个Java爬虫
之前就有网友在博客里留言,觉得webmagic的实现比较有意思,想要借此研究一下爬虫.最近终于集中精力,花了三天时间,终于写完了这篇文章.之前垂直爬虫写了一年多,webmagic框架写了一个多月,这方 ...
JAVA爬虫 WebCollector
JAVA爬虫 WebCollector 爬虫简介: WebCollector是一个无须配置.便于二次开发的JAVA爬虫框架(内核),它提供精简的的API,只需少量代码即可实现一个功能强大的爬虫. 爬虫 ...
Java爬虫框架调研
Python中大的爬虫框架有scrapy(风格类似django),pyspider(国产python爬虫框架). 除了Python,Java中也有许多爬虫框架. nutch apache下的开源爬虫程 ...
webmagic的设计机制及原理-如何开发一个Java爬虫转
此文章是webmagic 0.1.0版的设计手册,后续版本的入门及用户手册请看这里:https://github.com/code4craft/webmagic/blob/master/user-ma ...
selenium在爬虫领域的初涉（自动打开网站爬取信息）
selenium简介 Selenium 是一个用于Web应用程序测试的工具.Selenium测试直接运行在浏览器中,就像真正的用户在操作一样.这个工具的主要功能包括:测试与浏览器的兼容性--测试你的应 ...
Python使用selenium进行爬虫（一）
JAVA爬虫框架很多,类似JSOUP,WEBLOGIC之类的爬虫框架都十分好用,个人认为爬虫的大致思路就是: 1.挑选需求爬的URL地址,将其放入需求网络爬虫的队列,也可以把爬到的符合一定需求的地址放 ...
Java 爬虫遇上数据异步加载，试试这两种办法！
这是 Java 爬虫系列博文的第三篇,在上一篇 Java 爬虫遇到需要登录的网站,该怎么办? 中,我们简单的讲解了爬虫时遇到登录问题的解决办法,在这篇文章中我们一起来聊一聊爬虫时遇到数据异步加载的问题 ...
selenium第一课（selenium+java+testNG+maven）
selenium介绍和环境搭建一.简单介绍 1.selenium:Selenium是一个用于Web应用程序测试的工具.Selenium测试直接运行在浏览器中,就像真正的用户在操作一样.支持的浏览器包 ...

随机推荐

leetcode 29两数相除
我理解本题是考察基于加减实现除法,代码如下: class Solution { public: //只用加减号实现除法, //不用加减号实现除法: int divide(int dividend, i ...
awk 数值和字符串比较问题
在linux终端输入如下命令: > echo "10025350462330387914 10025350462330388480" | awk '{if ($1 == $2 ...
JavaEE-实验三 Java数据库高级编程
该博客仅专为我的小伙伴提供参考而附加,没空加上代码具体解析,望各位谅解 1.在MySQL中运行以下脚本 CREATE DATABASE mydatabase; USE mydatabase; CREA ...
java：LeakFilling（JS,JQ）
1.<a href="javascript:void(0)" onclick="dele();"> a标签不使用链接的时候,必须加javascrip ...
在线运行.NET代码
https://dotnetfiddle.net/ https://try.dot.net/ C# 发送Http协议模拟 Post Get请求 1.参数 paramsValue的格式要和 Requ ...
Nginx Server 上80，443端口。http,https共存
server{ listen 80; listen 443 ssl; server_name www.iamle.com; index index.html index.htm index.php; ...
P2077 【红绿灯】
我tm真是想不出来还有什么好玩的东西了~~ 这题是一道纯模拟题,只需要用一个变量表示当前汽车行驶了多少分钟不难发现,这个神奇的变量可以直接用m表示,还可以省去一个变量...(好像并没有什么卵用) 具 ...
Java中volatile关键字的最全总结
转载至:https://blog.csdn.net/u012723673/article/details/80682208 关于volatile很重要的一点: 它保证了可见性,即其他线程对volati ...
HDU 2100 Lovekey （26进制大数、字符串）
Lovekey Time Limit: 3000/1000 MS (Java/Others) Memory Limit: 65536/32768 K (Java/Others)Total Sub ...
[转帖]小米手环采用RISC-V 指令集芯片
小米手环4或用“黄山一号”芯片,雷军再回前线,未来走向如何静心科技 06-1111:19 忘记来源地址了不过国内的很多东西都是有中国特色的比如飞腾比如麒麟(银河麒麟还有华为的麒麟 980) ...

selenium-java爬虫实现

selenium-java爬虫实现的更多相关文章

随机推荐

热门专题