小记---------网页之htmlunit

HtmlUnit是一款开元的Java页面分析工具，可以有效的使用htmlunit分析页面大汉的内容，项目可以模拟浏览器运行，被誉为Java浏览器的开元实现，这个没有界面的浏览器

API的使用

模拟特定浏览器

例： WebClient webClient=new WebClient(BrowserVersion.FIREFOX_3); //模拟火狐浏览器

查找特定元素

通过get方法获取

HtmlPage page=WebClient.getPage("网址"); //获取到网页源代码

HtmlDivision div=(HtmlDivision)page.getElementById("hed"); //获取id属性值为hed的元素。

通过Xpath获取、

HtmlDivision div=(HtmlDivision)page.getByXPath("//div").get(0);

System.out.println(div.asXml()); //输出代码

代理服务器的配置

代理配置很简单，只需要配置好地址，端口，用户名与密码即可

例：//创建对象

WebClient webClient=new WebClient(BrowserVersion.CHROME,"http://127.0.0.1",8087); //模拟浏览器，代理IP地址端口号

DefaultCredentialsProvider credentialsProvider=webClient.getCredentialsProvider();

//设置用户名密码 credentialsProvider.addCredentials(“username”,“password”);

小记---------网页之htmlunit的更多相关文章

小记---------网页采集之selenium
1.元素定位 ID定位元素: findElement(By.id(“”)); 通过元素的名称定位元素: findElement(By.name(“”)); 通过元素的html中的位置定位元素 ...
小记---------网页采集之Jsoup
Jsoup是一款Java解析器,相当于httpClient解析器功能:①:从一个URL,文件或字符串中解析HTML ②:使用DOM或CSS选择器来查找.取出数据 ...
HTMLUnit web测试
httpClient不能动态执行网页中的js,这样无法获取js生成的动态网页.htmlUnit是个解决方法. if you’re considering web application testing ...
[转载]爬虫的自我解剖(抓取网页HtmlUnit)
网络爬虫第一个要面临的问题,就是如何抓取网页,抓取其实很容易,没你想的那么复杂,一个开源HtmlUnit包,4行代码就OK啦,例子如下: 1 2 3 4 final WebClient webClie ...
使用htmlunit在线解析网页信息
前言最近工作上遇到一个问题,后端有一个定时任务,需要用JAVA每天判断法定节假日.周末放假,上班等情况, 其实想单独通过逻辑什么的去判断中国法定节假日的放假情况,基本不可能,因为国家每一年的假期可能 ...
爬虫的自我解剖(抓取网页HtmlUnit)
网络爬虫第一个要面临的问题,就是如何抓取网页,抓取其实很容易,没你想的那么复杂,一个开源`HtmlUnit`包,4行代码就OK啦,例子如下: final WebClient webClient=new ...
基于HtmlUnit的模板的网页数据抽取
既然方向定了,就开始做实验室吧,做舆情分析,首先就是要收集相关的语料正好实验室有同学在做标化院的信息抽取抽取这块于是把程序拿过来研究研究正好完整程序在126邮箱共享: 可下载数:20 共享连接 ...
Selenium/HtmlUnit设置代理获取JS生成的网页
通常我们使用Java提供的HttpURLConnection或者Apache的HttpClient获取的网页源代码都是直观可见的,其代码的内容和通过浏览器右键网页->点击查看网页源代码的内容一致 ...
htmlunit抓取js执行后的网页源码
上次我不是写了一个自动抓取博客访问量吗 (点击打开链接) 可是昨天晚上我又运行的时候,发现不能用了.. 运行了几次发现使用URLConnection 得到的网页源码和浏览器直接查看的不同. URLC ...

随机推荐

15、Qt 样式表
Qt的样式表类似HTML的层叠式样式表CSS,可以为一个独立的子部件.整个窗口.整个应用程序指定一种外表样式. 样式表功能:1.优化外观.2.实现某些动作,如鼠标在图片上,图片切换. 格式:QWidg ...
shell中+,*,[:space:]的用法
http://blog.itpub.net/27181165/viewspace-1061688/ 在linux中通常会使用shell结合正则表达式来过滤字符,本文将以一个简单的例子来说明+,*,[: ...
一组相关联的问题：“sudo: unable to resolve host ###: Connection timed out”、软件启动速度超慢、IPv6无法使用
造冰箱的大熊猫@cnblogs 2018/9/15 近日陆续发现计算机出现几个问题,最终发现这些问题实际上是由同一个原因导致的问题1:无法使用IPv6 问题2:无论是启动Emacs GUI还是在命令 ...
计蒜客 2018南京网络赛 I Skr ( 回文树 )
题目链接题意 : 给出一个由数字组成的字符串.然后要你找出其所有本质不同的回文子串.然后将这些回文子串转化为整数后相加.问你最后的结果是多少.答案模 1e9+7 分析 : 应该可以算是回文树挺裸的题 ...
暑假集训 #3div2 C Sequence 数字找规律
C. Sequence (64 Mb, 1 sec / test)Integer sequences are very interesting mathematical objects. Let us ...
CF#356 div2 C 猜数字
C. Bear and Prime 100 time limit per test 1 second memory limit per test 256 megabytes input standar ...
分布式-信息方式-ActiveMQ静态网络连接多线程的consumer（消费者）访问集群
操作如下: 1:把整个conf文件夹复制一份,比如叫做conf22:修改里面的 activemq.xml文件(1)里面的 brokerName不能跟原来的重复(2)数据存放的文件名称不能重复,比如:& ...
linux系统基础优化及高级操作命令
Linux基础系统优化引言没有,只有一张图. Linux的网络功能相当强悍,一时之间我们无法了解所有的网络命令,在配置服务器基础环境时,先了解下网络参数设定命令. ifconfig 查询.设置网卡和 ...
eclipse中把选中的代码全部变成大写或者小写的快捷键
Ctrl+shift+x是把选中的变成大写 Ctrl+shift+y是把选中的变成小写
python 生成随机数的几种方法
随机取一个: import random random.choice(string.digits)#从数字里随机选取一位数字: 随机取多位数: random.sample(string.dig ...

小记---------网页之htmlunit

小记---------网页之htmlunit的更多相关文章

随机推荐

热门专题