Java 实现 HttpClients+jsoup，Jsoup，htmlunit，Headless Chrome 爬虫抓取数据

最近整理一下手头上搞过的一些爬虫，有HttpClients+jsoup，Jsoup，htmlunit，HeadlessChrome

一、HttpClients+jsoup，这是第一代比较low，很快就被第二代代替了！

二、Jsoup

需要的jar包：

 <dependency>

     <groupId>org.jsoup</groupId>

     <artifactId>jsoup</artifactId>

     <version>1.10.3</version>

 </dependency>

代码如下：

 // 请求超时时间，30秒

     public static final int TIME_OUT = 30*1000;

     // 模拟浏览器请求头信息

     public static Map<String,String> headers = new HashMap<String,String>();

     static{

         headers.put("User-Agent", "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:55.0) Gecko/20100101 Firefox/55.0");

         headers.put("Accept", "text/html");

         headers.put("Accept-Language", "zh-CN,zh");

     }

     //根据url获取html文档

     protected Document getDoc(String url) throws IOException{

         if(logger.isDebugEnabled())

             logger.debug(url);

         //新建一个连接

         Connection conn = Jsoup.connect(url).timeout(TIME_OUT);

         conn = conn.headers(headers);

         conn = conn.proxy(Proxy.NO_PROXY);

         Document doc = conn.get();

         if(logger.isTraceEnabled()){

             logger.trace("["+url+"]\n"+doc);

         }

         return doc;

     }

 public static final String CHINAZ_ICP_URL = "http://icp.chinaz.com/?type=host&s=%s";

 public List<String> doHandler(String domain) {

         List<String> results = new ArrayList<String>();

         String url = String.format(CHINAZ_ICP_URL, domain);

         Document doc;

         try {

             doc = this.getDoc(url);

             // 获取当前页ICP信息所在标签

             Elements eles = doc.select("ul.IcpMain01>li:lt(7)>p");

             if(null == eles || eles.isEmpty()){

                 return results;

             }

             //获取ICP信息

             for (Element element : eles) {

                 //当前元素为认证信息时，跳过

                 if("safe".equals(element.attr("id"))){

                     continue;

                 }

                 Node firstNode = element.childNode(0);

                 if(firstNode.childNodeSize() > 0){

                     results.add(element.child(0).text());

                 }else{

                     results.add(((TextNode)firstNode).text());

                 }

             }

         } catch (IOException e) {

             logger.error("get Chinaz ICP message error :",e);

         }

         doc = null;

         return results;

     }

参考Jsoup的文档：链接http://www.open-open.com/jsoup/

Jsoup不支持xpath解析，这个很蛋疼，但是有人去搞个一个支持xpath的东西---JsoupXpath，链接https://www.cnblogs.com/wanghaomiao/p/4899355.html，有兴趣的网友可以自己尝试一下！

三、htmlunit

支持Xpath解析，能够模拟浏览器动作，比如点击下一页，加载更多等等功能。文档链接：http://htmlunit.sourceforge.net/

需要的jar包

 <dependency>

     <groupId>net.sourceforge.htmlunit</groupId>

     <artifactId>htmlunit</artifactId>

     <version>2.18</version>

 </dependency>

代码如下：

 import com.gargoylesoftware.htmlunit.FailingHttpStatusCodeException;

 import com.gargoylesoftware.htmlunit.TopLevelWindow;

 import com.gargoylesoftware.htmlunit.WebClient;

 import com.gargoylesoftware.htmlunit.html.HtmlPage;

 import com.gargoylesoftware.htmlunit.html.HtmlTableRow;

 import java.io.IOException;

 import java.util.ArrayList;

 import java.util.List;

 public class UrlTest {

     public static void main(String[] args) {

         BaseCollector baseCollector = new BaseCollector();

         WebClient webClient = baseCollector.getWebClient();

         String url="http://htmlunit.sourceforge.net/";

         HtmlPage homePage= null;

         try {

             homePage = webClient.getPage(url);

             if (homePage != null && homePage instanceof HtmlPage) {

                 homePage.getEnclosingWindow().setName("IpHomePage");

                 System.out.println("打开 IPHomePage ");

                 System.out.println("内容是：    "+homePage.getBody().getTextContent());

                 List<HtmlTableRow> htmlTableRows = (List<HtmlTableRow>) homePage.getByXPath("/html/body/pre");

                 if (htmlTableRows != null && htmlTableRows.size() > 0) {

                     for (int i = 0; i < htmlTableRows.size(); i++) {

                         HtmlTableRow htmlTableRow = htmlTableRows.get(i);

                         //日期

                         String firstTime = htmlTableRow.getCell(0).getTextContent().trim();

                         System.out.println(firstTime);

                     }

                 }

                 closeWindowByName(webClient, "IPHomePage");

                 System.out.println("关闭 IPHomePage ");

             }

             webClient.close();

         } catch (IOException e) {

             System.out.println(e.getMessage()+" ===="+e);

         }catch (FailingHttpStatusCodeException e){

             System.out.println(e.getMessage()+" ===="+e);

         }

         System.out.println("内容是：    "+homePage.getBody().getTextContent());

     }

     public static void closeWindowByName(WebClient webClient, String name){

         List<TopLevelWindow> list = webClient.getTopLevelWindows();

         List windowNames = new ArrayList();

         for (int j = 0; j < list.size(); j++) {

             if(list.get(j).getName().equals(name)){

                 list.get(j).close();

             }

             windowNames.add(list.get(j).getName());

         }

         System.out.println("当前窗口 ： {}"+list.toString());

     }

 }

四、HeadlessChrome

1，Headless Chrome 与PhantomJS对比

在 Chrome 未提供原生 Headless 模式前，Web 开发者可以使用 PhantomJS 等第三方 Headless 浏览器。现在官方准备提供 Headless 了，PhantomJS 维护者 Vitaly Slobodin 随即在邮件列表上宣布辞职。另一个流行浏览器 Firefox 也准备提供 Headless 模式。

2，什么是Headless Chrome

Headless Chrome 是 Chrome 浏览器的无界面形态，可以在不打开浏览器的前提下，使用所有 Chrome 支持的特性运行你的程序。相比于现代浏览器，Headless Chrome 更加方便测试 web 应用，获得网站的截图，做爬虫抓取信息等。

3，环境配置

首先需要下载chrome-driver，不同版本的Chrome对应不同的Chrome-driver，大家可以通过这链接下载对应的Chrome-driver http://npm.taobao.org/mirrors/chromedriver/

支持各种elements的获取，List<WebElement> elements = driver.findElements(By.xpath("//*[@id=\"body\"]/ul[2]/li"));

可以模拟浏览器的各种动作，driver.findElement(By.linkText("下一页")).click();

使用Python来搞HeadlessChrome更方便简单，简直爽翻天。。。。。链接：https://blog.csdn.net/u010986776/article/details/79266448

大家可以参考一下

需要的jar包：

 <dependency>

     <groupId>org.seleniumhq.selenium</groupId>

     <artifactId>selenium-chrome-driver</artifactId>

     <version>3.11.0</version>

 </dependency>

代码如下：

 import org.jsoup.Jsoup;

 import org.jsoup.nodes.Document;

 import org.openqa.selenium.By;

 import org.openqa.selenium.WebDriver;

 import org.openqa.selenium.WebElement;

 import org.openqa.selenium.chrome.ChromeDriver;

 import org.openqa.selenium.chrome.ChromeOptions;

 import java.util.List;

 import java.util.concurrent.TimeUnit;

 /**

  * Created by sqy on 2018/5/2.

  */

 public class HeadlessChromeTest {

     public static void main(String args[]) {

         //G:\chromedriver

         System.setProperty("webdriver.chrome.driver","G:\\chromedriver\\chromedriver.exe");

         ChromeOptions chromeOptions = new ChromeOptions();

 //        设置为 headless 模式 （必须）

         chromeOptions.addArguments("--headless");

 //        设置浏览器窗口打开大小  （非必须）

         chromeOptions.addArguments("--window-size=1920,1080");

         WebDriver driver = new ChromeDriver(chromeOptions);

         driver.get("https://lvyou.baidu.com/scene/s-feb/");

         System.out.println("url: "+driver.getCurrentUrl());

         for(int i=0;i<12;i++){

             try {

                 /**

                  * WebDriver自带了一个智能等待的方法。

                  dr.manage().timeouts().implicitlyWait(arg0, arg1）；

                  Arg0：等待的时间长度，int 类型 ；

                  Arg1：等待时间的单位 TimeUnit.SECONDS 一般用秒作为单位。

                  */

                 driver.manage().timeouts().implicitlyWait(3, TimeUnit.SECONDS);

             } catch (Exception e) {

                 e.printStackTrace();

             }

             //点击按钮

             driver.findElement(By.linkText("下一页")).click();

             List<WebElement> elements = driver.findElements(By.xpath("//*[@id=\"body\"]/ul[2]/li"));

             for (WebElement el:elements) {

                 System.out.println(el.getText());

             }

             System.out.println("url: "+driver.getCurrentUrl());

         }

         /**

          * dr.quit()和dr.close()都可以退出浏览器,简单的说一下两者的区别：第一个close，

          * 如果打开了多个页面是关不干净的，它只关闭当前的一个页面。第二个quit，

          * 是退出了所有Webdriver所有的窗口，退的非常干净，所以推荐使用quit最为一个case退出的方法。

          */

         driver.quit();

     }

 }

HeadlessChrome的webdriver是在selenium里面的所以很多功能可以通过查询java selenium 功能来查找自己想要实现的功能！

例如截屏功能

   //截图

         File scrFile = ((TakesScreenshot) driver).getScreenshotAs(OutputType.FILE);

         try {

             String savePath = "H:\\bbb\\screenshot.png";

             //复制内容到指定文件中

             FileUtils.copyFile(scrFile, new File(savePath));

         } catch (Exception e) {

             e.printStackTrace();

         }

----------------------------------------------------若有不正之处，请谅解和批评指正，不胜感激！！！！！