Java爬虫系列二：使用HttpClient抓取页面HTML

爬虫要想爬取需要的信息，首先第一步就要抓取到页面html内容，然后对html进行分析，获取想要的内容。上一篇随笔《Java爬虫系列一：写在开始前》中提到了HttpClient可以抓取页面内容。

今天就来介绍下抓取html内容的工具：HttpClient。

围绕下面几个点展开：

什么是HttpClient
HttpClient入门实例
复杂应用
结束语

一、什么是HttpClient

度娘说：

HttpClient 是Apache Jakarta Common 下的子项目，可以用来提供高效的、最新的、功能丰富的支持 HTTP 协议的客户端编程工具包，并且它支持 HTTP 协议最新的版本和建议。

以下列出的是 HttpClient 提供的主要的功能，要知道更多详细的功能可以参见 HttpClient 的官网：

（1）实现了所有 HTTP 的方法（GET,POST,PUT,HEAD 等）

（2）支持自动转向

（3）支持 HTTPS 协议

（4）支持代理服务器等

这里面提到了官网，那就顺便说下它官网上的一些东西。

根据百度给出的HomePage是这个：http://hc.apache.org/httpclient-3.x/，但是进入后你会发现有句话

大意是：Commons HttpClient这个项目已经不再维护了，它已经被Apache HttpComponents替代了。也就是说我们以后要用的话就用新的。点这个Apache HttpComponents的链接进去能看到它最新的版本是4.5，而且有快速上手的例子和专业的说明文档。有兴趣并且英文好的朋友可以好好研究下哦 ~~

额~~那个~~我的英文不好，就不按照官网的来了，直接给出我自己在网上学的练习案例~~

二、HttpClient入门实例

新建一个普通的maven项目：名字随便起，我的叫：httpclient_learn

修改pom文件，引入依赖

<dependency>

    <groupId>org.apache.httpcomponents</groupId>

    <artifactId>httpclient</artifactId>

    <version>4.5.8</version>

</dependency>

新建java类

package httpclient_learn;

import java.io.IOException;

import org.apache.http.HttpEntity;

import org.apache.http.HttpStatus;

import org.apache.http.client.ClientProtocolException;

import org.apache.http.client.methods.CloseableHttpResponse;

import org.apache.http.client.methods.HttpGet;

import org.apache.http.client.utils.HttpClientUtils;

import org.apache.http.impl.client.CloseableHttpClient;

import org.apache.http.impl.client.HttpClients;

import org.apache.http.util.EntityUtils;

public class HttpClientTest {

    public static void main(String[] args) {

        //1.生成httpclient，相当于该打开一个浏览器

        CloseableHttpClient httpClient = HttpClients.createDefault();

        CloseableHttpResponse response = null;

        //2.创建get请求，相当于在浏览器地址栏输入 网址

        HttpGet request = new HttpGet("https://www.cnblogs.com/");

        try {

            //3.执行get请求，相当于在输入地址栏后敲回车键

            response = httpClient.execute(request);

            //4.判断响应状态为200，进行处理

            if(response.getStatusLine().getStatusCode() == HttpStatus.SC_OK) {

                //5.获取响应内容

                HttpEntity httpEntity = response.getEntity();

                String html = EntityUtils.toString(httpEntity, "utf-8");

                System.out.println(html);

            } else {

                //如果返回状态不是200，比如404（页面不存在）等，根据情况做处理，这里略

                System.out.println("返回状态不是200");

                System.out.println(EntityUtils.toString(response.getEntity(), "utf-8"));

            }

        } catch (ClientProtocolException e) {

            e.printStackTrace();

        } catch (IOException e) {

            e.printStackTrace();

        } finally {

            //6.关闭

            HttpClientUtils.closeQuietly(response);

            HttpClientUtils.closeQuietly(httpClient);

        }

    }

}

执行代码，我们会发现打印出来的其实就是首页完整的html代码

<!DOCTYPE html>

<html lang="zh-cn">

<head>

    //Java开发老菜鸟备注：由于内容太多，具体不再贴出来了

</head>

<body>

　　//Java开发老菜鸟备注：由于内容太多，具体内容不再贴出来了

</body> </html>

操作成功！

好了，到这里就完成了一个简单的小例子。

爬一个网站不过瘾，再来一打。接下来我们换个网站：https://www.tuicool.com/，你会发现结果是这样的：

返回状态不是200

<!DOCTYPE html>

<html>

    <head>

          <meta http-equiv="Content-Type" content="text/html; charset=utf-8">

    </head>

    <body>

        <p>系统检测亲不是真人行为，因系统资源限制，我们只能拒绝你的请求。如果你有疑问，可以通过微博 http://weibo.com/tuicool2012/ 联系我们。</p>

    </body>

</html>

爬虫程序被识别了，怎么办呢？别着急，慢慢往下看

三、复杂应用

第二个网站访问不了，是因为网站有反爬虫的处理，怎么绕过他呢?

1.最简单的是对请求头进行伪装，看代码，加上红框里面的内容后再执行

你会发现返回结果变了，有真内容了（红字警告先不管它，我们起码获取到了html内容）

那代码中新加的那段内容是哪里来的呢？

请打开谷歌浏览器的F12，对就是这里了：

当然我们还可以设置请求的其他头信息，如cookie等

2.上面说的是伪装成浏览器，其实如果你伪装了之后，如果短时间内一直多次访问的话，网站会对你的ip进行封杀，这个时候就需要换个ip地址了，使用代理IP

网上有一些免费的代理ip网站，比如xici

我们选择那些存活时间久并且刚刚被验证的ip，我这里选择了“112.85.168.223:9999”，代码如下

//2.创建get请求，相当于在浏览器地址栏输入 网址

        HttpGet request = new HttpGet("https://www.tuicool.com/");

        //设置请求头，将爬虫伪装成浏览器

        request.setHeader("User-Agent","Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36");

        HttpHost proxy = new HttpHost("112.85.168.223", 9999);

        RequestConfig config = RequestConfig.custom().setProxy(proxy).build();

        request.setConfig(config);

执行代码，能正常返回html结果。如果代理ip刚好不能用的话，会报错，如下显示连接超时，这个时候需要更换一个新的代理ip

3.另外，程序被识别出来很大原因是短时间内做了太多访问，这个是正常人不会有的频率，因此我们也可以放慢爬取的速度，让程序sleep一段时间再爬下一个也是一种反反爬虫的简单方法。

四、结束语

这篇简单介绍了下httpclient和它的官网，并用代码说明了如何使用它，也提到了如果遇到反爬虫的话我们还可以用一些简单的反反爬虫方法进行应对。

对于其他复杂的反反爬虫的方法我还没有研究过，就是用这几种结合使用。比如在爬取了一段时间后，网站需要输入验证码来验证是人在操作，我没有去管如何突破验证码的事儿，而是获取代理ip池然后在遇到验证码的时候逐个换新的ip，这样就可以躲过了验证码。如果有其他方法，欢迎留言哦

Java爬虫系列二：使用HttpClient抓取页面HTML的更多相关文章

Java爬虫系列之实战：爬取酷狗音乐网 TOP500 的歌曲(附源码)
在前面分享的两篇随笔中分别介绍了HttpClient和Jsoup以及简单的代码案例: Java爬虫系列二:使用HttpClient抓取页面HTML Java爬虫系列三:使用Jsoup解析HTML 今天 ...
Java爬虫系列四：使用selenium-java爬取js异步请求的数据
在之前的系列文章中介绍了如何使用httpclient抓取页面html以及如何用jsoup分析html源文件内容得到我们想要的数据,但是有时候通过这两种方式不能正常抓取到我们想要的数据,比如看如下例子. ...
Java爬虫系列三：使用Jsoup解析HTML
在上一篇随笔<Java爬虫系列二:使用HttpClient抓取页面HTML>中介绍了怎么使用HttpClient进行爬虫的第一步--抓取页面html,今天接着来看下爬虫的第二步--解析抓取 ...
java爬虫系列第二讲-爬取最新动作电影《海王》迅雷下载地址
1. 目标使用webmagic爬取动作电影列表信息爬取电影<海王>详细信息[电影名称.电影迅雷下载地址列表] 2. 爬取最新动作片列表获取电影列表页面数据来源地址访问http:// ...
爬虫系列(二) Chrome抓包分析
在这篇文章中,我们将尝试使用直观的网页分析工具(Chrome 开发者工具)对网页进行抓包分析,更加深入的了解网络爬虫的本质与内涵 1.测试环境浏览器:Chrome 浏览器浏览器版本:67.0.33 ...
HttpClient（一）HttpClient抓取网页基本信息
一.HttpClient简介 HttpClient 是 Apache Jakarta Common 下的子项目,可以用来提供高效的.最新的.功能丰富的支持 HTTP 协议的客户端编程工具包, 并且它支 ...
Java爬虫系列一：写在开始前
最近在研究Java爬虫,小有收获,打算一边学一边跟大家分享下,在干货开始前想先跟大家啰嗦几句. 一.首先说下为什么要研究Java爬虫 Python已经火了很久了,它功能强大,其中很擅长的一个就是写爬虫 ...
java爬虫系列第一讲-爬虫入门
1. 概述 java爬虫系列包含哪些内容? java爬虫框架webmgic入门使用webmgic爬取 http://ady01.com 中的电影资源(动作电影列表页.电影下载地址等信息) 使用web ...
爬虫系列(十三) 用selenium爬取京东商品
这篇文章,我们将通过 selenium 模拟用户使用浏览器的行为,爬取京东商品信息,还是先放上最终的效果图: 1.网页分析 (1)初步分析原本博主打算写一个能够爬取所有商品信息的爬虫,可是在分析过程 ...

随机推荐

vscode设置让鼠标滚动改变字体大小
打开settings.json文件输入"editor.mouseWheelZoom": true, 这样比较方面,比默认的放大缩小来的快捷
CodeForces：148D-D.Bag of mice
Bag of mice time limit per test 2 seconds memory limit per test 256 megabytes Program Description Th ...
MIME类型－服务端验证上传文件的类型
MIME的作用 : 使客户端软件,区分不同种类的数据,例如web浏览器就是通过MIME类型来判断文件是GIF图片,还是可打印的PostScript文件. web服务器使用MIME来说明发送数据的种类, ...
Vmware复制完好的linux目录后网卡操作
目录 Vmware复制完好的linux目录后网卡操作修改/etc/udev/rules.d/70-persistent-net.rules 修改网卡配置文件重启查看 Vmware复制完好的linu ...
Selenium WebDriver-通过断言页面是否存在某些关键字来确定页面按照预期加载
#encoding=utf-8 import unittest import time import chardet from selenium import webdriver class Visi ...
Selenium WebDriver-网页的前进、后退、刷新、最大化、获取窗口位置、设置窗口大小、获取页面title、获取网页源码、获取Url等基本操作
通过selenium webdriver操作网页前进.后退.刷新.最大化.获取窗口位置.设置窗口大小.获取页面title.获取网页源码.获取Url等基本操作 from selenium import ...
第三章 802.11MAC基础 ****需要深入理解
1.mac所面临的挑战射频链路品质 radio link 容易受到干扰 802.11采用肯定确认机制所有传送出去的帧都必须得到响应工作站发送请求帧基站 ...
【LeetCode】Longest Common Prefix(最长公共前缀)
这道题是LeetCode里的第14道题. 题目描述: 编写一个函数来查找字符串数组中的最长公共前缀. 如果不存在公共前缀,返回空字符串 "". 示例 1: 输入: ["f ...
Leetcode 475.供暖气
供暖气冬季已经来临. 你的任务是设计一个有固定加热半径的供暖器向所有房屋供暖. 现在,给出位于一条水平线上的房屋和供暖器的位置,找到可以覆盖所有房屋的最小加热半径. 所以,你的输入将会是房屋和供暖器 ...
[python][oldboy] * **的用法
* 和**主要用在函数的参数中, # coding=utf8 """ 三种编码: 1 python程序代码的编码 # coding=utf8 2 设置/查看python程 ...

Java爬虫系列二：使用HttpClient抓取页面HTML

Java爬虫系列二：使用HttpClient抓取页面HTML的更多相关文章

随机推荐

热门专题