HttpClient简单操作

HttpClient 这个框架主要用来请求第三方服务器，然后获取到网页，得到我们需要的数据；

HttpClient设置请求头消息User-Agent模拟浏览器

首先建一个Maven项目，然后添加httpClient依赖，版本是4.5

<dependency>

    <groupId>org.apache.httpcomponents</groupId>

    <artifactId>httpclient</artifactId>

    <version>4.5.2</version>

</dependency>

创建demo01：

package com.demo.httpclient.chap02;

import org.apache.http.HttpEntity;

import org.apache.http.client.methods.CloseableHttpResponse;

import org.apache.http.client.methods.HttpGet;

import org.apache.http.impl.client.CloseableHttpClient;

import org.apache.http.impl.client.HttpClients;

import org.apache.http.util.EntityUtils;

public class Demo01 {

    public static void main(String[] args) throws Exception{

        CloseableHttpClient httpClient=HttpClients.createDefault(); // 创建httpClient实例

        HttpGet httpGet=new HttpGet("http://www.tuicool.com/"); // 创建httpget实例

        CloseableHttpResponse response=httpClient.execute(httpGet); // 执行http get请求

        HttpEntity entity=response.getEntity(); // 获取返回实体

        System.out.println("网页内容："+EntityUtils.toString(entity, "utf-8")); // 获取网页内容

        response.close(); // response关闭

        httpClient.close(); // httpClient关闭

    }

}

返回内容：

网页内容：

<!DOCTYPE html>

<html>

    <head>

          <meta http-equiv="Content-Type" content="text/html; charset=utf-8">

    </head>

    <body>

        <p>系统检测亲不是真人行为，因系统资源限制，我们只能拒绝你的请求。如果你有疑问，可以通过微博 http://weibo.com/tuicool2012/ 联系我们。</p>

    </body>

</html>

我们模拟下浏览器设置下User-Agent头消息：

加下 httpGet.setHeader("User-Agent", "Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:50.0) Gecko/20100101 Firefox/50.0"); // 设置请求头消息User-Agent

package com.demo.httpclient.chap02;

import org.apache.http.HttpEntity;

import org.apache.http.client.methods.CloseableHttpResponse;

import org.apache.http.client.methods.HttpGet;

import org.apache.http.impl.client.CloseableHttpClient;

import org.apache.http.impl.client.HttpClients;

import org.apache.http.util.EntityUtils;

public class Demo01 {

    public static void main(String[] args) throws Exception{

        CloseableHttpClient httpClient=HttpClients.createDefault(); // 创建httpClient实例

        HttpGet httpGet=new HttpGet("http://www.tuicool.com/"); // 创建httpget实例

        httpGet.setHeader("User-Agent", "Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:50.0) Gecko/20100101 Firefox/50.0"); // 设置请求头消息User-Agent

        CloseableHttpResponse response=httpClient.execute(httpGet); // 执行http get请求

        HttpEntity entity=response.getEntity(); // 获取返回实体

        System.out.println("网页内容："+EntityUtils.toString(entity, "utf-8")); // 获取网页内容

        response.close(); // response关闭

        httpClient.close(); // httpClient关闭

    }

}

当然通过火狐firebug，我们还可以看到其他请求头消息：

都是可以通过setHeader方法设置key value；来得到模拟浏览器请求；

HttpClient获取响应内容类型Content-Type

响应的网页内容都有类型也就是Content-Type

通过火狐firebug，我们看响应头信息：

当然我们可以通过HttpClient接口来获取；

HttpEntity的getContentType().getValue() 就能获取到响应类型；

System.out.println("Content-Type:"+entity.getContentType().getValue());

        //System.out.println("网页内容："+EntityUtils.toString(entity, "utf-8")); // 获取网页内容

运行输出：

Content-Type:text/html

一般网页是text/html当然有些是带编码的，

比如请求www.tuicool.com：输出：

Content-Type:text/html; charset=utf-8

假如请求js文件，比如 http://www.baidu.com/static/js/jQuery.js

运行输出：

Content-Type:application/javascript

假如请求的是文件，比如 http://central.maven.org/maven2/HTTPClient/HTTPClient/0.3-3/HTTPClient-0.3-3.jar

运行输出：

Content-Type:application/java-archive

当然Content-Type还有一堆，那这东西对于我们爬虫有啥用的，我们再爬取网页的时候，可以通过

Content-Type来提取我们需要爬取的网页或者是爬取的时候，需要过滤掉的一些网页；

HttpClient获取响应状态Status

我们HttpClient向服务器请求时，

正常情况执行成功返回200状态码，

不一定每次都会请求成功，

比如这个请求地址不存在返回404

服务器内部报错返回500

有些服务器有防采集，假如你频繁的采集数据，则返回403 拒绝你请求。

当然我们是有办法的后面会讲到用代理IP。

这个获取状态码，我们可以用 CloseableHttpResponse对象的getStatusLine().getStatusCode()

System.out.println("Status:"+response.getStatusLine().getStatusCode());

运行输出：

Status:200

Content-Type:text/html;charset=UTF-8

假如换个页面 http://www.baidu.com/aaa.jsp

因为不存在，

所以返回 404

HttpClient简单操作的更多相关文章

x01.MagicCube: 简单操作
看最强大脑,发现魔方还是比较好玩的,便买了一个,对照七步还原法,居然也能成功还原. 为什么不写一个魔方程序呢?在网上找了找,略作修改,进行简单操作,还是不错的,其操作代码如下: protected o ...
js简单操作Cookie
贴一段js简单操作Cookie的代码: //获取指定名称的cookie的值 function getCookie(objName) { var arrStr = document.cookie.spl ...
GitHub学习心得之简单操作
作者:枫雪庭出处:http://www.cnblogs.com/FengXueTing-px/ 欢迎转载前言本文对Github的基本操作进行了总结, 主要基于以下文章: http://gitre ...
Linq对XML的简单操作
前两章介绍了关于Linq创建.解析SOAP格式的XML,在实际运用中,可能会对xml进行一些其它的操作,比如基础的增删该查,而操作对象首先需要获取对象,针对于DOM操作来说,Linq确实方便了不少,如 ...
Linux 中 Vi 编辑器的简单操作
Linux 中 Vi 编辑器的简单操作 Vi 编辑器一共有3种模式:命名模式(默认),尾行模式,编辑模式.3种模式彼此需要切换. 一.进入 Vi 编辑器的的命令 vi filename //打开或新 ...
python（pymysql）之mysql简单操作
一.mysql简单介绍说到数据库,我们大多想到的是关系型数据库,比如mysql.oracle.sqlserver等等,这些数据库软件在windows上安装都非常的方便,在Linux上如果要安装数据库 ...
ZooKeeper系列3：ZooKeeper命令、命令行工具及简单操作
问题导读1.ZooKeeper包含哪些常用命令?2.通过什么命令可以列出服务器 watch 的详细信息?3.ZooKeeper包含哪些操作?4.ZooKeeper如何创建zookeeper? 常用命令 ...
ORACLE的安装与网页版创建表空间的简单操作以及PLsql的简单操作
1.oracle的安装: 安装简单易学,在这里不做解释.下载看装包后耐心等待,注意安装目录不要有中文字符,尽量按照指定目录进行安装.安装完成后会占用有大约5g的内存. 如果要卸载oracle,需要用其 ...
C#反射技术的简单操作(读取和设置类的属性)
public class A { public int Property1 { get; set; } } static void Main(){ A aa = new A(); Type type ...

随机推荐

关于各浏览器下Hack的写法
下面是我收集有关于各浏览器下Hack的写法: 1.Firefox @-moz-document url-prefix() { .selector { property: value; } } 上面是仅 ...
mybatis学习笔记之基础框架（2）
mybatis学习笔记之基础框架(2) mybatis是一个持久层的框架,是apache下的顶级项目. mybatis让程序将主要精力放在sql上,通过mybatis提供的映射方式,自由灵活生成满足s ...
ESLint 规范项目代码
ESLint 由 JavaScript 红宝书作者 Nicholas C. Zakas 编写, 2013 年发布第一个版本. NCZ 以可扩展.每条规则独立.不内置编码风格为理念编写了一个 lint ...
IOS Html富文本渲染方式：DTCoreText、WKWebView、UIWebView的内存占用对比
在app的内容页(详情页)中,富文本的显示一直是经常需要处理的问题,而通常在后端的富文本编辑中,Html应用比较普遍,所以其实需要处理的Html富文本显示的问题,以下这三种方式肯定不是最优的显示Htm ...
C#模拟按键
try { System.Threading.Thread.Sleep(); ; i < ; i++) { SendKeys.SendWait("{ENTER}"); Sen ...
paramiko模块学习笔记
SSHClient 基于用户名密码连接 import paramiko # 创建SSH对象 ssh = paramiko.SSHClient() # 允许连接不在know_hosts文件中的主机 ss ...
Java中 ArrayList类的使用
java.util.ArrayList 是大小可变的数组的实现,存储在内的数据称为元素.此类提供一些方法来操作内部存储的元素. ArrayList 中可不断添加元素,其大小也自动增长. ArrayL ...
PHP 判断一个字符是否在字符串中
strpos() - 查找字符串在另一字符串中第一次出现的位置(区分大小写) stripos() - 查找字符串在另一字符串中第一次出现的位置(不区分大小写) strrpos() - 查找字符 ...
vc++如何创建程序--利用快捷键进行多行注释
Eclipse同时注释多行①:ctrl+/或 ②:ctrl+shift+/ : Visual studio先按ctrl+k 再按 ctrl+c 2.在VC++6.0中需要自己设置快捷键,设置方法链接如 ...
vc++如何创建程序01
1 .选择文件+新建(ctrl+N),然后选择一个空的工程,完成 2 然后在选择file新建,在files文件下面选择一个C++Source File,并取个文件名(比如为point可以不带.c) 我 ...

HttpClient简单操作

HttpClient简单操作的更多相关文章

随机推荐

热门专题