HttpCore

对HTTP协议客户端编程做了一些基本的封装。例如,格式化请求头和解析响应头。LineF ormatter用来格式化请求头信息,而实际的实现在BasicLineF ormatter

上。HttpResponseParser 解析响应头。

请求头信息封装在一个HttpParamS. BasicHttpParams使用一个散列表实现HttpParams。
HttpProtocolParams包含特定的方法来设置参数,例如,设置HTTP协议版本号的setVersion方
法。org.apache.http.HttpVersion封装了所有可能的HTTP协议版本号。已经定义的HTTP协议
的版本有1.1/1.0/0.9。例如,使用HttpProtocolParams设置HTTP协议的版本为1.1。

HttpParams params = new BasicHttpParams();
//设置参数到params
HttpProtocolParams.setVersion(params, HttpVersion.HTTP_l_l);

设置连接参数HttpParams.

HttpParams params = new BasicHttpParams();
//设置连接超时
HttpConnectionParams.setConnectionTimeout(params, 180 * 1000);
//设置Socket超时
HttpConnectionParams.setSoTimeout(params, 180 * 1000);
//设置Socket缓存大小
HttpConnectionParams.setSocketBufferSize(params, 8192);

HttpProtocolParams有设置客户端类型的setUserAgent方法。

//把参数设置成和IE7相同的
HttpProtocolParams.setUserAgent(params,
"Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)");

HTTP协议处理器是一个协议拦截器的集合,实现了 “责任链”模式。每个协议拦截器工
作在这个拦截器负责的特定方面。例如,RequestTargetHost给请求头增加HOST信息,
RequestUserAgent 给请求头增加 USER_AGENT 信息。

HTTP响应是由服务器在接收和解释请求报文之后返回发送给客户端的报文。响应报文的
第一行包含了协议版本,之后是数字状态码和相关联的文本段。

HttpResponse response = new BasicHttpResponse(HttpVersion.HTTP_1_1,
HttpStatus.SC_0K, "OK");
System.out.println(response.getProtocolVersion()); //HTTP/1.1
System.out.println(response.getStatusLine().getStatusCode()); "200
System.out.println(response.getStatusLine().getReasonPhrase()); //OK
System.out.println(response.getStatusLine().toString()); //HTTP/1.1 200 OK

模拟浏览器

private static List<Header> getHeads() {
//头信息
String userAgent = "Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9.1.2)";
List<Header> headers = new ArrayList<Header>();
headers.add(new BasicHeader("Accept-Charset","GB2312,utf-8;q=0.1, *;q=0.7"));
headers.add(new BasicHeader("Accept-Language","zh-cn, zh;q=0.5"));
headers.add(new BasicHeader("User-Agent",userAgent));
return headers;
}
List<Header> headers = getHeads();
CloseableHttpClient httpclient =
HttpClientBuilder.create().setDefaultHeaders(headers).build();

重试

HttpRequestRetryHandler接口决定执行HTTP请求时,碰到一个可恢复的异常后是否可以
重试。DefaultHttpRequestRetryHandler类实现3次重试,多重试2次的代码如下所示。

HttpRequestRetryHandler retryHandler =new StandardHttpRequestRetryHandler (5, true); //重试5次
CloseableHttpClient httpClient =HttpClientBuilder.create().setRetryHandler(retryHandler).build ();

修改超时设置的代码。

//配置
int socketTimeout = 5000;
int connectionTimeout = 5000;
//求配置
RequestConfig requestConfig = RequestConfig.custom ()
.setConnectTimeout(connectionTimeout)
.setSocketTimeout(socketTimeout)
.build();
//创建客户端
HttpClient httpClient = HttpClientBuilder.create ()
.setDefaultRequestConfig(requestConfig).build();

抓取压缩的网页

有些网站页面内容返回格式为gzip压缩格式,所以在得到返回结果后要判断内容是否压缩
过,如果是,则先要解压缩,然后解析内容。这样的网页返回的头信息会说明Content-Encoding:gzip

参考:http://blog.csdn.net/qy20115549/article/details/52912532

抓取需要登录的网页

参考:http://www.cnblogs.com/Michael2397/p/7811699.html

代理

参考:http://www.cnblogs.com/Michael2397/p/7821930.html

使用httpClient下载网页的更多相关文章

  1. 【搜索引擎Jediael开发笔记2】使用HttpClient下载网页至本地文件

    本文使用HttpClient根据url进行网页下载.其中 (1)HttpClient的相关知识请参见HttpClient基础教程 (2) package org.ljh.search.download ...

  2. Python下载网页的几种方法

    get和post方式总结 get方式:以URL字串本身传递数据参数,在服务器端可以从'QUERY_STRING'这个变量中直接读取,效率较高,但缺乏安全性,也无法来处理复杂的数据(只能是字符串,比如在 ...

  3. JavaWeb学习之转发和重定向、会话技术:cookie、session、验证码实例、URLConnection使用(下载网页)(4)

    1.转发和重定向 HttpServletResponse response 转发: RequestDispatcher dispatcher = request.getRequestDispatche ...

  4. Android采用HttpClient下载图片

    在上一章中谈到Android采用HttpURLConnection下载图片,本章使用HttpClient下载图片 HttpURLConnection与HttpClient的差别: HttpClient ...

  5. windows phone 7,sliverlight 下载网页的解析,关于wp7 gb2312编码

    原文:windows phone 7,sliverlight 下载网页的解析,关于wp7 gb2312编码 关于silverlight和wp7(windows phone 7)是默认不支持gb2312 ...

  6. Java的URL来下载网页源码

    import java.io.BufferedInputStream; import java.io.BufferedReader; import java.io.IOException; impor ...

  7. http下载网页

    //http.c #include <stdio.h>#include <stdlib.h>#include <string.h>#include <sys/ ...

  8. PHP下载网页

    <?php /*   author:whq   作用:获取网页的内容 */   include "../Snoopy/Snoopy.class.php";class Cute ...

  9. Java如何读取和下载网页?

    在Java编程中,如何读取和下载网页? 以下示例显示如何使用net.URL类的URL()构造函数来读取和下载网页. package com.yiibai; import java.io.Buffere ...

随机推荐

  1. 在没有安装access的电脑上读写.mdb文件

    在微软官方下载MDAC access数据库访问组件即可

  2. 递归计算战士打靶S次打了N环一共同拥有多少种可能的问题

    问题描写叙述 一个战士打了10次靶.一共打了90环,问一共同拥有多少种可能,并输出这些可能的组合. 思路 首先.嵌套10层循环进行穷举是不可取的,一是由于速度太慢,二是假设改成打20次靶就完蛋了. 事 ...

  3. Tomcat多实例 - 单机

    最近在研究Apache+Tomcat+负载均衡/集群的过程中,发现了一篇好的在单机上部署多个tomcat实例的blog. 感受:关于Apache+Tomcat+负载均衡/集群,国内关于这方面的资料是挺 ...

  4. js json按key值排序

    最近有个需求需要把json按key值进行排序,可是js并没有直接的函数可以对json进行排序的这么办呢? 然后想到了一个间接的方法来实现: 1.将json中的key值取出,存在一个数组中,然后对这个数 ...

  5. EasyDarwin开源流媒体服务器高性能设计之无锁队列

    本文来自EasyDarwin团队Fantasy(fantasy(at)easydarwin.org) 一. EasyDarwin任务队列实现 EasyDarwin的任务队列是通过OSQueue类来组织 ...

  6. ThreadPoolTaskExecutor

    我们在开发过程中经常要用到线程池,线程池应该统一管理起来,而不是随用随建.ThreadPoolTaskExecutor——将线程池交给spring管理 1. ThreadPoolTaskExecuto ...

  7. 九度OJ 1122:吃糖果 (递归)

    时间限制:1 秒 内存限制:32 兆 特殊判题:否 提交:1522 解决:1200 题目描述: 名名的妈妈从外地出差回来,带了一盒好吃又精美的巧克力给名名(盒内共有 N 块巧克力,20 > N ...

  8. 区块链+AI将给区块链带来怎样的改变?

    区块链和人工智能技术都是互联网时代最新.最热的技术,不仅可以改变我们生活,还能产生巨大的财富,为此国家大力支持发展,科技巨头们也纷纷布局.那区块链与人工智能结合,对区块链技术而言会产生什么样的化学反应 ...

  9. 7-10 社交网络图中结点的“重要性”计算(30 point(s)) 【并查集+BFS】

    7-10 社交网络图中结点的"重要性"计算(30 point(s)) 在社交网络中,个人或单位(结点)之间通过某些关系(边)联系起来.他们受到这些关系的影响,这种影响可以理解为网络 ...

  10. Spring boot框架项目,使用maven命令将配置文件打包到jar包外,项目运行读取jar外配置文件

    1.1      在eclipse中配置maven命令 Mvn -e clean package -Ptest -DskipTests=true 1.1.1    执行命令之后得到jar 1.2    ...