httpclient 模拟浏览器动作需注意的cookie和HTTP头等信息
转自:http://resolute.javaeye.com/blog/491701
commons-httpclient是apache下的一个开源项目,提供了一个纯java实现的http客户端。使用它能够非常方便发送HTTP请求,接受HTTP应答,自己主动管理Cookie等等。
对于contact-list类库来说,须要使用的功能有,自己主动管理Cookie,设置HTTP头。发送HTTP请求,接受HTTP应答,转发HTTP重定向,还有输出HTTP请求/应答日志,以下对这些功能的实现进行解释:
1. 自己主动管理Cookie
view source
print?
1.public EmailImporter(String email, String password, String encoding) {
2. ......
3. client = new HttpClient();
4. client.getParams().setCookiePolicy(CookiePolicy.BROWSER_COMPATIBILITY);
5. client.getParams().setParameter("http.protocol.single-cookie-header", true);
6.}
当中将HttpClient的Cookie策略设置为CookiePolicy.BROWSER_COMPATIBILITY,即表示java client将依照浏览器的方式来自己主动处理Cookie。当然你也能够在执行过程中手动调整cookie。比方:
hotmail登录之前须要设置当前时间的Cookie:
view source
print?
1.client.getState().addCookie(new Cookie("login.live.com", "CkTst", "G" + new Date().getTime()));
只是,httpclient似乎没有提供删除cookie的功能,于是我添加了两个cookie管理的接口。一个是保留指定的cookies,一个是删除指定的cookies:
view source
print?
01.protected void retainCookies(String[] cookieNames) {
02. Cookie[] cookies = client.getState().getCookies();
03. ArrayList<Cookie> retainCookies = new ArrayList<Cookie>();
04. for (Cookie cookie : cookies) {
05. if (Arrays.binarySearch(cookieNames, cookie.getName()) >= 0) {
06. retainCookies.add(cookie);
07. }
08. }
09. client.getState().clearCookies();
10. client.getState().addCookies(retainCookies.toArray(new Cookie[0]));
11.}
12.
13.protected void removeCookies(String[] cookieNames) {
14. Cookie[] cookies = client.getState().getCookies();
15. ArrayList<Cookie> retainCookies = new ArrayList<Cookie>();
16. for (Cookie cookie : cookies) {
17. if (Arrays.binarySearch(cookieNames, cookie.getName()) < 0) {
18. retainCookies.add(cookie);
19. }
20. }
21. client.getState().clearCookies();
22. client.getState().addCookies(retainCookies.toArray(new Cookie[0]));
23.}
2. 设置HTTP头:
http头的设置,能够让邮件server觉得是在和浏览器打交道,而避免被refuse的可能:
view source
print?
01.private void setHeaders(HttpMethod method) {
02. method.setRequestHeader("Accept", "text/html,application/xhtml+xml,application/xml;");
03. method.setRequestHeader("Accept-Language", "zh-cn");
04. method.setRequestHeader("User-Agent", "Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9.0.3) Gecko/2008092417 Firefox/3.0.3");
05. method.setRequestHeader("Accept-Charset", encoding);
06. method.setRequestHeader("Keep-Alive", "300");
07. method.setRequestHeader("Connection", "Keep-Alive");
08. method.setRequestHeader("Cache-Control", "no-cache");
09.}
另外,在GET和POST的时候设置referer值。以及在POST的时候设置Content-Type:
view source
print?
1.protected String doPost(String actionUrl, NameValuePair[] params, String referer) throws HttpException, IOException {
2. ......
3. method.setRequestHeader("Referer", referer);
4. method.setRequestHeader("Content-Type", "application/x-www-form-urlencoded");
5. ......
6.}
3. 发送HTTP请求,接收HTTP应答。
在contact-list中仅仅使用了GET和POST请求,我也做了简单的封装:
view source
print?
01.protected String doGet(String url, String referer) throws HttpException, IOException {
02. GetMethod method = new GetMethod(url);
03. setHeaders(method);
04. method.setRequestHeader("Referer", referer);
05. // log request
06. client.executeMethod(method);
07. String responseStr = readInputStream(method.getResponseBodyAsStream());
08. // log response
09. method.releaseConnection();
10. lastUrl = method.getURI().toString();
11. return responseStr;
12.}
13.
14.protected String doPost(String actionUrl, NameValuePair[] params, String referer) throws HttpException, IOException {
15. PostMethod method = new PostMethod(actionUrl);
16. setHeaders(method);
17. method.setRequestHeader("Referer", referer);
18. method.setRequestHeader("Content-Type", "application/x-www-form-urlencoded");
19. method.setRequestBody(params);
20. // log request
21. client.executeMethod(method);
22. String responseStr = readInputStream(method.getResponseBodyAsStream());
23. // log response
24. method.releaseConnection();
25. if (method.getResponseHeader("Location") != null) {
26. // do redirect
27. } else {
28. lastUrl = method.getURI().toString();
29. return responseStr;
30. }
31.}
4. HTTP重定向,主要是两种,一种是依据HTTP头的Location
view source
print?
1.if (method.getResponseHeader("Location").getValue().startsWith("http")) {
2. return doGet(method.getResponseHeader("Location").getValue());
3.} else {
4. return doGet("http://" + getResponseHost(method) + method.getResponseHeader("Location").getValue());
5.}
还有一种是依据javascript中的window.location.replace。
5. 输出请求/应答日志。这个对调试很重要:
view source
print?
01.private void logGetRequest(GetMethod method) throws URIException {
02. logger.debug("do get request: " + method.getURI().toString());
03. logger.debug("header:/n" + getHeadersStr(method.getRequestHeaders()));
04. logger.debug("cookie:/n" + getCookieStr());
05.}
06.
07.private void logGetResponse(GetMethod method, String responseStr) throws URIException {
08. logger.debug("do get response: " + method.getURI().toString());
09. logger.debug("header: /n" + getHeadersStr(method.getResponseHeaders()));
10. logger.debug("body: /n" + responseStr);
11.}
12.
13.private void logPostRequest(PostMethod method) throws URIException {
14. logger.debug("do post request: " + method.getURI().toString());
15. logger.debug("header:/n" + getHeadersStr(method.getRequestHeaders()));
16. logger.debug("body:/n" + getPostBody(method.getParameters()));
17. logger.debug("cookie:/n" + getCookieStr());
18.}
19.
20.private void logPostResponse(PostMethod method, String responseStr) throws URIException {
21. logger.debug("do post response:" + method.getURI().toString());
22. logger.debug("header:/n" + getHeadersStr(method.getResponseHeaders()));
23. logger.debug("body:/n" + responseStr);
24.}
25.
26.private String getHeadersStr(Header[] headers) {
27. StringBuilder builder = new StringBuilder();
28. for (Header header : headers) {
29. builder.append(header.getName()).append(": ").append(header.getValue()).append("/n");
30. }
31. return builder.toString();
32.}
33.
34.private String getPostBody(NameValuePair[] postValues) {
35. StringBuilder builder = new StringBuilder();
36. for (NameValuePair pair : postValues) {
37. builder.append(pair.getName()).append(":").append(pair.getValue()).append("/n");
38. }
39. return builder.toString();
40.}
41.
42.private String getCookieStr() {
43. Cookie[] cookies = client.getState().getCookies();
44. StringBuilder builder = new StringBuilder();
45. for (Cookie cookie : cookies) {
46. builder.append(cookie.getDomain()).append(":")
47. .append(cookie.getName()).append("=").append(cookie.getValue()).append(";")
48. .append(cookie.getPath()).append(";")
49. .append(cookie.getExpiryDate()).append(";")
50. .append(cookie.getSecure()).append(";/n");
51. }
52. return builder.toString();
53.}
httpclient 模拟浏览器动作需注意的cookie和HTTP头等信息的更多相关文章
- JAVA--利用HttpClient模拟浏览器登陆请求获取响应的Cookie
在通过java采集网页数据时,我们常常会遇到这样的问题: 站点需要登陆才能访问 而这种网站,一般都会对请求进行账号密码的验证,验证的方式也有多种,需要具体分析. 今天分析其中的一种情况: 站点对登陆密 ...
- httpclient模拟浏览器get\post
一般的情况下我们都是使用IE或者Navigator浏览器来访问一个WEB服务器,用来浏览页面查看信息或者提交一些数据等等.所访问的这些页面有的仅 仅是一些普通的页面,有的需要用户登录后方可使用,或者需 ...
- httpClient模拟浏览器发请求
一.介绍 httpClient是Apache公司的一个子项目, 用来提高高效的.最新的.功能丰富的支持http协议的客户端编程工具包.完成可以模拟浏览器发起请求行为. 二.简单使用例子 : 模拟浏览器 ...
- httpclient模拟浏览器訪问站点
HttpClient 是 Apache Jakarta Common 下的子项目.能够用来提供高效的.最新的.功能丰富的支持 HTTP 协议的client编程工具包.而且它支持 HTTP 协议最新的版 ...
- Java语言使用HttpClient模拟浏览器登录
使用HttpClient来模拟浏览器登录网站,然后可以进行操作,比如发布信息等 第一步:获取实际的post网址,(不考虑复杂情况下) 1.需要使用到firefox的httpfox插件,httpfox中 ...
- httpclient模拟浏览器
package com.java.httpclient; import java.io.IOException; import org.apache.http.HttpEntity; import o ...
- 关于HttpClient模拟浏览器请求的參数乱码问题解决方式
转载请注明出处:http://blog.csdn.net/xiaojimanman/article/details/44407297 http://www.llwjy.com/blogdetail/9 ...
- 20200726_java爬虫_使用HttpClient模拟浏览器发送请求
浏览器获取数据: 打开浏览器 ==> 输入网址 ==> 回车查询 ==> 返回结果 ==> 浏览器显示结果数据 HttpClient获取数据: 创建HttpClient ==& ...
- 使用HttpClient配置代理服务器模拟浏览器发送请求调用接口测试
在调用公司的某个接口时,直接通过浏览器配置代理服务器可以请求到如下数据: 请求url地址:http://wwwnei.xuebusi.com/rd-interface/getsales.jsp?cid ...
随机推荐
- 网络地图WebMap介绍
WebMap是从ArcGIS Online或者ArcGIS for Portal item上获取显示到用户的界面中. 需要的是地图的ID. 创建一个新的网络地图需要设置ID号,然后再用地图底图MapV ...
- box-shadow制作各种单边,多边阴影
一.box-shadow问题探究 box-shadow 在MDN定义以及详解: box-shadow 以由逗号分隔的列表来描述一个或多个阴影效果.该属性让你可以对几乎所有元素的边框产生阴影.如果元素同 ...
- Tensorflow 函数学习笔记
A: A:## tf.argmax(A, axis).eval() 输出axis维度上最大的数的索引 axis=0:列,axis=1:行 A:## tf.add(a,b) 创建a+b的计算图 A:# ...
- Metro界面的真正意义
昨天去客户那给安装防火墙和交换机,因为客户和我们公司签订了维保的合同,然后我们公司两个人去了客户那跟客户沟通也去顺路去做巡检. 客户之前跟我们公司采购了一台DELL的PC服务器,预装了win serv ...
- Linux运维管理的必备工具
一.统一账号管理 1.LDAP 统一管理各种平台帐号和密码,包括但不限于各种操作系统(Windows.Linux),Linux系统sudo集成,系统用户分组,主机登入限制等:可与Apache,HTTP ...
- vue踩坑- 报错npm ERR! cb() never called!
在vue项目中引入饿了么elementUI组件的步骤之中,出现以下的错误: D:\my-project-first>npm i element-ui -S Unhandled rejection ...
- 【Codeforces Round #424 (Div. 2) A】Unimodal Array
[Link]:http://codeforces.com/contest/831/problem/A [Description] 让你判断一个数列是不是这样一个数列: 一开始是严格上升 然后开始全都是 ...
- 聊聊高并发(十九)理解并发编程的几种"性" -- 可见性,有序性,原子性
这篇的主题本应该放在最初的几篇.讨论的是并发编程最基础的几个核心概念.可是这几个概念又牵扯到非常多的实际技术.比方Java内存模型.各种锁的实现,volatile的实现.原子变量等等,每个都可以展开写 ...
- Java开发常用的代码片段
1. 字符串有整型的相互转换 String a = String.valueOf(2); //integer to numeric string int i = Integer.parseInt ...
- POJ 题目1145/UVA题目112 Tree Summing(二叉树遍历)
Tree Summing Time Limit: 1000MS Memory Limit: 10000K Total Submissions: 8132 Accepted: 1949 Desc ...