写一个小程序,模拟Http POST请求来从网站中获取数据。使用Jsoup(http://jsoup.org/)来解析HTML。

Jsoup封装了HttpConnection的功能,可以向服务器提交请求。但分析了目标网站(http://rapdb.dna.affrc.go.jp/tools/converter/run)的数据提交方式后,决定自己用代码来模拟Content-type为 multipart/form-data的form表单提交。

1、HttpURLConnection :A URLConnection with support for HTTP-specific features.一个可以支持HTTP的URL连接。

connection.setRequestMethod("POST");
connection.setConnectTimeout(5 * 60 * 1000);
connection.setReadTimeout(5 * 60 * 1000);
connection.addRequestProperty(“User-Agent”, “Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.118 Safari/537.36”);
connection.addRequestProperty("Content-Type", "multipart/form-data; boundary=--testsssssss");
//若需要向服务器请求数据,需要设定为true,默认为false
connection.setDoOutput(true);
//若提交为post方式,需要修改为false
connection.setUseCaches(false);
//向报务器连接
Connection.connect();
output = connection.getOutputStream();
//向服务器传送post数据
output.write(bodyStr.getBytes());

向服务器发送请求后,服务器应该能接收到类似的数据:

POST /test HTTP/1.1
Accept-Language: zh-CN,zh;q=0.8
//connection.addestProperty设定的Http请求头信息
User-Agent: Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.118 Safari/537.36
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8
Content-Type: multipart/form-data; boundary=--testsssssss
Cache-Control: no-cache
Pragma: no-cache
Host: localhost
Connection: keep-alive
//Http请求的正文大小,未手工设定,程序自动生成?
Content-Length: 224 --HrOGHuIjDhR_gtUesEBnpWxVp9JH209p
Content-Disposition: form-data; name="keyword" test
--HrOGHuIjDhR_gtUesEBnpWxVp9JH209p
Content-Disposition: form-data; name="submit" Convert
--HrOGHuIjDhR_gtUesEBnpWxVp9JH209p--

2、向服务器请求数据时常用的方式:

    • GET:当form提交时,请求参数拼接在URl上,使用&来分隔。
    • POST:提交form时,请求参数封装在请求body中,可传递大批量数据。请求时数据封装类型有很多种(http://en.wikipedia.org/wiki/Internet_media_type),常用的不多:

      • application/x-www-form-urlencoded 默认的提交方式,同GET类似,将参数组装成Key-value方式,用&分隔,但数据存放在body中提交
      • multipart/form-data 这种方式一般用来上传文件,或大批量数据时。

  该网站的提交方式为post,MIME类型为multipart/form-data类型。需要组装相应的数据。

  该类型的数据提交时需要在HTTP请求头中的content-type添加boundary字段,正文的数据就以该字段来区分:

  

//boundary为--testsssssss

connection.addRequestProperty("Content-Type", "multipart/form-data; boundary=--testsssssss");

  在封装Http请求的Body中,要以boundary来区分开各个字段:String mimeBoundary = "--testsssssss";

StringBuffer sb = new StringBuffer();
//在boundary关需添加两个横线
sb = sb.append("--").append(mimeBoundary);
sb.append("\r\n");
sb.append("Content-Disposition: form-data; name=\"keyword\"");
//提交的数据前要有两个回车换行
sb.append("\r\n\r\n");
sb.append(queryText);
sb.append("\r\n");
//第二个提交的参数
sb.append("--").append(mimeBoundary);
sb.append("\r\n");
sb.append("Content-Disposition: form-data; name=\"submit\"");
sb.append("\r\n\r\n");
sb.append("Convert");
sb.append("\r\n");
//body结束时 boundary前后各需添加两上横线,最添加添回车换行
sb.append("--").append(mimeBoundary).append("--").append("\r\n");

  若提交的数据为文件或图片类型,需要读取文件内容。http://www.w3.org/TR/html401/interact/forms.html#h-17.13.4.2

 3、jsoup解析数据:

  jsoup解析HTML代码的方式类似于javascript。

  可以将HttpUrlConnection接收到的html字符串来组装 Document:

  

Document doc = Jsoup.parse(html);
//获取html中id为tools_converter的元素
//假设html代码如:<a id="tools_converter" href="http://localhost">测试</a>
Element element = doc.getElementById("tools_converter");
//可获取text的数据为:测试
String text = element.text();
//可获得attr的数据为:http://localhost
String attr = element.attr("href"); //也可以直接使用Jsoup封装的HttpConnection来请求数据器:
Document document = Jsoup.connect(url)
.userAgent("Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.118 Safari/537.36").get();

  Jsoup提供的部分方法如下:

  getElementsByTag(String):按Tag标签来获取:Elements divs = document.getElementsByTag("div")

  getElementById(String):按id标签来获取:Element idEle = document.getElementById("blogId")

  getElementsByClass(String):按CSS的Class名称来获取:Elements divs = document.getElementsByClass("redClass")

  children():返回Elements,某元素的所有子元素。

  child(int index):返回Element,某元素的第几个子元素:

  参考Jsoup API

  

  链接:

  JDK中的URLConnection参数详解

使用HttpURLConnection请求multipart/form-data类型的form提交的更多相关文章

  1. Sending forms through JavaScript[form提交 form data]

    https://developer.mozilla.org/en-US/docs/Learn/HTML/Forms/Sending_forms_through_JavaScript As in the ...

  2. [整理]Ajax Post请求下的Form Data和Request Payload

    Ajax Post请求下的Form Data和Request Payload 通常情况下,我们通过Post提交表单,以键值对的形式存储在请求体中.此时的reqeuest headers会有Conten ...

  3. HTTP请求中的form data和request payload的区别

    HTML <form> 标签的 enctype 属性 在下面的例子中,表单数据会在未编码的情况下进行发送: <form action="form_action.asp&qu ...

  4. AJAX POST请求中参数以form data和request payload形式在servlet中的获取方式

    转载:http://blog.csdn.net/mhmyqn/article/details/25561535 HTTP请求中,如果是get请求,那么表单参数以name=value&name1 ...

  5. AJAX POST请求中參数以form data和request payload形式在servlet中的获取方式

    HTTP请求中,假设是get请求,那么表单參数以name=value&name1=value1的形式附到url的后面,假设是post请求,那么表单參数是在请求体中,也是以name=value& ...

  6. HTTP请求中的Form Data与Request Payload的区别

    前端开发中经常会用到AJAX发送异步请求,对于POST类型的请求会附带请求数据.而常用的两种传参方式为:Form Data 和 Request Payload. GET请求 使用get请求时,参数会以 ...

  7. 【转】HTTP请求中的form data和request payload的区别

    jQuery的ajax方法和post方法分别发送请求,在后台Servlet进行处理时结果是不一样的,比如用$.ajax方法发送请求时(data参数是一个JSON.stringify()处理后的字符串, ...

  8. [转]AJAX POST请求中参数以form data和request payload形式在servlet中的获取方式

    转载至 http://blog.csdn.net/mhmyqn/article/details/25561535 最近在写接收第三方的json数据, 因为对java不熟悉,有时候能通过request能 ...

  9. http 请求参数之Query String Parameters、Form Data、Request Payload

    Query String Parameters 当发起一次GET请求时,参数会以url string的形式进行传递.即?后的字符串则为其请求参数,并以&作为分隔符. 如下http请求报文头: ...

随机推荐

  1. gcc,gdb,make学习

    实例学习gcc+gdb+make程序编译.链接.运行时头文件或动态链接库的查找 分四步: 预处理.编译.汇编.链接4steps:preprocess,compile,assemble,link ​

  2. poi解析Excel文件版本问题

    poi解析Excel文件时有两种格式: HSSFWorkbook格式用来解析Excel2003(xls)的文件 XSSFWorkbook格式用来解析Excel2007(xlsx)的文件 如果用HSSF ...

  3. 前端构建大法 Gulp 系列

    参考: 前端构建大法 Gulp 系列 (一):为什么需要前端构建 前端构建大法 Gulp 系列 (二):为什么选择gulp 前端构建大法 Gulp 系列 (三):gulp的4个API 让你成为gulp ...

  4. linux与window的\r与\n

    应用程序 void niuniu(void) { char buf[16]; char *p[6]; int i; led_init(); uart_init(); while(1) { puts(& ...

  5. Java新建线程的3种方法

    Java新建线程的3种方法 =================== Java创建线程有3种方法:(1)继承Thread;(2)实现Runnable接口:(3)实现Callable接口; 由于Java只 ...

  6. 《高级Web应用程序设计》作业(20170904)

    作业1(类型-理论学习,上传ftp,截止日期9月20日) 1.请写出ASP.NET MVC的优点. 2.请写出默认项目模板中以下文件夹或文件的作用.App_Data文件夹.Content文件夹.Con ...

  7. hdu4305生成树计数

    先预处理出距离,然后判断是否可行,要注意判断是否在一条直线上时判断是在两侧还是一边(wa了四次) double型数据 #include<map> #include<set> # ...

  8. 个人知识管理系统Version1.0开发记录(02)

    第 一 步 做 什 么 我们该如何入手呢?先来看看目前常用的三个方法. 1.从事物产生的源头出发,层层推进,步步验证,最后开花结果.这种方法经常用于科研项目,或者三期以后的工程,国家政府项目用的较多. ...

  9. BZOJ 1026 windy数 (数位DP)

    题意 区间[A,B]上,总共有多少个不含前导零且相邻两个数字之差至少为2的正整数? 思路 状态设计非常简单,只需要pos.limit和一个前驱数pre就可以了,每次枚举当前位时判断是否与上一位相差2即 ...

  10. day20 project+查看新闻列表 + 点赞 + 图片验证码 + 评论和多级评论 + 后台管理 + webSocket + kindEditor

    Day20回顾: 1. 请求生命周期 2. 中间件 md = [ "file_path.classname" ] process_request[可有可无] process_res ...