HrrpClient使用
使用HttpClient获取网页内容的过程
1、创建一个CloseableHttpClient类的实例;
2、使用这个实例执行HTTP请求,得到一个HttpResponse的实例;
3、最后,通过HttpResponse的实例得到返回的二进制流,二进制流封装在HttpEntity中。根据指定的字符集把二进制流转
换成字符串,完成下载。
CloseableHttpClient类中存储了一些全局信息。创建CloseableHttpClient类的实例的代码如
下所示。
CloseableHttpClient httpclient = HttpClientBuilder.create().build();
创建一个客户端,类似于打开一个浏览器。HttpClient支持所有定义在HTTP/1.1版本中的
HTTP方法。对于每个方法类型都有一个特定的类,爬虫最常用的是表示HTTP GET方法的
org.apache.http.client.methods.HttpGet,这样是为了避免误抓登录后才能看到数据。
//创建一个GET方法,类似于在浏览器地址栏中输入一个地址
HttpGet httpget = new HttpGet("http://www.lietu.com/");
使用 CloseableHttpClient 执行 GET 请求。
//类似于在浏览器地址栏中输入回车,获得网页内容
HttpResponse response = httpclient.execute(httpget);
查看返回的内容,类似于在浏览器查看网页源代码。
HttpEntity entity = response.getEntity();
if (entity != null) {
//读入内容流,并以字符串形式返回,这里指定网页编码是UTF-8
System.out .println (EntityUtils. toString (entity, "utf-8")); //网页的 Meta 标签中指定了编码
EntityUtils. consume (entity);//关闭内容流
}
最后需要释放和Web服务器建立的连接。
httpclient.close();
把使用HttpClient下载的网页封装成一个方法。
public static String downloadPage(String path) throws IOException{
//创建一个客户端,类似于打开一个浏览器
CloseableHttpClient httpclient = HttpClientBuilder.create().build();
//创建一个GET方法,类似于在浏览器地址栏中输入一个地址
HttpGet httpget = new HttpGet(path);
//类似于在浏览器地址栏中输入回车,获得网页内容
HttpResponse response = httpclient.execute(httpget);
//查看返回的内容,类似于在浏览器查看网页源代码
HttpEntity entity = response.getEntity();
if (entity != null) {
//读入内容流,并以字符串形式返回,这里指定网页编码是UTF-8
String html = EntityUtils .toString (entity, "GBK");//网页的 Meta 标签中指定了编码
EntityUtils. consume (entity);//关闭内容流
return html;
}
return null;
调用EntityUtils.consume方法是为了关闭内容流,更好的方法是调用
EntityUtils.consumeQuietly(entity)方法保证完全消费了实体对象。
这个程序中,爬虫程序发出下面这样的GET请求得到网页。
GET / HTTP/1.1
从返回的请求得到字符串最简单的方法。
BasicResponseHandler handler = new BasicResponseHandler ();
String content = httpclient.execute(httpget, handler);
如果使用BasicResponseHandler,则需要自己处理碰到的异常。例如碰到Service Unavailable
时,需要自己写重试的代码。
BasicResponseHandler handler = new BasicResponseHandler {);
String content = null;
do{
try{
content = httpclient.execute(httpget, handler);
}catch(org.apache.http.client.HttpResponseException ex){
ex.printStackTrace();
System.out.println ("retry..");
Thread.sleep(3000);
}
}while(content == null);
当我们不希望在某个网址上花太多时间去等待下载完成时,要设置超时。
//配置参数
int socketTimeout = 9000; //读数据超时
int connectionTimeout = 9000; //连接超时
//请求配置
RequestConfig requestConfig = RequestConfig.custom()
.setConnectTimeout(connectionTimeout)
.setConnectionRequestTimeout(connectionTimeout)
.setSocketTimeout(socketTimeout).build();
CloseableHttpClient httpClient = HttpClientBuilder.create().setDefaultRequestConfig(requestConfig).build();
表单post
。提交一个参数包括名字和值两项。NameValuePair是一个接口,而
BasicNameValuePair则是这个接口的实现,使用BasicNameValuePair封装名字/值对。例如,参
数名cityld对应的值是1,代码如下所示。
new BasicNameValuePair("cityld", "1");
模拟提交表单并返回结果的代码如下所示。
HttpClient httpclient = new DefaultHttpClient();
//使用HttpPost发送POST请求
HttpPost httppost = new HttpPost(’'http://hotels.ctrip.com/Domestic/ShowHotelList.aspx");
//POST数据
List<NameValuePair> nameValuePairs = new ArrayList<NameValuePair> ⑶;"3个参数
nameValuePairs. add (new BasicNameValuePair ("checkin", "2011-4-15")); //入住日期
nameValuePairs.add (new BasicNameValuePair ("checkout", "2011-4-25"}); //离店日期
nameValuePairs. add (new BasicNameValuePair ("cityld", " 1")); //城市编码
httppost.setEntity(new UrlEncodedFormEntity(nameValuePairs));
//执行HTTP POST请求
HttpResponse response = httpclient.execute(httppost);
//取得内容流
HttpEntity entity = response.getEntity();
InputStream is = entity.getContent();
BufferedlnputStream bis = new BufferedlnputStream(is);
ByteArrayBuffer baf = new ByteArrayBuffer(20);
//按字节读入内容流到字节数组缓存
int current = 0;
while ((current = bis.read()) != -1) {
baf.append((byte) current);
}
String text = new String (baf. toByteArray (), "gb2312"); //指定编码
System.out.println(text);
上面的例子说明了如何使用POST方法来访问Web资源。与GET方法不同,POST方法可
以提交二进制格式的数据,因此可以传递“无限”多的参数。而GET方法釆用把参数写在URL
里面的方式,由于URL有长度限制,因此传递参数的长度会有限制。
HrrpClient使用的更多相关文章
- java爬虫笔记
一.URl解释 1.URl统一资源定位符, Uniform Resource Location 也就是说是Internet上信息资源的字符串,所谓的网页抓取就是把URl地址中指定的网络资源从网络中读取 ...
随机推荐
- C# 通过Hook的方法 屏蔽快捷键
#region 屏蔽Windows功能键(快捷键) public delegate int HookProc(int nCode, int wParam, IntPtr lParam ...
- bb=Discuz与 Discuz! X ,Discuz!NT区别
没加x的,仅仅是单独的论坛. 加了x的,模块加了很多了,门户,家园,排行榜,群组,都是Discuz! X上的,而Discuz!上没有,所以说Discuz! X更加适用于建设门户网 Discuz! X ...
- oracle指定访问某表或某视图
在oracle中,想创建一个账号,然后只能只读地访问指定的表,怎么搞? 一.为特定的表创建视图 创建视图的时候还可以加上过滤条件,连访问哪些数据都可以指定. create or replace vie ...
- 用JS写九九乘法表
本来JS部分觉得就不是很好,结果经过一个寒假,在家的日子过的太舒适,基本把学的都快忘干净了,今天老师一说九九乘法表,除了脑子里浮现出要满足的条件,其他的都不记得了,赶快整理了一下: <scrip ...
- RS-485接口的防护电路设计
RS-485总线标准是安防系统设备上应用最为广泛的物理层协议之一.RS-485的主要特点:支持远距离传输,长达4000英尺:双向信号差分传输,提高信号的噪音抑制能力,并且允许一条总线上可以挂接多个发射 ...
- jquery 备忘笔记
1.选择器 a.查询所有以某字符串开头的元素 $("input[id^='dgItem_txt']") b.获取一组单选按钮中选中的值 $("input[name='it ...
- static 静态域 类域 静态方法 工厂方法 he use of the static keyword to create fields and methods that belong to the class, rather than to an instance of the class 非访问修饰符
总结: 1.无论一个类实例化多少对象,它的静态变量只有一份拷贝: 静态域属于类,而非由类构造的实例化的对象,所有类的实例对象共享静态域. class Employee { private static ...
- PHP开发工作心得
一.扎实PHP自身的基础知识.函数.常量等,尽量用内置的方法解决这个问题(由于个人写的往往运行效率没有内置方法高): 二.代码尽量少的实现功能(由于PHP的运行事实上是,将咱们的代码先处理成底层语言进 ...
- smod包含具体的增强(具体实施对象) / CMOD 包含一组smod编写的增强
从标题来看,CMOD 是树木,smod 是树枝. 1.1 SMOD包含具体的增强,而CMOD是包含一组SMOD编写的增强. 1.2 User exits (Function module exits) ...
- ThinkPHP 静态页缓存
通过对ThinkPHP的学习,记录下静态页的缓存步骤,以便以后查阅: 1.配置配置文件/Admin/Conf/config.php代码如下: /*静态缓存*/ 'HTML_CACHE_ON'=> ...