【搜索引擎Jediael开发笔记2】使用HttpClient下载网页至本地文件

本文使用HttpClient根据url进行网页下载。其中

（1）HttpClient的相关知识请参见HttpClient基础教程

（2）

package org.ljh.search.downloadpage;

import java.io.FileNotFoundException;

import java.io.IOException;

import java.io.InputStream;

import java.io.PrintWriter;

import java.io.Writer;

import java.util.Scanner;

import org.apache.http.HttpEntity;

import org.apache.http.HttpStatus;

import org.apache.http.client.ClientProtocolException;

import org.apache.http.client.methods.CloseableHttpResponse;

import org.apache.http.client.methods.HttpGet;

import org.apache.http.impl.client.CloseableHttpClient;

import org.apache.http.impl.client.HttpClients;

//本类用于将指定url对应的网页下载至本地一个文件。

public class PageDownloader {

	public static void downloadPageByGetMethod(String url) throws IOException {

		// 1、通过HttpGet获取到response对象

		CloseableHttpClient httpClient = HttpClients.createDefault();

		// 注意，必需要加上http://的前缀，否则会报：Target host is null异常。

		HttpGet httpGet = new HttpGet(url);

		CloseableHttpResponse response = httpClient.execute(httpGet);

		InputStream is = null;

		if (response.getStatusLine().getStatusCode() == HttpStatus.SC_OK) {

			try {

				// 2、获取response的entity。

				HttpEntity entity = response.getEntity();

				// 3、获取到InputStream对象，并对内容进行处理

				is = entity.getContent();

				String fileName = getFileName(url);

				saveToFile("D:\\tmp\\", fileName, is);

			} catch (ClientProtocolException e) {

				e.printStackTrace();

			} finally {

				if (is != null) {

					is.close();

				}

				if (response != null) {

					response.close();

				}

			}

		}

	}

	//将输入流中的内容输出到path指定的路径，fileName指定的文件名

	private static void saveToFile(String path, String fileName, InputStream is) {

		Scanner sc = new Scanner(is);

		Writer os = null;

		try {

			os = new PrintWriter(path + fileName);

			while (sc.hasNext()) {

				os.write(sc.nextLine());

			}

		} catch (FileNotFoundException e) {

			e.printStackTrace();

		} catch (IOException e) {

			e.printStackTrace();

		} finally {

			if (sc != null) {

				sc.close();

			}

			if (os != null) {

				try{

				os.flush();

				os.close();

				}catch(IOException e){

					e.printStackTrace();

					System.out.println("输出流关闭失败！");

				}

			}

		}

	}

	// 将url中的特殊字符用下划线代替

	private static String getFileName(String url) {

		url = url.substring(7);

		String fileName = url.replaceAll("[\\?:*|<>\"/]", "_") + ".html";

		return fileName;

	}

}

【搜索引擎Jediael开发笔记2】使用HttpClient下载网页至本地文件的更多相关文章

【搜索引擎Jediael开发笔记】v0.1完整代码
详细代码请见 E:\Project\[重要]归档代码\SearchEngine归档代码或 https://code.csdn.net/jediael_lu/jediael/tree/10991c83 ...
【搜索引擎Jediael开发笔记1】搜索引擎初步介绍及网络爬虫
详细可参考 (1)书箱:<这就是搜索引擎><自己动手写网络爬虫><解密搜索引擎打桩实践> (2)[搜索引擎基础知识1]搜索引擎的技术架构 (3)[搜索引擎基础知识2 ...
【搜索引擎Jediael开发笔记】v0.1完整代码 2014-05-26 15:17 463人阅读评论(0) 收藏
详细代码请见 E:\Project\[重要]归档代码\SearchEngine归档代码或 https://code.csdn.net/jediael_lu/jediael/tree/10991c83 ...
【搜索引擎Jediael开发笔记】V0.1完整代码 2014-05-26 15:16 443人阅读评论(0) 收藏
详细代码请见 E:\Project\[重要]归档代码\SearchEngine归档代码或 https://code.csdn.net/jediael_lu/jediael/tree/10991c83 ...
【搜索引擎Jediael开发笔记3】使用HtmlParser提取网页中的链接
关于HtmpParser的基本内容请见 HtmlParser基础教程本文示例用于提取HTML文件中的链接 package org.ljh.search.html; import java.util. ...
【搜索引擎Jediael开发4】V0.01完整代码
截止目前,已完成如下功能: 1.指定某个地址,使用HttpClient下载该网页至本地文件 2.使用HtmlParser解释第1步下载的网页,抽取其中包含的链接信息 3.下载第2步的所有链接指向的网页 ...
【搜索引擎Jediael开发4】V0.01完整代码分类： H_HISTORY 2014-05-21 21:35 470人阅读评论(0) 收藏
截止目前,已完成如下功能: 1.指定某个地址,使用HttpClient下载该网页至本地文件 2.使用HtmlParser解释第1步下载的网页,抽取其中包含的链接信息 3.下载第2步的所有链接指向的网页 ...
TERSUS无代码开发(笔记01)-按装下载和基础语法
1.中国官网 https://tersus.cn/ 2.下载:https://tersus.cn/download/ 3.开发文档:https://tersus.cn/docs/ 4.基本元件说明图 ...
Java开发笔记（九十五）NIO配套的文件工具Files
NIO不但引进了高效的文件通道,而且新增了更加好用的文件工具家族,包括路径组工具Paths.路径工具Path.文件组工具Files.先看路径组工具Paths,该工具提供了静态方法get,输入某个文件的 ...

随机推荐

hdu2037 经典贪心入门
今年暑假不AC Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 65536/32768 K (Java/Others)Total Sub ...
CTL_CODE 宏详解
CTL_CODE宏 CTL_CODE:用于创建一个唯一的32位系统I/O控制代码,这个控制代码包括4部分组成: DeviceType(设备类型,高16位(16-31位)), Function(功能2- ...
WordPress插件制作教程(一): 如何创建一个插件
上一篇还是按照之前的教程流程,写了一篇WordPress插件制作教程概述,从这一篇开始就为大家具体讲解WordPress插件制作的内容.这一篇主要说一下插件的创建方法. 相信大家都知道插件的安装文件在 ...
python 在linux下通过top,和dh命令获得cpu,内存，以及硬盘信息
主要是通过os.popen读取命令输出实现的,os.popen启动新的进程,且将外部命令的输出作为文件类型对象返回.不能获得外部命令的返回值.既然是文件对象就可以直接用for in 来读取,代码如下: ...
php 去掉头尾空格 2种方法
看似很简单的问题,其实还是有点坑的,首先这里空格转义,不是字符串,直接用trim()是去不掉. 1,用preg_replace替换 $test = " dfadad 论责民与三英的关系77 ...
mysql中的意向锁IS,IX
知识储备: 1.官方文档上说mysql是支持非锁定读的:这个功能是这样实现的,如果事务a 要对行的数据进行更新的话,那么事务a要得到行的x锁,并把这一行之前的样子记录在undo log里面,这样一 ...
sqlserver系统表操作
查询表名中包含‘user’的方法Select * From sysobjects Where name like '%user%' 如果知道列名,想查找包含有该列的表名,可加上系统表syscolumn ...
linux服务器之间拷贝文件和文件夹
传输文件用法:scp 本机文件目录远程服务器用户名@服务器IP:/服务器目录示例:
JavaScript 之 Cookie
JavaScript是运行在客户端的脚本,因此一般是不能够设置Session的,因为Session是运行在服务器端的. 而cookie是运行在客户端的,所以可以用JS来设置cookie. 假设有这样一 ...
WebSocket 简介
在HTML5规范中,我最喜欢的Web技术就是正迅速变得流行的WebSocket API.WebSocket提供了一个受欢迎的技术,以替代我们过去几年一直在用的Ajax技术.这个新的API提供了一个方法 ...

【搜索引擎Jediael开发笔记2】使用HttpClient下载网页至本地文件

【搜索引擎Jediael开发笔记2】使用HttpClient下载网页至本地文件的更多相关文章

随机推荐

热门专题