【搜索引擎Jediael开发笔记2】使用HttpClient下载网页至本地文件

本文使用HttpClient根据url进行网页下载。其中

（1）HttpClient的相关知识请参见HttpClient基础教程

（2）

package org.ljh.search.downloadpage;

import java.io.FileNotFoundException;

import java.io.IOException;

import java.io.InputStream;

import java.io.PrintWriter;

import java.io.Writer;

import java.util.Scanner;

import org.apache.http.HttpEntity;

import org.apache.http.HttpStatus;

import org.apache.http.client.ClientProtocolException;

import org.apache.http.client.methods.CloseableHttpResponse;

import org.apache.http.client.methods.HttpGet;

import org.apache.http.impl.client.CloseableHttpClient;

import org.apache.http.impl.client.HttpClients;

//本类用于将指定url对应的网页下载至本地一个文件。

public class PageDownloader {

	public static void downloadPageByGetMethod(String url) throws IOException {

		// 1、通过HttpGet获取到response对象

		CloseableHttpClient httpClient = HttpClients.createDefault();

		// 注意，必需要加上http://的前缀，否则会报：Target host is null异常。

		HttpGet httpGet = new HttpGet(url);

		CloseableHttpResponse response = httpClient.execute(httpGet);

		InputStream is = null;

		if (response.getStatusLine().getStatusCode() == HttpStatus.SC_OK) {

			try {

				// 2、获取response的entity。

				HttpEntity entity = response.getEntity();

				// 3、获取到InputStream对象，并对内容进行处理

				is = entity.getContent();

				String fileName = getFileName(url);

				saveToFile("D:\\tmp\\", fileName, is);

			} catch (ClientProtocolException e) {

				e.printStackTrace();

			} finally {

				if (is != null) {

					is.close();

				}

				if (response != null) {

					response.close();

				}

			}

		}

	}

	//将输入流中的内容输出到path指定的路径，fileName指定的文件名

	private static void saveToFile(String path, String fileName, InputStream is) {

		Scanner sc = new Scanner(is);

		Writer os = null;

		try {

			os = new PrintWriter(path + fileName);

			while (sc.hasNext()) {

				os.write(sc.nextLine());

			}

		} catch (FileNotFoundException e) {

			e.printStackTrace();

		} catch (IOException e) {

			e.printStackTrace();

		} finally {

			if (sc != null) {

				sc.close();

			}

			if (os != null) {

				try{

				os.flush();

				os.close();

				}catch(IOException e){

					e.printStackTrace();

					System.out.println("输出流关闭失败！");

				}

			}

		}

	}

	// 将url中的特殊字符用下划线代替

	private static String getFileName(String url) {

		url = url.substring(7);

		String fileName = url.replaceAll("[\\?:*|<>\"/]", "_") + ".html";

		return fileName;

	}

}

【搜索引擎Jediael开发笔记2】使用HttpClient下载网页至本地文件的更多相关文章

【搜索引擎Jediael开发笔记】v0.1完整代码
详细代码请见 E:\Project\[重要]归档代码\SearchEngine归档代码或 https://code.csdn.net/jediael_lu/jediael/tree/10991c83 ...
【搜索引擎Jediael开发笔记1】搜索引擎初步介绍及网络爬虫
详细可参考 (1)书箱:<这就是搜索引擎><自己动手写网络爬虫><解密搜索引擎打桩实践> (2)[搜索引擎基础知识1]搜索引擎的技术架构 (3)[搜索引擎基础知识2 ...
【搜索引擎Jediael开发笔记】v0.1完整代码 2014-05-26 15:17 463人阅读评论(0) 收藏
详细代码请见 E:\Project\[重要]归档代码\SearchEngine归档代码或 https://code.csdn.net/jediael_lu/jediael/tree/10991c83 ...
【搜索引擎Jediael开发笔记】V0.1完整代码 2014-05-26 15:16 443人阅读评论(0) 收藏
详细代码请见 E:\Project\[重要]归档代码\SearchEngine归档代码或 https://code.csdn.net/jediael_lu/jediael/tree/10991c83 ...
【搜索引擎Jediael开发笔记3】使用HtmlParser提取网页中的链接
关于HtmpParser的基本内容请见 HtmlParser基础教程本文示例用于提取HTML文件中的链接 package org.ljh.search.html; import java.util. ...
【搜索引擎Jediael开发4】V0.01完整代码
截止目前,已完成如下功能: 1.指定某个地址,使用HttpClient下载该网页至本地文件 2.使用HtmlParser解释第1步下载的网页,抽取其中包含的链接信息 3.下载第2步的所有链接指向的网页 ...
【搜索引擎Jediael开发4】V0.01完整代码分类： H_HISTORY 2014-05-21 21:35 470人阅读评论(0) 收藏
截止目前,已完成如下功能: 1.指定某个地址,使用HttpClient下载该网页至本地文件 2.使用HtmlParser解释第1步下载的网页,抽取其中包含的链接信息 3.下载第2步的所有链接指向的网页 ...
TERSUS无代码开发(笔记01)-按装下载和基础语法
1.中国官网 https://tersus.cn/ 2.下载:https://tersus.cn/download/ 3.开发文档:https://tersus.cn/docs/ 4.基本元件说明图 ...
Java开发笔记（九十五）NIO配套的文件工具Files
NIO不但引进了高效的文件通道,而且新增了更加好用的文件工具家族,包括路径组工具Paths.路径工具Path.文件组工具Files.先看路径组工具Paths,该工具提供了静态方法get,输入某个文件的 ...

随机推荐

（原）Understand中查看函数调用关系
转载请注明出处: http://www.cnblogs.com/darkknightzh/p/4994551.html 1. 选中某函数,如_tmain,右键“Graphical Views——Cal ...
mysql 分组后取每个组内最新的一条数据
首先,将按条件查询并排序的结果查询出来. mysql order by accepttime desc; +---------------------+------+-----+ | acceptti ...
winform 读取保存配置文件
原文连接: public static string fileName = System.IO.Path.GetFileName(Application.ExecutablePath); ...
［XMPP］iOS聊天软件学习笔记［二］
@import url(http://i.cnblogs.com/Load.ashx?type=style&file=SyntaxHighlighter.css);@import url(/c ...
opencv中的图像区域复制
openCV作为已经成熟的开源库,很多操作它都已经有了高效,使用方便的方法.我的应用场景是这样的,从一张大图片中抠出一小部分,然后处理这一小部分后再放到大图像中.对于抠出来可以这样实现: Rect r ...
实现TCP断点上传，后台C#服务实现接收
实现TCP断点上传,后台C#服务实现接收终端实现大文件上传一直都是比较难的技术,其中涉及到后端与前端的交互,稳定性和流量大小,而且实现原理每个人都有自己的想法,后端主流用的比较多的是Http来实现, ...
Git工作中用法（Gitlab）
感觉又有了新的认识. 一共有3个仓库,本地自己的,远程自己的,远程主仓库. 为了方便能及时从主仓库获取更新的内容要将远程主仓库也clone下来 git clone upstream url / ...
jQuery插件之Form
一.jQuery.Form.js 插件的作用是实现Ajax提交表单. 方法: 1.formSerilize() 用于序列化表单中的数据,并将其自动整理成适合AJAX异步请求的URL地址格式. 2.cl ...
SQL Server 索引的图形界面操作 <第十二篇>
一.索引的图形界面操作 SQL Server非常强大的就是图形界面操作.关于索引方面也一样那么强大,很多操作比如说重建索引啊,查看各种统计信息啊,都能够通过图形界面快速查看和操作,下面来看看SQL S ...
Linux读取文件路径问题
问题是这样的: 首先终端上有当前路径显示,我有个可执行程序代码是这样的: FILE fp = fopen(filename, "rb"); if(fp == NULL) ...

【搜索引擎Jediael开发笔记2】使用HttpClient下载网页至本地文件

【搜索引擎Jediael开发笔记2】使用HttpClient下载网页至本地文件的更多相关文章

随机推荐

热门专题