利用HttpClient写的一个简单页面获取

之前就听说过利用网络爬虫来获取页面，感觉还挺有意思的，要是能进行一下偏好搜索岂不是可以满足一下窥探欲。

后来从一本书上看到用HttpClient来爬取页面，虽然也有源码，但是也没说用的HttpClient是哪个版本的，而且HttpClient版本不一样，导致后面很多类也不一样。于是下载了最新的HttpCient版本，并且对着tutorial和网上的文档试着写一个简单的获取页面的例子，最终证明是可行的，但是也遇到了不少问题，而且这个例子也十分简单。

import java.io.IOException;

import java.net.UnknownHostException;

import java.io.InputStream;

import java.io.OutputStream;

import java.io.FileOutputStream;

import org.apache.http.HttpEntity;

import org.apache.http.impl.client.CloseableHttpClient;

import org.apache.http.impl.client.HttpClients;

import org.apache.http.client.methods.HttpGet;

import org.apache.http.client.methods.CloseableHttpResponse;

import org.apache.http.message.AbstractHttpMessage;

public class Simplest {

	private void Get() {

		CloseableHttpClient httpclient = HttpClients.createDefault();

		try {

			String HostName = "http://www.baidu.com";

			HttpGet httpget = new HttpGet(HostName);

			System.out.println(httpget.getURI());

		 	//HttpGet httpget = new HttpGet("http://www.lietu.com");

			CloseableHttpResponse response = httpclient.execute(httpget);

			System.out.println("Successful!");

			System.out.println(response.getProtocolVersion());	//Protocol Version

			System.out.println(response.getStatusLine().getStatusCode());	//Status Code

			System.out.println(response.getStatusLine().getReasonPhrase());

			System.out.println(response.getStatusLine().toString());

			//get entity

			HttpEntity entity = response.getEntity();

			if (entity != null) {

				InputStream input = entity.getContent();

				String filename = HostName.substring(HostName.lastIndexOf('/')+1);

				System.out.println("The filename is: " + filename);

				OutputStream output = new FileOutputStream(filename);

				int tempByte=-1;

				while ((tempByte=input.read())>0) {

					output.write(tempByte);

				}

				if (input != null) {

					input.close();

				}

				if (output != null) {

					output.close();

				}

			}

		} catch(UnknownHostException e) {

			System.out.println("No such a host!");

		} catch(IOException e) {

			e.printStackTrace();

		}

	}

	public static void main(String[] args) {

		Simplest a = new Simplest();

		a.Get();

		System.out.println("This is a test");

	}

}

代码倒是不长，刚开始搞这个啥也不懂，不过最后还是获取了页面，感觉挺有意思的。

代码编译需要两个jar包，httpclient-4.5.2.jar和httpcore-4.4.4.jar将其和源文件Simplest.java放到同一个目录下。

编译过程为：javac -cp httpcore-4.4.4.jar:httpclient-4.5.2.jar Simplest.java

运行过程为：java -cp .:httpclient-4.5.2.jar:httpcore-4.4.4.jar:Simplest:commons-logging-1.2.jar Simplest

之前也搜了好久在命令行怎么导入jar包之类的，基础不牢就是这样的。

接下来的工作就是从简单到复杂，不断扩充爬虫的能力和功能了，包括页面信息提取等。

利用HttpClient写的一个简单页面获取的更多相关文章

apue编程之参考du代码利用递归写的一个简单的du命令的源代码
#include <stdio.h> #include <stdlib.h> #include <glob.h> #include <string.h> ...
Extjs6（三）——用extjs6.0写一个简单页面
本文基于ext-6.0.0 一.关于border布局在用ext做项目的过程中,最常用到的一种布局就是border布局,现在要写的这个简单页面也是运用border布局来做.border布局将页面分为五 ...
自己写的一个简单PHP采集器
自己写的一个简单PHP采集器 <?php //**************************************************************** $url = &q ...
只是一个用EF写的一个简单的分页方法而已
只是一个用EF写的一个简单的分页方法而已慢慢的写吧.比如,第一步,先把所有数据查询出来吧. //第一步. public IQueryable<UserInfo> LoadPagesFor ...
写了一个简单的CGI Server
之前看过一些开源程序的源码,也略微知道些Apache的CGI处理程序架构,于是用了一周时间,用C写了一个简单的CGI Server,代码算上头文件,一共1200行左右,难度中等偏上,小伙伴可以仔细看看 ...
写了一个简单可用的IOC
根据<架构探险从零开始写javaweb框架>内容写的一个简单的 IOC 学习记录只说明了主要的类,从上到下执行的流程,需要分清主次,无法每个类都说明,只是把整个主线流程说清楚,避免 ...
写了一个简单的 Mybatis
写了一个简单的 Mybatis,取名 SimpleMybatis . 具备增删改查的基本功能,后续还要添加剩下的基本数据类型和Java集合类型的处理. 脑图中有完整的源码和测试的地址 http://n ...
基于Spring aop写的一个简单的耗时监控
前言:毕业后应该有一两年没有好好的更新博客了,回头看看自己这一年,似乎少了太多的沉淀了.让自己做一个爱分享的人,好的知识点拿出来和大家一起分享,一起学习. 背景: 在做项目的时候,大家肯定都遇到对一些 ...
今天写了一个简单的新浪新闻RSS操作类库
今天,有位群友问我如何获新浪新闻列表相关问题,我想,用正则表达式网页中取显然既复杂又不一定准确,现在许多大型网站都有RSS集合,所以我就跟他说用RSS应该好办一些. 一年前我写过一个RSS阅读器,不过 ...

随机推荐

result_charts
<%@ page language="java" contentType="text/html; charset=UTF-8" pageEncoding= ...
如何使用Dockerfile构建Tomcat镜像并部署war
我们都知道Docker构建一个镜像有两种方式: 使用`docker commit`命令使用`Dockerfile`文件和`docker build`命令那么这两种方式有何区别呢? 相同点:底层实现 ...
PHP-表达式
最精确的定义一个表达式的方式就是"任何有值的东西" $a = 5; 1 > 2;等
JavaScript-实现滚动条
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/ ...
用 python 爬虫抓站的一些技巧总结
学用python也有3个多月了,用得最多的还是各类爬虫脚本:写过抓代理本机验证的脚本,写过在discuz论坛中自动登录自动发贴的脚本,写过自动收邮件的脚本,写过简单的验证码识别的脚本,本来想写goog ...
Linux命令-统计文件中的字节数、字数、行数：wc
Linux系统中的wc(Word Count)命令的功能为统计指定文件中的字节数.字数.行数,并将统计结果显示输出. 1．命令格式: wc [选项]文件... 2．命令功能: 统计指定文件中的字节数. ...
Tomcat配置+JSP页面模板修改UTF-8
A.修改Tomcat端口号步骤:1.找到Tomcat目录下的conf文件夹2.进入conf文件夹里面找到server.xml文件3.打开server.xml文件4.在server.xml文件里面找到下 ...
Python练习笔记——通讯录查询V1.0
作业: 编写一个代码,实现手机通讯录管理实现功能:增.删.改.查字典,列表 [扩展]不要求一定做出来实现拼音首字母查找 phone = {} while True: num = input(&q ...
Linux内核同步 - RCU基础
一.前言关于RCU的文档包括两份,一份讲基本的原理(也就是本文了),一份讲linux kernel中的实现.第二章描述了为何有RCU这种同步机制,特别是在cpu core数目不断递增的今天,一个性能 ...
Python log() 函数
描述 log() 方法返回x的自然对数,x > 0. 语法以下是 log() 方法的语法: import math math.log( x ) 注意:log()是不能直接访问的,需要导入 ma ...

利用HttpClient写的一个简单页面获取

利用HttpClient写的一个简单页面获取的更多相关文章

随机推荐

热门专题