java获得采集网页内容的方法小结
为了写一个java的采集程序,从网上学习到3种方法可以获取单个网页内容的方法,主要是运用到是java IO流方面的知识,对其不熟悉,因此写个小结。
import java.io.BufferedReader;
import java.io.ByteArrayOutputStream;
import java.io.IOException;
import java.io.InputStreamReader;
import java.net.HttpURLConnection;
import java.net.URL;
import java.util.regex.Matcher;
import java.util.regex.Pattern; public class Get_Html {
public static void main(String[] args) throws Exception {
long start= System.currentTimeMillis();
String str_url="http://www.hiphop8.com/city/guangdong/guangzhou.php";
Pattern p = Pattern.compile(">(13\\d{5}|15\\d{5}|18\\d{5}|147\\d{4})<"); //String html = get_Html_2(str_url);
//String html = get_Html_1(str_url);
String html = get_Html_3(str_url);
Matcher m = p.matcher(html); int num = 0;
while(m.find())
{
System.out.println("打印出的号码段落:"+m.group(1)+" 编号"+(++num));
}
System.out.println(num);
long end = System.currentTimeMillis();
System.out.println("花费的时间"+(end-start)+"毫秒");
}
public static String get_Html_2(String str_url) throws IOException{
URL url = new URL(str_url);
String content="";
StringBuffer page = new StringBuffer();
try {
BufferedReader in = new BufferedReader(new InputStreamReader(url
.openStream(), "utf-8"));
while((content = in.readLine()) != null){
page.append(content);
}
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
return page.toString();
} public static String get_Html_1(String str_url) throws IOException{
URL url = new URL(str_url);
HttpURLConnection conn = (HttpURLConnection)url.openConnection();
InputStreamReader input = new InputStreamReader(conn.getInputStream(), "utf-8");
BufferedReader bufReader = new BufferedReader(input);
String line = "";
StringBuilder contentBuf = new StringBuilder();
while ((line = bufReader.readLine()) != null) {
contentBuf.append(line);
}
return contentBuf.toString();
} /**
* 通过网站域名URL获取该网站的源码
* @param url
* @return String
* @throws Exception
*/
public static String get_Html_3(String str_url) throws Exception {
URL url = new URL(str_url);
HttpURLConnection conn = (HttpURLConnection)url.openConnection();
conn.setRequestMethod("GET");
conn.setConnectTimeout(5 * 1000); //设置连接超时
java.io.InputStream inStream = conn.getInputStream(); //通过输入流获取html二进制数据 byte[] data = readInputStream(inStream); //把二进制数据转化为byte字节数据
String htmlSource = new String(data);
return htmlSource;
} /**
* 把二进制流转化为byte字节数组
* @param inStream
* @return byte[]
* @throws Exception
*/
public static byte[] readInputStream(java.io.InputStream inStream) throws Exception {
ByteArrayOutputStream outStream = new ByteArrayOutputStream();
byte[] buffer = new byte[1204];
int len = 0;
while ((len = inStream.read(buffer)) != -1){
outStream.write(buffer,0,len);
}
inStream.close();
return outStream.toByteArray();
}
}
【分别测试6次的结果】不知道是不是获取的网页数量内容较小,采集效率差不多,不过方法2应该是最好最简便的。
//get_Html_1 967 2658 1132 1199 988 1236
//get_Html_2 2323 2244 1202 1166 1081 1011
//get_Html_3 978 1219 1527 1133 1192 1774
1、关于url .openStream()和conn.getInputStream()。
二者返回的的都是InputStrema对象,且都是通过openConnection()方法获取URLConnection对象,然后调用getInputStream()方法,所以方法2和方法1是一样的,但前者更方便。

2、关于BufferedReader类。
【该类的功能】:能将 字符流 放入缓冲区(内存中的一块小区域),以便实现高效的读取。
【看构造方法】:
BufferedReader(Reader in) 创建一个使用默认大小输入缓冲区来缓冲字符输入流。
BufferedReader(Reader in, int sz) 创建一个使用指定大小输入缓冲区的缓冲字符输入流。
【常用方法】:readLine()可以快速的实现文本字符的行读取。
3、关于InputStreamReader 类
InputStreamReader 是从字节流到字符流的桥梁:它读入字节,并根据指定的编码方式,将之转换为字符流,它是Reader的子类。
而为了达到更高效率,我们经常用 BufferedReader 封装 InputStreamReader , 所以我们经常看到的用法是
BufferedReader Buf = new BufferedReader(new InputStreamReader(System.in);
这里的InputStreamReader类的功能是将字节流转换为字符流,所以以上语句实现了 :将 字节输入流 转换为 字符输入流 且放置缓冲区。
引用一张图:
4、关于 ByteArrayOutputStream类
它是OutputStream类的扩展类,其构造函数是byteArrayInputStream(byte []buf),作用是把字节数组buf 变成输入流的形式,并通过toString()或者toByteArray()方法或得想要的数据形式。方法3中的readInputStream方法可改为返回String类型,将后面的outStream.toByteArray()改为outStream.toString()方法,这样又精简了代码。
5、 关于InputStream类
InputStream与OutputStream: 是 8位字节 输入/输出流类的基类,主要用在处理二进制数据,它是按字节来处理的。文件在硬盘或在传输时都是以字节的方式进行的,包括图片等都是按字节的方式存储的,其余的字节流的处理类都是对该类的扩展,如等上面讲ByteArrayInputStream类。
由于InputStream.read()方法是每次从流里只读取读取一个字节,效率会非常低。而InputStream.read(byte[] b)或者InputStream.read(byte[] b,int off,int len)方法,一次可以读取多个字节,效率较高,所以方法3中创建了一个byte字节数组,以便一次性读取更多的字节。当read()方法读取内容为空的时候,返回-1.
另外字符输入输出流的基类 Reader/Writer,且要知道1个字符= 2字节,字符都是在内存中生成的,一个中文占两个字节,其子类包含有上面讲的的InputStreamRead类与BufferReader类。
写了几点总结,都是和java的IO流有关的,是不是应该改个标题,想想还是算了,毕竟采集程序中很重要的一部分就是IO流方面的,java在IO流方面提供了丰富的类库,边学边积累吧。
java获得采集网页内容的方法小结的更多相关文章
- 阿里Java架构师打包 FatJar 方法小结
在函数计算(Aliyun FC)中发布一个 Java 函数,往往需要将函数打包成一个 all-in-one 的 zip 包或者 jar 包.Java 中这种打包 all-in-one 的技术常称之为 ...
- JAVA核心知识点--打包 FatJar 方法小结
目录 什么是 FatJar 三种打包方法 1. 非遮蔽方法(Unshaded) 2. 遮蔽方法(Shaded) 3. 嵌套方法(Jar of Jars) 小结 参考阅读 原文地址:https://yq ...
- (转)java判断string变量是否是数字的六种方法小结
java判断string变量是否是数字的六种方法小结 (2012-10-17 17:00:17) 转载▼ 标签: it 分类: 转发 1.用JAVA自带的函数 public static boolea ...
- phpQuery轻松采集网页内容
原文地址:phpQuery轻松采集网页内容作者:陌上花开 phpQuery是一个基于PHP的服务端开源项目,它可以让PHP开发人员轻松处理DOM文档内容,比如获取某新闻网站的头条信息.更有意思的是,它 ...
- Java返回类型泛型的用法小结
Java返回类型泛型的用法小结 版权声明:本文为博主原创文章,未经博主允许不得转载. 关于Java泛型的基本用法就不多说了,主要是一个编译期的检查,也避免了我们代码中的强制转换,比较经典的用法有泛型D ...
- java设计模式-----2、工厂方法模式
再看工厂方法模式之前先看看简单工厂模式 工厂方法模式(FACTORY METHOD)同样属于一种常用的对象创建型设计模式,又称为多态工厂模式,此模式的核心精神是封装类中不变的部分,提取其中个性化善变的 ...
- 对最近java基础学习的一次小结
开头想了3分钟,不知道起什么名字好,首先内容有点泛,但也都是基础知识. 对之前所学的java基础知识做了个小结,因为我是跟着网上找的黑马的基础视频看跟着学的,10天的课程硬生生给我看了这么久,也是佛了 ...
- java爬取网页内容 简单例子(2)——附jsoup的select用法详解
[背景] 在上一篇博文java爬取网页内容 简单例子(1)——使用正则表达式 里面,介绍了如何使用正则表达式去解析网页的内容,虽然该正则表达式比较通用,但繁琐,代码量多,现实中想要想出一条简单的正则表 ...
- Sql server2005 优化查询速度50个方法小结
Sql server2005 优化查询速度50个方法小结 Sql server2005优化查询速度51法查询速度慢的原因很多,常见如下几种,大家可以参考下. I/O吞吐量小,形成了瓶颈效应. ...
随机推荐
- 【转】opatch学习
[转自:https://yq.aliyun.com/articles/28007,仅作学习用途] Opatch 是oracle公司开发的安装,卸载,检测patch冲突的工具,管理oracle所有已经安 ...
- JavaScript 基础(六) 数组方法 闭包
在一个对象中绑定函数,称为这个对象的方法.在JavaScript 中,对象的定义是这样的: var guagua = { name:'瓜瓜', birth:1990 }; 但是,如果我们给瓜瓜绑定一个 ...
- 【TCP/IP实现磁盘资源的分享-----ISCSI(互联网最小应用程序接口)】
Iscsi server: 首先把多块磁盘合并为RAID5,便于后期iscis client访问以及服务端的管理 安装 targted服务端包,以及targtedcli创建iscsi TCP/IP共享 ...
- Sencha Visual Studio(IDE插件)
Sencha Visual Studio(IDE插件) 首先从官网上下载Visual Studio插件,注意不是VSCode编辑器,下载完后安装打开Visual Studio提示你去注册,输入你的se ...
- 百度知道芝麻将,申请资格&权限介绍&奖惩制度(简剖)
芝麻将,即百度知道管理员.不及掌握,了解下也是好的. 知道圈子,把注册用户,成为芝麻.一般用户,即小芝麻.芝麻将,就是咱们说的知道管理员. 申请. 芝麻将,申请条件不是很难,难的是后续维护,申请前考虑 ...
- Windows环境下安装redis及PHP Redis扩展
附带管理工具安装教程 安装环境 WNMP环境 参考教程:WIN10下WNMP开发环境部署 安装windows的redis服务 安装包下载 选择msi安装包下载并安装,下载可能会有点慢,请自行使用梯子. ...
- Promise 的基础用法
Promise 的含义 Promise 是异步编程的一种解决方案,比传统的解决方案–回调函数和事件--更合理和更强大.它由社区最早提出和实现,ES6将其写进了语言标准,统一了语法,原生提供了Promi ...
- 2.从print到自省
print是一个函数 为什么print是一个函数呢?可以在交互式解释器下 输入: >>> type(print) 输出: <class 'builtin_function_ ...
- MVC模型与MTV模型
MVC模型: MVC(Model View Controller 模型-视图-控制器)是一种Web架构的模式,它把业务逻辑.模型数据.用户界面分离开来,让开发者将数据与表现解耦,前端工程师可以只改页面 ...
- Python正则表达式中的re.S,re.M,re.I的作用
正则表达式可以包含一些可选标志修饰符来控制匹配的模式.修饰符被指定为一个可选的标志.多个标志可以通过按位 OR(|) 它们来指定.如 re.I | re.M 被设置成 I 和 M 标志: 修饰符 描述 ...