Java实现简单网页抓取

需求说明：使用Java抓取网页信息，并以字符串的形式返回。

使用Java代码实现：

package net.ibuluo.spider.util;

import java.io.IOException;

import java.io.InputStream;

import java.io.InputStreamReader;

import java.io.Reader;

import java.net.MalformedURLException;

import java.net.URL;

/**

 * Http工具

 * @author robin zhang

 *

 */

public class HttpUtil {

    /**

     * 根据网址抓取网页信息并将之以字符串的形式返回

     * @param urlStr

     *             网址字符串

     * @return

     * @throws MalformedURLException

     */

    public static String getUrl(String urlStr) {

        String result = null;

        try{

            URL url = new URL(urlStr);

            result = inputStream2String(url.openStream());

        } catch (MalformedURLException e) {

            e.printStackTrace();

        } catch (IOException e) {

            e.printStackTrace();

        }

        return result;

    }

    /**

     * 读取字节流中的信息，并转为字符串

     * @param inputStream

     *             要读取的字节流

     * @return

     * @throws IOException

     */

    private static String inputStream2String(InputStream inputStream)

                        throws IOException{

        Reader reader = null;

        StringBuilder builder = null;

        try{

            //将字节流转为字符流

            reader = new InputStreamReader(inputStream);

            //创建字符串容器

            builder = new StringBuilder();

            //设置字符流读取长度

            char[] buffer = new char[1024];

            //记录每次读取的长度，主要是为记录最后一次读取的长度

            int offset = 0;

            while((offset=reader.read(buffer)) > 0){

                //将读取的内容转为字符串并放入builder中

                builder.append( new String(buffer, 0, offset) );

            }

            return builder.toString();

        } catch (IOException e) {

            e.printStackTrace();

        }finally{

            if(null != reader){

                reader.close();

            }

        }

        return null;

    }

    public static void main(String[] args){

        System.out.println( getUrl("http://www.ibuluo.net/") );

    }

}

以上的内容可以使用一个第三方插件JSoup实现。使用jsoup实现代码如下：

    try {

            Document doc = Jsoup.connect("http://www.baidu.com/").get();

            System.out.println(doc.html());

        } catch (IOException e) {

            e.printStackTrace();

        }

Jsoup更多的用处是在实现html文档的分析上。可以参考Jsoup官方网站。

Java实现简单网页抓取的更多相关文章

【apache】使用HttpClient，进行简单网页抓取
1 package com.lw.httpclient.test; 2 import org.apache.http.client.methods.CloseableHttpResponse; 3 i ...
java网页抓取
网页抓取就是,我们想要从别人的网站上得到我们想要的,也算是窃取了,有的网站就对这个网页抓取就做了限制,比如百度直接进入正题 //要抓取的网页地址 String urlStr = "http ...
Java实现网页抓取的一个Demo
这个小案例的话我是存放在我的github 上. 下面给出链接自己可以去看下,也可以直接下载源码.有具体的说明 <Java网页抓取>
Python实现简单的网页抓取
现在开源的网页抓取程序有很多,各种语言应有尽有. 这里分享一下Python从零开始的网页抓取过程第一步:安装Python 点击下载适合的版本https://www.python.org/ 我这里选择 ...
Java开源网页抓取工具httpClient以及jsoup
网上看到不错的Java网页抓取工具和库先记录一下使用java开源工具httpClient及jsoup抓取解析网页数据
网页抓取：PHP实现网页爬虫方式小结
来源:http://www.ido321.com/1158.html 抓取某一个网页中的内容,需要对DOM树进行解析,找到指定节点后,再抓取我们需要的内容,过程有点繁琐.LZ总结了几种常用的.易于实现 ...
基于Casperjs的网页抓取技术【抓取豆瓣信息网络爬虫实战示例】
CasperJS is a navigation scripting & testing utility for the PhantomJS (WebKit) and SlimerJS (Ge ...
Python开发爬虫之动态网页抓取篇：爬取博客评论数据——通过Selenium模拟浏览器抓取
区别于上篇动态网页抓取,这里介绍另一种方法,即使用浏览器渲染引擎.直接用浏览器在显示网页时解析 HTML.应用 CSS 样式并执行 JavaScript 的语句. 这个方法在爬虫过程中会打开一个浏览器 ...
Python爬虫之三种网页抓取方法性能比较
下面我们将介绍三种抓取网页数据的方法,首先是正则表达式,然后是流行的 BeautifulSoup 模块,最后是强大的 lxml 模块. 1. 正则表达式如果你对正则表达式还不熟悉,或是需要一些提 ...

随机推荐

160808、Java的不同版本：J2SE、J2EE、J2ME的区别
来源:微学苑在Java中,同一个类中的多个方法可以有相同的名字,只要它们的参数列表不同就可以,这被称为方法重载(method overloading). 参数列表又叫参数签名,包括参数的类型.参数的 ...
Dart SDK在Linux上的下载及配置
Dart SDK在Linux上的下载及配置首先建议想要学习Dart的小伙伴选择Linux开发环境比较好,具体原因就不多说了.如果想要尝试在Window或Mac上安装Dart SDK的话可以参考Ins ...
slenium截屏
创建全屏截屏: public static byte[] takeScreenshot(WebDriver driver) throws IOException { WebDriver augment ...
FineReport---过滤条件
1.过滤条件,获取值该单元格的值 ,是当team为A,content为产量数据列过滤条件常用处理:nofilter.left.and ,or 2.单元格值等查询条件区域的内容所选你应该指的就是日 ...
PYTHON 最佳实践指南（转）
add by zhj: 本文参考了The Hitchhiker's Guide to Python,当然也加入了作者的一些东西.The Hitchhiker's Guide to Python 的gi ...
CNI Proposal 摘要
原文连接:https://github.com/containernetworking/cni/blob/master/SPEC.md General consideration CNI的想法是先让容 ...
ios开发之手势动作状态细分state，同一视图加入两个手势
1.比方拖拽一个视图.形成类似scrollView的翻页形式在拖拽的方法里推断拖拽的状态state属性,依据状态不同运行自己须要的效果. 2.同一视图加入两个手势,须要使用手势的代理方法.同意此操作 ...
make编译六
如果要使用隐含规则生成你需要的目标,你所需要做的就是不要写出这个目标的规则.那么,make 会试图去自动推导产生这个目标的规则和命令,如果make 可以自动推导生成这个目标的规则和命令,那么这个行为就 ...
vuejs项目打包成APP后，首页不显示
cmd命令行和bat批处理操作windows服务（转载）
一.cmd命令行---进行Windows服务操作 1.安装服务 sc create 服务名 binPath= "C:\Users\Administrator\Desktop\win32srv ...

Java实现简单网页抓取

Java实现简单网页抓取的更多相关文章

随机推荐

热门专题