java学习-GET方式抓取网页(UrlConnection和HttpClient)

抓取网页其实就是模拟客户端（PC端，手机端。。。）发送请求，获得响应数据documentation，解析对应数据的过程。---自己理解，错误请告知

一般常用请求方式有GET，POST，HEAD三种

GET请求的数据是作为url的一部分，对于GET请求来说，附带数据长度有限制，数据安全性低

POST请求，数据作为标准数据传输给服务器，数据长度没有限制，数据通过加密传输，安全性高

HEAD类似于get请求，只不过返回的响应中没有具体的内容，用于获取报头

闲话少说。

通过GET请求获取网页

UrlConnection下载网页通过InputStream读取数据，通过FileOutPutStream将数据写入文件

public class DownloadHtml {

    /**

     * 方法说明：用于下载HTML页面

     *@param SrcPath  下载目标页面的URL

     *@param filePath 下载得到的HTML页面存放本地目录

     *@param fileName  下载页面的名字

     */

    public static void downloadHtmlByNet(String SrcPath,String filePath,String fileName){

        try{

            URL url = new URL(SrcPath);

            URLConnection conn = url.openConnection();

            //设置超时间为3秒

            conn.setConnectTimeout(3*1000);

            //防止屏蔽程序抓取而返回403错误

            conn.setRequestProperty("User-Agent", "Mozilla/4.0 (compatible; MSIE 5.0; Windows NT; DigExt)");

            //输出流

            InputStream str = conn.getInputStream();

            //控制流的大小为1k

            byte[] bs = new byte[1024];

            //读取到的长度

            int len = 0;

            //是否需要创建文件夹

            File saveDir = new File(filePath);

            if(!saveDir.exists()){

                saveDir.mkdir();

            }

            File file = new File(saveDir+File.separator+fileName);   

            //实例输出一个对象

            FileOutputStream out = new FileOutputStream(file);

            //循环判断，如果读取的个数b为空了，则is.read()方法返回-1，具体请参考InputStream的read();

            while ((len = str.read(bs)) != -1) {

                //将对象写入到对应的文件中

                out.write(bs, 0, len);

            }

            //刷新流

            out.flush();

            //关闭流

            out.close();

            str.close();

            System.out.println("下载成功");

        }catch (Exception e) {

            e.printStackTrace();

        }

    }

    //测试

    public static void main(String[] args) {

         //下载网页
　　　　url是要下载的指定网页，filepath存放文件的目录如d:/resource/html/ ,filename指文件名如"下载的网页.html"

         downloadHtmlByNet(url,filepath,filename);

    }

}

HttpClient是Apache Jakarta Common 下的子项目。提供高效的、最新的、功能丰富的支持 HTTP 协议的客户端编程工具包

public static void downloadHtmlByNet(String SrcPath,String filePath,String fileName){

        DefaultHttpClient httpClient=new DefaultHttpClient();//初始化httpclient

        BasicHttpParams httpParams=new BasicHttpParams();//初始化参数

//模拟浏览器访问防止屏蔽程序抓取而返回403错误
user_agent="Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36　　　　　

user_agent="Mozilla/4.0 (compatible; MSIE 5.0; Windows NT; DigExt)"



        httpParams.setParameter("http.useragent", user_agent);

        httpClient.setParams(httpParams);

        try {

            HttpGet httpGet=new HttpGet(SrcPath);

            HttpContext httpContext=new BasicHttpContext();

            HttpResponse httpResponse=httpClient.execute(httpGet,httpContext);

            HttpEntity entity=httpResponse.getEntity();

            if(entity!=null){

                writeToFile(entity,filePath,fileName);//将entity内容输出到文件

            }

        } catch (ClientProtocolException e) {

            // TODO Auto-generated catch block

            e.printStackTrace();

        } catch (IOException e) {

            // TODO Auto-generated catch block

            e.printStackTrace();

        }

         finally {

                httpClient.getConnectionManager().shutdown();

            }

    }

private static void writeToFile(HttpEntity entity, String filepath, String filename) {

        //输出流

        try{

        InputStream str = entity.getContent();

        //控制流的大小为1k

        byte[] bs = new byte[1024];

        //读取到的长度

        int len = 0;

        //是否需要创建文件夹

        File saveDir = new File(filePath);

        if(!saveDir.exists())

           {

            saveDir.mkdir();

           }

        File file = new File(saveDir+File.separator+fileName);

      //实例输出一个对象

        FileOutputStream out = new FileOutputStream(file);

        //循环判断，如果读取的个数b为空了，则is.read()方法返回-1，具体请参考InputStream的read();

        while ((len = str.read(bs)) != -1) {

            //将对象写入到对应的文件中

            out.write(bs, 0, len);

        }

        //刷新流

        out.flush();

        //关闭流

        out.close();

        str.close();

        System.out.println("下载成功");

        }

        catch(Exception e){

            e.printStackTrace();

        }

    }

唉，以前学过都忘差不多了，多学多记，下次使用post抓去有用数据。

java学习-GET方式抓取网页(UrlConnection和HttpClient)的更多相关文章

Java学习-046-日志抓取合并后排序问题解决方案之 --- log4j 二次定制，实现日志输出添加延时10ms
自3月25至今,已经好久没有写学习日志了,今天在写日志抓取合并的小方法,发现抓取后的日志并米有依据系统执行的日志顺序排序.日志抓取排列逻辑如下: 通过日志标识,从各个日志文件(例如 use.log,e ...
Node.js的学习--使用cheerio抓取网页数据
打算要写一个公开课网站,缺少数据,就决定去网易公开课去抓取一些数据. 前一阵子看过一段时间的Node.js,而且Node.js也比较适合做这个事情,就打算用Node.js去抓取数据. 关键是抓取到网页 ...
HttpClient+Jsoup 抓取网页信息（网易贵金属为例）
废话不多说直接讲讲今天要做的事. 利用HttpClient和Jsoup技术抓取网页信息.HttpClient是支持HTTP协议的客户端编程工具包,并且它支持HTTP协议. jsoup 是一款基于 Ja ...
Java 抓取网页中的内容【持续更新】
背景:前几天复习Java的时候看到URL类,当时就想写个小程序试试,迫于考试没有动手,今天写了下,感觉还不错内容1. 抓取网页中的URL 知识点:Java URL+ 正则表达式 import jav ...
java抓取网页数据，登录之后抓取数据。
最近做了一个从网络上抓取数据的一个小程序.主要关于信贷方面,收集的一些黑名单网站,从该网站上抓取到自己系统中. 也找了一些资料,觉得没有一个很好的,全面的例子.因此在这里做个笔记提醒自己. 首先需要一 ...
Java抓取网页数据（原网页+Javascript返回数据）
有时候由于种种原因,我们需要采集某个网站的数据,但由于不同网站对数据的显示方式略有不同! 本文就用Java给大家演示如何抓取网站的数据:(1)抓取原网页数据:(2)抓取网页Javascript返回的数 ...
Java抓取网页数据（原来的页面+Javascript返回数据）
转载请注明出处! 原文链接:http://blog.csdn.net/zgyulongfei/article/details/7909006 有时候因为种种原因,我们须要採集某个站点的数据,但因为不同 ...
使用JAVA抓取网页数据
一.使用 HttpClient 抓取网页数据 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 ...
Java广度优先爬虫示例(抓取复旦新闻信息)
一.使用的技术这个爬虫是近半个月前学习爬虫技术的一个小例子,比较简单,怕时间久了会忘,这里简单总结一下.主要用到的外部Jar包有HttpClient4.3.4,HtmlParser2.1,使用的开发 ...

随机推荐

ECG心电图数据2
1.如何下载获取MIT-BIH的数据从下面这个官方链接页面可以下载到所有48组MIT-BIH心电数据: http://www.physionet.org/physiobank/database/mit ...
Tomcat监听443端口的方法
当我们需要更安全的访问网站的时候就会选择使用https协议,而https协议默认的端口号为443端口,这就是我们为什么向让Tomcat监听在443端口的原因,因为监控在非80端口和443端口的web服 ...
SoapUI5.1.2安装和破解教程
一.SoapUI简介 soapui提供一个工具通过soap/http来检查,调用,实现web service和web service的功能/负载/符合性测试. 该工具既可作为一个桌面应用软件使用,也可 ...
Spring Boot 应用系列 1 -- Spring Boot 2 整合Spring Data JPA和Druid，双数据源
最近Team开始尝试使用Spring Boot + Spring Data JPA作为数据层的解决方案,在网上逛了几圈之后发现大家并不待见JPA,理由是(1)MyBatis简单直观够用,(2)以Hib ...
Linux Mint 楷体问题
很多人都遇见过刚装完的 Linux Mint 界面字体是黑体,然后莫名其妙就变成楷体的问题. 先不说技术层面的原因,只说怎么解决. 造成这种情况,多数是安装输入法或其他某种软件的时候,同时安装了 AR ...
Python try/except/finally等
Python try/except/finally等 x = 'abc' def fetcher(obj, index): return obj[index] fetcher(x, 4) 输出: ...
Asp.net Core 2.1 Kestrel 现在支持多协议处理（Tcp）
地址:https://github.com/davidfowl/MultiProtocolAspNetCore.git 在一个Kestrel服务上可以同时处理Tcp,Http,Https等多种协议. ...
C#不用union，而是有更好的方式实现
用过C/C++的人都知道有个union,特别好用,似乎char数组到short,int,float等的转换无所不能,也确实是能,并且用起来十分方便.那C#为什么没有这个关键字呢?怎么实现这个功能?其实 ...
Spring 开发第一步（四）Spring与JDBC事务
Spring使用各种不同的TransactionManager来管理各种不同数据源事务底层(比如jdbc数据源.hibernate数据源.JPA数据源等等).在此基础上使用各种对应的Template来 ...
const的详解
1.const的成员变量常成员变量的值不能被更新,将在构造函数时候进行初始化 2.const的成员函数常成员函数只能调用常成员函数,常成员函数不能修改任何成员变量的数值 3.const的成员对象 ...

java学习-GET方式抓取网页(UrlConnection和HttpClient)

java学习-GET方式抓取网页(UrlConnection和HttpClient)的更多相关文章

随机推荐

热门专题