这个java获取网络资源以前也写过不少

最近用到又重新写了一个,apache.commons.io中的例子就非常好,但是无法对请求进行详细设置

于是大部分照搬,局部替换以设置请求头

如需更加复杂的设置,可以考虑使用同为apche的httpComponents


**
```java
package boot.example;

import org.apache.commons.io.FileUtils;

import org.apache.commons.io.IOUtils;

import java.io.*;

import java.net.HttpURLConnection;

import java.net.URL;

/**

  • Created by wq on 2017/6/6.

    */

    public class Download {

    public static void main(String[] args) {

    Download download = new Download();

    String url = "http://img1.3lian.com/2015/w7/85/d/21.jpg";

    String path1 = "E:\1.jpg";

    String path2 = "E:\2.jpg";

    String path3 = "E:\3.jpg";

    String url2="http://www.baidu.com";

    try {

    download.apacheCommonsIoDownload(url, path1);

    } catch (Exception e) {

    e.printStackTrace();

    }

    try {

    download.pureJavaNetDownload(url, path2);

    } catch (Exception e) {

    e.printStackTrace();

    }

    try {

    download.mixedDownload(url, path3);

    } catch (Exception e) {

    e.printStackTrace();

    }

    try{

    download.getContentAsString(url2);

    }catch (Exception e){

    e.printStackTrace();

    }

    }

    private void apacheCommonsIoDownload(String urlstr, String path) throws Exception {

    apacheCommonsIoDownload(urlstr, new File(path));

    }

    private void apacheCommonsIoDownload(String urlstr, File file) throws Exception {

    FileUtils.copyURLToFile(new URL(urlstr), file);

    }

    private void pureJavaNetDownload(String urlstr, String path) throws Exception {

    pureJavaNetDownload(urlstr, new File(path));

    }

    //无需依赖

    private void pureJavaNetDownload(String urlstr, File file) throws Exception {

    URL url = new URL(urlstr);

    HttpURLConnection httpURLConnection = (HttpURLConnection) url.openConnection();

    httpURLConnection.setRequestMethod("GET");

    //有的网站屏蔽程序抓取 添加User-Agent头信息以避免403

    httpURLConnection.setRequestProperty("User-Agent", "Mozilla/4.0");

    httpURLConnection.setConnectTimeout(10000);

    httpURLConnection.setReadTimeout(10000);

    // httpURLConnection.set...更多请求设置

    httpURLConnection.connect();

    InputStream is = httpURLConnection.getInputStream();

    // 不需要设置可以直接下面 也就是org.apache.commons.io.FileUtils中copyURLToFile(URL source, File destination)的写法

    // InputStream is=url.openStream();

    try {

    FileOutputStream fos = new FileOutputStream(file);

    try {

    // 照搬org.apache.commons.io.IOUtils

    // IOUtils.copy(InputStream input, OutputStream output) 开始

    byte[] buffer = new byte[1024 * 4];

    int n;

    while (-1 != (n = is.read(buffer))) {

    fos.write(buffer, 0, n);

    }

    // IOUtils.copy(InputStream input, OutputStream output) 结束

    } finally {

    try {

    if (is != null) {

    fos.close();

    }

    } catch (IOException ioe) {

    // ignore

    }

    }

    } finally {

    try {

    if (is != null) {

    is.close();

    }

    } catch (IOException ioe) {

    // ignore

    }

    }

    }

    private void mixedDownload(String urlstr, String path) throws Exception {

    mixedDownload(urlstr, new File(path));

    }

    //使用IOUtils减少代码量 弃用FileUtils以对请求进行详细设置 推荐

    private void mixedDownload(String urlstr, File file) throws Exception {

    URL url = new URL(urlstr);

    HttpURLConnection httpURLConnection = (HttpURLConnection) url.openConnection();

    httpURLConnection.setRequestMethod("GET");

    httpURLConnection.setRequestProperty("User-Agent", "Mozilla/4.0");

    httpURLConnection.setConnectTimeout(10000);

    httpURLConnection.setReadTimeout(10000);

    httpURLConnection.connect();

    InputStream is = httpURLConnection.getInputStream();

    try {

    FileOutputStream output = FileUtils.openOutputStream(file);

    try {

    IOUtils.copy(is, output);

    } finally {

    IOUtils.closeQuietly(output);

    }

    } finally {

    IOUtils.closeQuietly(is);

    }

    }

    private void getContentAsString(String urlstr) throws Exception {

    URL url = new URL(urlstr);

    InputStream is=url.openStream();

    ByteArrayOutputStream bos=new ByteArrayOutputStream();

    IOUtils.copy(is, bos);

    System.out.println(bos.toString());

    }

    }

旧瓶新酒-获取网络资源即爬取下载页面内容(图片、html、css、js等)的更多相关文章

  1. java实现多线程使用多个代理ip的方式爬取网页页面内容

    项目的目录结构 核心源码: package cn.edu.zyt.spider; import java.io.BufferedInputStream; import java.io.FileInpu ...

  2. scrapy(四): 爬取二级页面的内容

    scrapy爬取二级页面的内容 1.定义数据结构item.py文件 # -*- coding: utf-8 -*- ''' field: item.py ''' # Define here the m ...

  3. Scrapy爬取静态页面

    Scrapy爬取静态页面 安装Scrapy框架: Scrapy是python下一个非常有用的一个爬虫框架 Pycharm下: 搜索Scrapy库添加进项目即可 终端下: #python2 sudo p ...

  4. UI自动化之特殊处理四(获取元素属性\爬取页面源码\常用断言)

    获取元素属性\爬取页面源码\常用断言,最终目的都是为了验证我们实际结果是否等于预期结果 目录 1.获取元素属性 2.爬取页面源码 3.常用断言 1.获取元素属性 获取title:driver.titl ...

  5. scrapy模拟浏览器爬取验证码页面

    使用selenium模块爬取验证码页面,selenium模块需要另外安装这里不讲环境的配置,我有一篇博客有专门讲ubuntn下安装和配置模拟浏览器的开发 spider的代码 # -*- coding: ...

  6. [Python_scrapy图片爬取下载]

    welcome to myblog Dome地址 爬取某个车站的图片 item.py 中 1.申明item 的fields class PhotoItem(scrapy.Item): # define ...

  7. 爬取百度页面代码写入到文件+web请求过程解析

    一.爬取百度页面代码写入到文件 代码示例: from urllib.request import urlopen #导入urlopen包 url="http://www.baidu.com& ...

  8. 使用BeautifulSoup自动爬取微信公众号图片

    爬取微信分享的图片,根据不同的页面自行修改,使用BeautifulSoup爬取,自行格局HTML修改要爬取图片的位置 import re import time import requests imp ...

  9. Python爬取 | 唯美女生图片

    这里只是代码展示,且复制后不能直接运行,需要配置一些设置才行,具体请查看下方链接介绍: Python爬取 | 唯美女生图片 from selenium import webdriver from fa ...

随机推荐

  1. codeforces 478 D. Red-Green Towers(背包)

    题目链接:http://codeforces.com/problemset/problem/478/D 题意:给出红色方块r个,绿色方块g个,问最高能叠几层等腰三角形,而且每一层的颜色必须相同. 题解 ...

  2. 【Nginx】 中的配置命令

    一.location 1.1 概述 1.2 location的语法 1.3 Location正则案例 二.nginx rewrite 2.1 rewrite全局变量 2.2 判断IP地址来源 2.3 ...

  3. c++拷贝构造函数引用传参

    看一道C++面试题: 给出下述代码,分析编译运行的结果,并提供3个选项: A.编译错误  B.编译成功,运行时程序崩溃  C.编译运行正常,输出10 class A { private: int va ...

  4. 运维核心基础知识之——MD5sum校验文件

    如何使用MD5sum工具校验你的文件. 演示过程截图: 先给文件创建一个md5值 md5sum oldboy.txt 然后将md5sum生成的md5值写入到一个文件police.log md5sum ...

  5. TypeScript泛型

    泛型的概念 指不预先确定的数据类型,具体的类型要在使用的时候才能确定.咋一听,是不是觉得JavaScript本身就是这样?这是由于理解有误.前面说“在使用的时候确定”,而非在程序执行的时候确定. 泛型 ...

  6. ListView 字母导航排序

    一.概述 ListView字母导航排序,网上已经有很多代码和博客了, 这篇博文也是照搬网上的.  之所以写到这里,不是为了说明什么,只是为了以后自己查阅方便.本来公司要求实现expandablelis ...

  7. charles 结构体

    本文参考:charles 结构体 Charles 主要提供两种查看封包的视图,分别名为 Structure/结构视图 Sequence/序列视图 Structure/结构视图 将网络请求按访问的域名分 ...

  8. [Code] 变态之人键合一

    目的也比较单纯,选一门语言,走向人键合一. 选了两本书作为操练场:<精通Python设计模式>.<Data Structure and Algorithm in Python> ...

  9. 前端初探 Gitlab CI/CD

    前言 纵观人类历史的发展以及三次工业革命,你会发现利用机器来替代部分人力劳动,将重复的工作自动化从而解放生产力都是发展的必然趋势,在软件工程领域也不例外,其中 CI/CD 就是其中一项,那么什么是 C ...

  10. word2vec之tensorflow(skip-gram)实现

    关于word2vec的理解,推荐文章https://www.cnblogs.com/guoyaohua/p/9240336.html 代码参考https://github.com/eecrazy/wo ...