也不知道为什么喜欢叫爬虫

搞明白原理之后原来就是解析网页代码获取关键字符串

现在的网页有很多解析出来就是JS了,根本不暴露资源地址

依赖一个JSOUP,其他靠百度CV实现

        <!-- https://mvnrepository.com/artifact/org.jsoup/jsoup -->
<dependency>
<groupId>org.jsoup</groupId>
<artifactId>jsoup</artifactId>
<version>1.13.1</version>
</dependency>

我爬取的资源页面代码结构是固定的,所以程序设计起来相对简单

查看网页源码之后就可以看这个标签是直接设有id值的,我们知道id属性是不可重复的,所以可以凭借这个属性来准确获取dom元素

得到元素之后再来获取src属性的值,再通过文件下载提供这个资源地址即可获取文件了

<source id="webmSource" src="https://xxx.com/xxx.webm" type="video/webm">

恰好我想得到的资源正好就是这么干的

下面就是代码了:

package cn.dzz;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements; import java.io.BufferedReader;
import java.io.FileOutputStream;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.net.HttpURLConnection;
import java.net.URL;
import java.net.URLConnection; public class Main { private static String resolving(String urlStr) {
StringBuffer stringBuffer = new StringBuffer(); URL url;
try {
// 通过提供的地址封装成网络对象
url = new URL(urlStr);
// 获取连接 目前的网站都不再允许没有HTTP请求头的请求访问,这里至少要设置一个头信息模拟浏览器访问
// URLConnection urlConnection = url.openConnection(); HttpURLConnection httpURLConnection = ((HttpURLConnection)url.openConnection());
httpURLConnection.addRequestProperty("User-Agent", "Mozilla/4.0"); // 获取输入流对象
InputStream inputStream = httpURLConnection.getInputStream();
// 创建输入流读取对象
InputStreamReader inputStreamReader = new InputStreamReader(inputStream, "utf-8");
// 创建缓冲流读取对象
BufferedReader bufferedReader = new BufferedReader(inputStreamReader);
String htmlCodeLine = ""; // 遍历读取缓冲流读取对象的一行,字符串缓冲对象逐行追加,直至结束
while ((htmlCodeLine = bufferedReader.readLine()) != null) {
stringBuffer.append(htmlCodeLine);
}
// 得到完整的页面代码
return stringBuffer.toString(); } catch (Exception e) {
e.printStackTrace();
}
return null;
} private static String getSourceAddress(String completeHtmlCode) {
// 先由JSOUP解析封装成Document对象
Document document = Jsoup.parse(completeHtmlCode);
Elements elementList = document.select("#webmSource");
System.out.println(elementList);
Element element = elementList.get(0);
String src = element.attr("src"); return src;
} private static void downloadWebmVideo(String sourceAddress) {
final String DIR_PATH = "D:/Porn/";
String fileName;
int byteSum = 0;
int byteRead = 0;
try {
URL url = new URL(sourceAddress); fileName = sourceAddress.substring(sourceAddress.lastIndexOf("/") + 1);
System.out.println(fileName); URLConnection urlConnection = url.openConnection();
InputStream inputStream = urlConnection.getInputStream();
FileOutputStream fileOutputStream = new FileOutputStream(DIR_PATH + fileName); byte[] bufferBytes = new byte[(int)Math.pow(2,10)]; //1024 while ((byteRead = inputStream.read(bufferBytes)) != -1) {
byteSum += byteRead;
System.out.println(byteRead);
fileOutputStream.write(bufferBytes, 0, byteRead);
} } catch (Exception e) {
e.printStackTrace();
}
} public static void main(String[] args) {
// downloadWebmVideo(getSourceAddress(resolving(args[0])));
String url = "https://xxx/xxx/";
downloadWebmVideo(getSourceAddress(resolving(url)));
}
}

能够实现文件获取,但是比较简陋

【Java】爬资源案例的更多相关文章

  1. java爬取并下载酷狗TOP500歌曲

    是这样的,之前买车送的垃圾记录仪不能用了,这两天狠心买了好点的记录仪,带导航.音乐.蓝牙.4G等功能,寻思,既然有这些功能就利用起来,用4G听歌有点奢侈,就准备去酷狗下点歌听,居然都是需要办会员才能下 ...

  2. Java爬取并下载酷狗音乐

    本文方法及代码仅供学习,仅供学习. 案例: 下载酷狗TOP500歌曲,代码用到的代码库包含:Jsoup.HttpClient.fastJson等. 正文: 1.分析是否可以获取到TOP500歌单 打开 ...

  3. 必备的 Java 参考资源列表(转)

    包含必备书籍.站点.博客.活动等参考资源的完整清单级别: 初级 Ted Neward, 主管,ThoughtWorks, Neward & Associates 2009 年 3 月 02 日 ...

  4. MinerHtmlThread.java 爬取页面线程

    MinerHtmlThread.java 爬取页面线程 package com.iteye.injavawetrust.miner; import org.apache.commons.logging ...

  5. MinerConfig.java 爬取配置类

    MinerConfig.java 爬取配置类 package com.iteye.injavawetrust.miner; import java.util.List; /** * 爬取配置类 * @ ...

  6. JAVA学习资源分享

    JAVA学习资源分享 最高端的JAVA架构师资源(来自龙果学院 价值¥1399元).JAVA互联网分布式架构(龙果学院 价值¥899元).Spring Boot(2017年最新 包括源码原理分析) + ...

  7. Java学习资源整理(超级全面)

    这里整理一些自己平常搜集的比较好的关于Java的学习资源,主要包括博客站点.书籍.课程等. 了解Java最新资讯 这部分主要是了解与Java相关的动态以及信息,能够拓展我们的视野以及寻找一些好的ide ...

  8. 你不可错过的Java学习资源清单(包含社区、大牛、专栏、书籍等)

    学习Java和其他技术的资源其实非常多,但是我们需要取其精华去其糟粕,选择那些最好的,最适合我们的,同时也要由浅入深,先易后难.基于这样的一个标准,我在这里为大家提供一份Java的学习资源清单. 一: ...

  9. Java爬取网络博客文章

    前言 近期本人在某云上购买了个人域名,本想着以后购买与服务器搭建自己的个人网站,由于需要筹备的太多,暂时先搁置了,想着先借用GitHub Pages搭建一个静态的站,搭建的过程其实也曲折,主要是域名地 ...

  10. Java爬取校内论坛新帖

    Java爬取校内论坛新帖 为了保持消息灵通,博主没事会上上校内论坛看看新帖,作为爬虫爱好者,博主萌生了写个爬虫自动下载的想法. 嗯,这次就选Java. 第三方库准备 Jsoup Jsoup是一款比较好 ...

随机推荐

  1. proteus 器件名称被软件篡改bug的解决方案

    proteus v7.8 器件名称被软件篡改bug 的解决方案 BUG描述 在做单片机实验时,发现从某一个时间保存的设计图文件开始,在添加新的电子元件时会出现部分旧元件的名称被捆绑替换为新元件的名称, ...

  2. vue3 Suspense

    在Vue.js 3中,Suspense 是一个用于处理异步组件的特殊组件,它允许你在等待异步组件加载时展示备用内容.这对于优化用户体验.处理懒加载组件或异步数据获取时非常有用.Suspense 的主要 ...

  3. 知名火锅连锁企业,IT 团队如何在数千家门店中先于用户发现故障

    该知名火锅连锁企业是中国领先的餐饮企业,上千家门店遍布全球,由于门店餐饮行业的特殊性,需要靠前部署服务,所以在每家餐厅中,会部署相应的服务器,及相应 IT 设备,本地会运行POS.会员.下单等业务.公 ...

  4. Spring扩展——BeanFactoryPostProcessor(BFPP)

    引言 在Spring中BeanFactoryPostProcessor(后面使用简写BFPP),作为容器启动过程的对容器进行修改操作的Bean对象,是Spring框架对外提供的核心扩展点之一,Spri ...

  5. 两个Excel表格核对 excel表格中# DIV/0 核对两个表格的差异,合并运算VS高级筛选

    两个Excel表格核对   excel表格中# DIV/0 核对两个表格的差异,合并运算VS高级筛选 1.两列顺序一样的数据核对 方法1:加一个辅助列,=B2=C2 结果为FALSE的就是不相同的 方 ...

  6. nexus服务启动/关闭命令

    nexus服务启动/关闭命令history | grep nexus # 查看服务器上面的历史请求命令ps -ef | grep nexus 查看进程及目录find / -name 'nexus' # ...

  7. .htaccess伪静态规则

    Tips:当你看到这个提示的时候,说明当前的文章是由原emlog博客系统搬迁至此的,文章发布时间已过于久远,编排和内容不一定完整,还请谅解` .htaccess伪静态规则 日期:2017-12-4 阿 ...

  8. 算法金 | A - Z,115 个数据科学 机器学习 江湖黑话(全面)

    大侠幸会,在下全网同名「算法金」 0 基础转 AI 上岸,多个算法赛 Top 「日更万日,让更多人享受智能乐趣」 机器学习本质上和数据科学一样都是依赖概率统计,今天整整那些听起来让人头大的机器学习江湖 ...

  9. Linux内存不够了?看看如何开启虚拟内存增加内存使用量

    1.为什么要使用虚拟内存 当我们没有多余的钱去购买大内存的云服务器时,但是当前服务器里面的软件和程序运行的比较多导致内存不够用了.这个时候可以通过增加虚拟内存来扩大内存容量.但是在启用虚拟内存时,需要 ...

  10. 国产化率100%!全志科技A40i工业核心板规格书资料分享

    1.核心板简介 创龙科技SOM-TLA40i是一款基于全志科技A40i处理器设计的4核ARM Cortex-A7国产工业核心板,每核主频高达1.2GHz. 核心板通过邮票孔连接方式引出CSI.TVIN ...