用 Java 抓取优酷、土豆等视频
1. [代码][JavaScript]代码
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
/**
* 视频工具类
* @author sunlightcs
* 2011-4-6
* http://hi.juziku.com/sunlightcs/
*/
public class VideoUtil {
/**
* 获取视频信息
* @param url
* @return
*/
public static Video getVideoInfo(String url){
Video video = new Video();
if(url.indexOf("v.youku.com")!=-1){
try {
video = getYouKuVideo(url);
} catch (Exception e) {
video = null;
}
}else if(url.indexOf("tudou.com")!=-1){
try {
video = getTudouVideo(url);
} catch (Exception e) {
video = null;
}
}else if(url.indexOf("v.ku6.com")!=-1){
try {
video = getKu6Video(url);
} catch (Exception e) {
video = null;
}
}else if(url.indexOf("6.cn")!=-1){
try {
video = get6Video(url);
} catch (Exception e) {
video = null;
}
}else if(url.indexOf("56.com")!=-1){
try {
video = get56Video(url);
} catch (Exception e) {
video = null;
}
}
return video;
}
/**
* 获取优酷视频
* @param url 视频URL
*/
public static Video getYouKuVideo(String url) throws Exception{
Document doc = getURLContent(url);
/**
*获取视频缩略图
*/
String pic = getElementAttrById(doc, "s_sina", "href");
int local = pic.indexOf("pic=");
pic = pic.substring(local+4);
/**
* 获取视频地址
*/
String flash = getElementAttrById(doc, "link2", "value");
/**
* 获取视频时间
*/
String time = getElementAttrById(doc, "download", "href");
String []arrays = time.split("\\|");
time = arrays[4];
Video video = new Video();
video.setPic(pic);
video.setFlash(flash);
video.setTime(time);
return video;
}
/**
* 获取土豆视频
* @param url 视频URL
*/
public static Video getTudouVideo(String url) throws Exception{
Document doc = getURLContent(url);
String content = doc.html();
int beginLocal = content.indexOf("");
content = content.substring(beginLocal, endLocal);
/**
* 获取视频地址
*/
String flash = getScriptVarByName("iid_code", content);
flash = "http://www.tudou.com/v/" + flash + "/v.swf";
/**
*获取视频缩略图
*/
String pic = getScriptVarByName("thumbnail", content);
/**
* 获取视频时间
*/
String time = getScriptVarByName("time", content);
Video video = new Video();
video.setPic(pic);
video.setFlash(flash);
video.setTime(time);
return video;
}
/**
* 获取酷6视频
* @param url 视频URL
*/
public static Video getKu6Video(String url) throws Exception{
Document doc = getURLContent(url);
/**
* 获取视频地址
*/
Element flashEt = doc.getElementById("outSideSwfCode");
String flash = flashEt.attr("value");
/**
* 获取视频缩略图
*/
Element picEt = doc.getElementById("plVideosList");
String time = null;
String pic = null;
if(picEt!=null){
Elements pics = picEt.getElementsByTag("img");
pic = pics.get(0).attr("src");
/**
* 获取视频时长
*/
Element timeEt = picEt.select("span.review>cite").first();
time = timeEt.text();手绘图片
}else{http://www.bizhizu.cn/shouhui/
pic = doc.getElementsByClass("s_pic").first().text();
}
Video video = new Video();
video.setPic(pic);
video.setFlash(flash);
video.setTime(time);
return video;
}
/**
* 获取6间房视频
* @param url 视频URL
*/
public static Video get6Video(String url) throws Exception{
Document doc = getURLContent(url);
/**
* 获取视频缩略图
*/
Element picEt = doc.getElementsByClass("summary").first();
String pic = picEt.getElementsByTag("img").first().attr("src");
/**
* 获取视频时长
*/
String time = getVideoTime(doc, url, "watchUserVideo");
if(time==null){
time = getVideoTime(doc, url, "watchRelVideo");
}
/**
* 获取视频地址
*/
Element flashEt = doc.getElementById("video-share-code");
doc = Jsoup.parse(flashEt.attr("value"));
String flash = doc.select("embed").attr("src");
Video video = new Video();
video.setPic(pic);
video.setFlash(flash);
video.setTime(time);
return video;
}
/**
* 获取56视频
* @param url 视频URL
*/
public static Video get56Video(String url) throws Exception{
Document doc = getURLContent(url);
String content = doc.html();
/**
* 获取视频缩略图
*/
int begin = content.indexOf("\"img\":\"");
content = content.substring(begin+7, begin+200);
int end = content.indexOf("\"};");
String pic = content.substring(0, end).trim();
pic = pic.replaceAll("\\\\", "");
/**
* 获取视频地址
*/
String flash = "http://player.56.com" + url.substring(url.lastIndexOf("/"), url.lastIndexOf(".html")) + ".swf";
Video video = new Video();
video.setPic(pic);
video.setFlash(flash);
return video;
}
/**
* 获取6间房视频时长
*/
private static String getVideoTime(Document doc, String url, String id) {
String time = null;
Element timeEt = doc.getElementById(id);
Elements links = timeEt.select("dt > a");
for (Element link : links) {
String linkHref = link.attr("href");
if(linkHref.equalsIgnoreCase(url)){
time = link.parent().getElementsByTag("em").first().text();
break;
}
}
return time;
}
/**
* 获取script某个变量的值
* @param name 变量名称
* @return 返回获取的值
*/
private static String getScriptVarByName(String name, String content){
String script = content;
int begin = script.indexOf(name);
script = script.substring(begin+name.length()+2);
int end = script.indexOf(",");
script = script.substring(0,end);
String result=script.replaceAll("'", "");
result = result.trim();
return result;
}
/**
* 根据HTML的ID键及属于名,获取属于值
* @param id HTML的ID键
* @param attrName 属于名
* @return 返回属性值
*/
private static String getElementAttrById(Document doc, String id, String attrName)throws Exception{
Element et = doc.getElementById(id);
String attrValue = et.attr(attrName);
return attrValue;
}
/**
* 获取网页的内容
*/
private static Document getURLContent(String url) throws Exception{
Document doc = Jsoup.connect(url)
.data("query", "Java")
.userAgent("Mozilla")
.cookie("auth", "token")
.timeout(6000)
.post();
return doc;
}
public static void main(String[] args) {
//String url = "http://v.youku.com/v_show/id_XMjU0MjI2NzY0.html";
//String url = "http://www.tudou.com/programs/view/pVploWOtCQM/";
//String url = "http://v.ku6.com/special/show_4024167/9t7p64bisV2A31Hz.html";
//String url = "http://v.ku6.com/show/BpP5LeyVwvikbT1F.html";
//String url = "http://6.cn/watch/14757577.html";
String url = "http://www.56.com/u64/v_NTkzMDEzMTc.html";
Video video = getVideoInfo(url);
System.out.println("视频缩略图:"+video.getPic());
System.out.println("视频地址:"+video.getFlash());
System.out.println("视频时长:"+video.getTime());
}
}
/************************************************************************************/
/**
* 视频封装
*/
public class Video {
private String flash;
private String pic;
private String time;
public String getFlash() {
return flash;
}
public void setFlash(String flash) {
this.flash = flash;
}
public String getPic() {
return pic;
}
public void setPic(String pic) {
this.pic = pic;
}
public String getTime() {
return time;
}
public void setTime(String time) {
this.time = time;
}
}
用 Java 抓取优酷、土豆等视频的更多相关文章
- java平台利用jsoup开发包,抓取优酷视频播放地址与图片地址等信息。
/******************************************************************************************** * aut ...
- python爬虫---抓取优酷的电影
最近在学习爬虫,用的BeautifulSoup4这个库,设想是把优酷上面的电影的名字及链接爬到,然后存到一个文本文档中.比较简单的需求,第一次写爬虫.贴上代码供参考: # coding:utf-8 i ...
- wordpress如何利用插件添加优酷土豆等视频到自己的博客上
wordpress有时候需要添加优酷.土豆等网站的视频到自己的博客上,传统的分享方法不能符合电脑端和手机端屏幕大小的需求,又比较繁琐,怎样利用插件的方法进行添加呢,本视频向你介绍一款这样的插件——Sm ...
- 爬虫(三)解析js,抓取优酷免费视频的真实播放地址
工具:google浏览器 + fiddler抓包工具 说明:这里不贴代码,[只讲思路!!!] 原始url = https://v.youku.com/v_show/id_XMzIwNjgyMDgwOA ...
- java 抓取网页图片
import java.io.File; import java.io.FileOutputStream; import java.io.InputStream; import java.io.Out ...
- php 解析 视频 信息 封面 标题 图片 支持 优酷, 土豆 酷6 56 新浪 qq播客 乐视 乐视
原文地址:http://www.lianyue.org/2013/2497/ <?php /** * 解析 视频信息 类 * * 支持 优酷, 土豆 酷6 56 新浪 qq播客 乐视 乐视 ** ...
- 怎样获取优酷站内视频的MP4格式地址,嵌入到手机页面播放
最近的有关项目需要使用video标签播放视频,并且视频的路径src是优酷里面的视频,所以需要得到优酷里面的mp4路径才能播放. 但是在网上查了下资料,看到优酷的播放格式是一个m3u8文件,如图所示: ...
- 爱斯达M2C服装定制系统介绍—在线播放—优酷网,视频高清在线观看
爱斯达M2C服装定制系统介绍-在线播放-优酷网,视频高清在线观看 视频: 爱斯达M2C服装定制系统介绍
- Java 抓取网页中的内容【持续更新】
背景:前几天复习Java的时候看到URL类,当时就想写个小程序试试,迫于考试没有动手,今天写了下,感觉还不错 内容1. 抓取网页中的URL 知识点:Java URL+ 正则表达式 import jav ...
随机推荐
- android清除缓存为什么总是存在12k?
转载请注明出处:http://blog.csdn.net/droyon/article/details/41116529 android手机在4.2之后.清除缓存总是会残留12k的大小.预计强迫症患者 ...
- Nutch学习笔记一 ---环境搭建
学习环境: ubuntu 概要: Nutch 是一个开源Java 实现的搜索引擎.它提供了我们运行自己的搜索引擎所需的全部工具.包括全文搜索和Web爬虫. 通过nutch,诞生了hadoop.tika ...
- margin: 0 auto; 元素水平居中布局无效
失效原因: 要给居中的元素一个宽度,否则无效. 该元素一定不能浮动或绝对定位,否则无效. 在HTML中使用<center></center>标签,需考虑好整体构架,否者全部元素 ...
- AngularJS的form状态变色
代码下载:https://files.cnblogs.com/files/xiandedanteng/angularjsChangeFormClass.rar 代码: <!DOCTYPE HTM ...
- 自己定义ImageView,实现点击之后算出点击的是身体的哪个部位
近期也是由于项目的原因,所以有机会接触到这边的算法. 此文重点不是怎样实现的思路和原理, 有须要的同事能够借鉴一下 废话不多说,直接上代码: <span style="font-siz ...
- django 运行python manage.py sqlall books 时报错 app has migration
出现这个问题的原因是版本之前的不兼容,我用的django版本是1.8.6 而 这条python manage.py sqlall books 是基于django1.0版本的. 在django1.8.6 ...
- 将iconv编译成lua接口
前一篇博文说了.在cocos2dx中怎么样使用iconv转码,这节我们将上一节中写的转码函数,做成一个lua接口.在lua脚本中使用. 网上能够下载到luaconv.可是编译的时候总是报错,所以自己写 ...
- Intel® RAID Software Users Guide
Intel® RAID Software Users Guide: Intel ® Embedded Server RAID Technology 2 Intel ® IT/IR RAID I ...
- 手把手教你nginx/linux下如何增加网站
先进入到nginx的配置文件目录请输入以下命令 cd /alidata/server/nginx/conf/vhosts 再输入 ll 看看是不是像下面截图的一样 用神器xftp将default. ...
- Laravel建站01--开发环境部署
内容导航 安装git 安装composer 安装Laravel 既然是开发环境,就需要源代码管理.这里使用git来管理. 一:部署开发环境之前安装git 在 Linux 上安装git 如果你想在 Li ...