C#控制台程序取得INSOYA视频区的视频的真实URL,视频标题,发布时间集合。
准备工作
起因是因为这个网站:http://i.youku.com/kmsfan 这个是一个叫做冒险岛的游戏的资讯论坛,以前我经常在里面传视频,现在我不玩这个游戏了,但是很多玩家还是经常到我的网站里面去看视频,所以我觉得有点不好意思,我觉得开发出一款自动上传下载的工具比什么都好,也不耽误我时间。需要准备一些插件,这些插件都可以从Nuget里面找到,比如Newtonsoft.Json啊HtmlAgilityPack ,不过目前为止也只用到了这些东西。还有我没有做youtube视频的下载,我只做了Daum tv的视频解析,因为Insoya视频区大部分都是上传到Daum Tv 的视频。
Insoya视频区结构解析
我先不放代码,大家先要对网站的文件解析有个大概的了解才行吧?我的想法就是:解析当天的视频。因为Insoya是一个韩国网站,所以韩文什么的思密达什么的就不要再吐槽了。这是视频区的地址:http://www.insoya.com/bbs/zboard.php?id=ucc
大家可以把手指指向链接,可以发现:视频的ID是一个自增长的。比如:
http://www.insoya.com/bbs/zboard.php?id=ucc&no=58158
http://www.insoya.com/bbs/zboard.php?id=ucc&no=58157
http://www.insoya.com/bbs/zboard.php?id=ucc&no=58156.....略掉了。。。
我们随便点一个进去,如果我们想获得视频的标题啊,URL啊,还有发布日期的话,就可以从里面获取,下面框框就是:
需要知道的几件事情
第一,我们从Daum Tv上面获取视频的真实地址,具体可以参考优酷,因为有点难度,视频的地址通常只是给了ID,所以我们还必须获取真实地址:不过StackoverFlow上面我得到了答案 ,哈哈多亏这位老兄。下面是daumTv 的调用API,后面的Vid是视频的ID.
public static string daumAPI = "http://videofarm.daum.net/controller/api/closed/v1_2/IntegratedMovieData.json?vid=";
光有了api不行,因为我们是从inosya网站里面去得到视频的真实地址,所以我们还需要有一个解析工具就是HtmlAgilityPack .为此我们需要知道网站是怎么在HTML结点里面存储这些东西的(标题,URL等)。下面几张图可以帮你解惑。下面这张图中指向的是URL,我们想,如果这些ID都是连续的话,那我是不是在第一页获取一个最大的ID,那其他的ID是不是可以都得出来了呢?
下面图是内容页的,我们可以看到时间是存储到这个CLASS里面的,也许我们有疑问,为什么我要标注CLASS呢,嘿嘿,别急,等下你就知道了。
编码1:获取文件的真实地址
因为我们是从INSOYA网站里面去获取,INSOYA采用的是iframe方式,所以我们并没有在daumTV里面弄。我的想法是弄到DAUM TV的真实页面地址。
public static string GetDownloadUrls(string videoUrl)
{
string vid = "";
if (videoUrl == null)
{
throw new ArgumentNullException("video Url can not be null");
} //是否是标准的daumtv链接,并输出链接地址和视频ID
bool isDaumUrl = TryNormalizeDaumTvUrl(videoUrl, out videoUrl,out vid); if (!isDaumUrl)
{
throw new ArgumentException("It is not a daum Url");
}
string vLink = "";
try
{
//通过DAUM API获得返回的JSON
var json = LoadJson(daumAPI + vid); //通过JSON获得文件的真实地址。
vLink = GetVideLink(json); }
catch (Exception ex)
{ } return vLink; }
GetDownloadUrls(获取下载URL)
/// <summary>
/// 把从insoya.com中获取的视频地址转换为标准的DAUM TV的视频地址
/// </summary>
/// <param name="url"></param>
/// <param name="normalizeUrl"></param>
/// <returns></returns>
public static bool TryNormalizeDaumTvUrl(string url, out string normalizeUrl, out string vId)
{
url = url.Trim();
string videoId = "";
if (url.IndexOf("videofarm") != -)
{
int firstParam = url.IndexOf('=');
int secondParam = url.IndexOf('&')-;
videoId = url.Substring(firstParam + , secondParam - firstParam); url = "http://tvpot.daum.net/v/" + videoId; }
vId = videoId;
normalizeUrl = url; return true;
}
TryNormalizeDaumTvUrl(转换INSOYA内嵌视频地址为标准的DAUM TV视频地址)
private static JObject LoadJson(string url)
{ string pageSource = HttpHelper.DownloadString(url); if (!IsVideoValid(pageSource))
{
throw new Exception("video not valid");
} return JObject.Parse(pageSource);
} public class HttpHelper
{
public static string DownloadString(string url)
{
using (var client = new WebClient())
{
client.Encoding = System.Text.Encoding.UTF8;
return client.DownloadString(url);
} } }
LoadJson(把返回的JSON以字符串形式下载下来)
编码2:分析HTML结点并存储
首先我们需要得到HTML结点的数据并存储。我的想法是从主页面进去也就是:http://www.insoya.com/bbs/zboard.php?id=ucc 然后再区最大的ID,那样就可以把第一页的所有东西都取到了 o(╯□╰)o。,用的是HtmlAgilityPack 有不懂的自己百度吧。
private static int getMaxIdOfVideo()
{
HtmlWeb docWeb = new HtmlWeb();
HtmlDocument doc = docWeb.Load("http://www.insoya.com/bbs/zboard.php?id=ucc&page=1&divpage=12"); IList<int> b = new List<int>();
foreach (HtmlNode numbers in doc.DocumentNode.Descendants("td").Where(d=>d.Attributes.Contains("class")&&
d.Attributes["class"].Value.Contains("eng w_num")))
{
int a;
int.TryParse(numbers.InnerText, out a); if (a != )
{
b.Add(a);
}
} return b.Max();
}
getMaxIdOfVideo(获取视频页面的最新视频的ID)
下面的就是最重要的了,就是抓取视频标题,视频URL等,当然我们首先需要建立一个Model然后返回的是这个Model的List.
public class VideoModel
{
public int VideoId { get; set; }
public string VideoUrl { get; set; }
public string Title { get; set; }
public DateTime PubTime { get; set; } }
VideoModel(视频实体模型)
public static IList<VideoModel> GrabVideoInfo()
{
int max=getMaxIdOfVideo();
int staticMax = max;
IList<VideoModel> models = new List<VideoModel>();
do {
VideoModel model=new VideoModel();
HtmlWeb innerDocWeb = new HtmlWeb();
HtmlDocument innerDoc = innerDocWeb.Load(insoyaUcc + max);
//标题
foreach (HtmlNode title in innerDoc.DocumentNode.Descendants("a").Where(d =>
d.Attributes.Contains("name") && d.Attributes["name"].Value.Contains("pv9")))
{
model.Title = title.InnerText;
break;
} //日期
foreach (HtmlNode title in innerDoc.DocumentNode.Descendants("span").Where(d =>
d.Attributes.Contains("class") && d.Attributes["class"].Value=="eng"))
{
DateTime date;
DateTime.TryParse(title.InnerText,out date); if (date != null)
{
model.PubTime = date;
break;
} }
//视频地址
foreach (HtmlNode title in innerDoc.DocumentNode.Descendants("iframe").Where(d =>
d.Attributes.Contains("title") && d.Attributes["title"].Value.Contains("maplestory_ucc")))
{
string oldUrl = title.Attributes["src"].Value;
string newUrl = GetDownloadUrls(oldUrl);
model.VideoUrl = newUrl;
break; }
model.VideoId = max;
models.Add(model);
Console.WriteLine("ID:"+max + " has accomplish grabbed!");
--max;
} while (max >= staticMax - ); return models;
}
GrabVideoInfo(获取视频模型)
好了,到此为止我们就可以抓取到视频模型了。
尚未完成的工作
当然了,才完成了30%,还要自动上传视频到优酷,还有要把韩文翻译成最合适的中文,如果我做出来了,会和大家分享的,首先是上传到优酷。有兴趣的同好可以看看优酷开放平台。
C#控制台程序取得INSOYA视频区的视频的真实URL,视频标题,发布时间集合。的更多相关文章
- 在.NET Core控制台程序中使用依赖注入
之前都是在ASP.NET Core中使用依赖注入(Dependency Injection),昨天遇到一个场景需要在.NET Core控制台程序中使用依赖注入,由于对.NET Core中的依赖注入机制 ...
- 使用 CommandLineApplication 类创建专业的控制台程序
闲话 在很久很久以前,电脑是命令行/终端/控制台的天下,那屏幕上的光标在行云流水般的键盘敲击下欢快地飞跃着,那一行行的字符输出唰唰唰地滚动着--直到 Windows 95 的出现(那时候我还不知道苹果 ...
- C#基础-关于用json给控制台程序传值的坑
上周遇到了一个非常诡异的坑,首先写了两个程序,第一个程序输出成dll,第二个程序是控制台程序. 在第一个程序里,我使用了process去启动第二个程序,同时传入了一个Json作为参数,即: Proce ...
- 你们信不信一句Console.WriteLine就能让你的控制台程序失去响应
好久没更新博客了,今天是扒衣见君节,难得闲下来就来说说一个最近有趣的发现吧. 首先废话不多说,直接上代码吧 class Program { static void Main(string[] args ...
- 【转】WIN32 控制台程序
http://blog.csdn.net/houmin0036/article/details/7702236 win32控制台项目指在32位Windows命令提示符(即所谓的dos)环境下运行的应用 ...
- Async Console Programs 异步控制台程序
如果你正在写一个控制台程序,你可能最终想要一个异步的main方法,像这样: class Program { static async void Main(string[] args) { ... } ...
- C#控制台程序的参数解析类库 CommandLine简单使用说明
前言 C#开发的控制台程序,默认接收string[] args参数.如果有多个参数需要输入时,可以按照顺序依次输入:但如果有些参数不是必选的,或者有些参数中间需要有空格比如时间“2016-05-18 ...
- .Net Core 控制台程序错误:Can not find runtime target for framework '.NETCoreApp,Version=v1.0' compatible with one of the target runtimes: 'win10-x64, win81-x64, win8-x64, win7-x64'.
.Net Core 控制台程序错误:Can not find runtime target for framework '.NETCoreApp,Version=v1.0' compatible wi ...
- C# 控制台程序(命令行程序)设置字体颜色,窗口宽高,光标行数
控制台程序(命令行程序)设置窗口宽度高度,如下代码: Console.WriteLine(Console.WindowHeight); Console.WriteLine(Console.Buffer ...
随机推荐
- Android 剪贴板详解
版权声明:本文为博主原创文章,未经博主允许不得转载. 微博:厉圣杰 源码:AndroidDemo/Clipboard 如本文有助于你理解 Android 剪贴板,不妨给我一个 Star.对于码农而言, ...
- MFC中如何画带实心箭头的直线
工作中遇到话流程图的项目,需要画带箭头的直线,经过摸索,解决:思路如下: (1) 两个点(p1,p2)确定一个直线,以直线的一个端点(假设p2)为原点,设定一个角度 (2)以P2为原点得到向量P2P1 ...
- 脑洞大开之采用HTML5+SignalR2.0(.Net)实现原生Web视频
目录 对SignalR不了解的人可以直接移步下面的目录 SignalR系列目录 前言 - -,我又来了,今天废话不多说,我们直接来实现Web视频聊天. 采用的技术如下: HTML5 WebRTC Si ...
- 设计模式之单例模式(Singleton)
设计模式之单例模式(Singleton) 设计模式是前辈的一些经验总结之后的精髓,学习设计模式可以针对不同的问题给出更加优雅的解答 单例模式可分为俩种:懒汉模式和饿汉模式.俩种模式分别有不同的优势和缺 ...
- Android listview和gridview以及view的区别
GridView 可以指定显示的条目的列数. listview一般显示的条目的列数都是一列 如果是列表(单列多行形式)的使用ListView,如果是多行多列网状形式的优先使用GridView andr ...
- 敏捷转型历程 - Sprint3 Grooming
我: Tech Leader 团队:团队成员分布在两个城市,我所在的城市包括我有4个成员,另外一个城市包括SM有7个成员.另外由于我们的BA离职了,我暂代IT 的PO 职位.PM和我在一个城市,但他不 ...
- 海鑫智圣:物联网漫谈之MQTT协议
什么是MQTT协议 MQTT(消息队列遥测传输协议)是IBM在1999年专门针对物联网等应用场景来制订的轻量级双向消息传输协议,它主要是为了解决物联网上使用到的设备的互相通信的问题,以及这些设备与后端 ...
- MongoDB备份(mongodump)和恢复(mongorestore)
MongoDB提供了备份和恢复的功能,分别是MongoDB下载目录下的mongodump.exe和mongorestore.exe文件 1.备份数据使用下面的命令: >mongodump -h ...
- .NET深入实战系列--EF到底怎么写过滤条件
本文唯一访问地址:http://www.cnblogs.com/yubaolee/p/DynamicLinq.html 对于系统开发来说,按不同字段进行过滤查询是一种常见的需求.在EF中通常的做法是: ...
- ASP.NET MVC 视图(一)
ASP.NET MVC 视图(一) 前言 从本篇开始就进入到了MVC中的视图部分,在前面的一些篇幅中或多或少的对视图和视图中的一些对象的运用进行了描述,不过毕竟不是视图篇幅说的不全面,本篇首先为大家讲 ...