【.net】获取网页CDM的下载链接的地址

using System;

using System.Collections.Generic;

using System.Linq;

using System.Runtime.InteropServices;

using System.Text;

using System.Threading.Tasks;

using System.Windows.Forms;

using Framework.Core.Crawl;

using HtmlAgilityPack;

namespace WebCaptureSolution

{

    static class Program

    {

        /// <summary>

        /// 应用程序的主入口点。

        [DllImport("urlmon.dll", CharSet = CharSet.Ansi)]

        private static extern int UrlMkSetSessionOption(int dwOption, string pBuffer, int dwBufferLength, int dwReserved);

        const int URLMON_OPTION_USERAGENT = 0x10000001;

        const string SPUserAgent = "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36";

        [STAThread]

        static void Main(string[] args)

        {

            Application.EnableVisualStyles();

            Application.SetCompatibleTextRenderingDefault(false);

            string log_url = "http://www.handsupowo.pl/member.php?action=login";

            string url1 = "http://www.handsupowo.pl/archive/index.php?forum-13.html";

            List<string> aList = new List<string>();

            List<string> lastinfo = new List<string>();

            var form = new WebCapture();

            form.DocumentOK = false;

            #region ログイン

            if (!string.IsNullOrEmpty(SPUserAgent))

            {

                UrlMkSetSessionOption(URLMON_OPTION_USERAGENT, SPUserAgent, SPUserAgent.Length, 0);

            }

            form.Navigate(log_url);

            while (!form.DocumentOK)

            {

                Application.DoEvents();

            }

            //step 1 login

            var s = form.WebBrowser.Document.GetElementById("content");

            var input = s.GetElementsByTagName("input");

            for (int i = 0; i < input.Count; i++)

            {

                var p = input[i];

                if (p.OuterHtml.Contains("username"))

                {

                    p.SetAttribute("value", "id");

                }

                else if (p.OuterHtml.Contains("pass"))

                {

                    p.SetAttribute("value", "password");

                }

                else if (p.OuterHtml.Contains("submit"))

                {

                    p.InvokeMember("Click");

                    break;

                }

            }

            var startTime = System.DateTime.Now;

            while ((System.DateTime.Now - startTime).TotalSeconds <= 10)

            {

                Application.DoEvents();

            }

            // System.IO.File.WriteAllText(form.SavePath, form.WebBrowser.Document.GetElementsByTagName("html")[0].OuterHtml, System.Text.Encoding.UTF8);

            // step 2

            #endregion

            form.DocumentOK = false;

            form.Navigate(url1);

            while (!form.DocumentOK)

            {

                Application.DoEvents();

            }

            HtmlAgilityPack.HtmlDocument htmldoc = new HtmlAgilityPack.HtmlDocument();

            htmldoc.LoadHtml(form.WebBrowser.Document.GetElementsByTagName("html")[0].OuterHtml);

            //  div[contains(@class,'ads-creative')]

            var anodes = htmldoc.DocumentNode.SelectNodes("//div[@class='threadlist']//a");

            foreach (var tn in anodes)

            {

                aList.Add(tn.Attributes["href"].Value);

            }

            // 循环访问a

            foreach (var cdmurl in aList)

            {

                form.DocumentOK = false;

                form.Navigate(cdmurl);

                while (!form.DocumentOK)

                {

                    Application.DoEvents();

                }

                startTime = System.DateTime.Now;

                while ((System.DateTime.Now - startTime).TotalSeconds <= 5)

                {

                    Application.DoEvents();

                }

                htmldoc.LoadHtml(form.WebBrowser.Document.GetElementsByTagName("html")[0].OuterHtml);

                var downloadurl = htmldoc.DocumentNode.SelectNodes("//a[@rel='nofollow']");

                var info = htmldoc.DocumentNode.SelectSingleNode("//div[@id='fullversion']//a");

                if (downloadurl == null)

                {

                    downloadurl = htmldoc.DocumentNode.SelectNodes("//a[@target='_blank']");

                }

                List<string> dllist = new List<string>();

                if (downloadurl.Count == 1)

                {

                    dllist.Add(info.InnerText);

                    dllist.Add(downloadurl[0].Attributes["href"].Value);

                }

                else

                {

                    foreach (var dl in downloadurl)

                    {

                        if (dllist.Count == 0)

                        {

                            dllist.Add(info.InnerText);

                        }

                        else

                        {

                            dllist.Add(dl.Attributes["href"].Value);

                        }

                    }

                }

                lastinfo.Add(string.Join(Environment.NewLine, dllist.ToArray()));

                lastinfo.Add(Environment.NewLine);

            }

            System.IO.File.WriteAllLines(@"D:\Nodejs\myjs\DownLoadUrl.txt", lastinfo.ToArray(), Encoding.UTF8);

        }

    }

}

【.net】获取网页CDM的下载链接的地址的更多相关文章

使用htmlparse爬虫技术爬取电影网页的全部下载链接
昨天,我们利用webcollector爬虫技术爬取了网易云音乐17万多首歌曲,而且还包括付费的在内,如果时间允许的话,可以获取更多的音乐下来,当然,也有小伙伴留言说这样会降低国人的知识产权保护意识,诚 ...
【Python项目】简单爬虫批量获取资源网站的下载链接
简单爬虫批量获取资源网站的下载链接项目链接:https://github.com/RealIvyWong/GotDownloadURL 1 由来自己在收集剧集资源的时候,这些网站的下载链接还要手动 ...
使用htmlparser爬虫技术爬取电影网页的全部下载链接
昨天,我们利用webcollector爬虫技术爬取了网易云音乐17万多首歌曲,而且还包括付费的在内,如果时间允许的话,可以获取更多的音乐下来,当然,也有小伙伴留言说这样会降低国人的知识产权保护意识,诚 ...
C# 网络编程之webBrowser获取网页url和下载网页中图片
该文章主要是通过C#网络编程的webBrowser获取网页中的url并简单的尝试瞎子啊网页中的图片,主要是为以后网络开发的基础学习.其中主要的通过应用程序结合网页知识.正则表达式实现浏览.获取url. ...
一篇文章教会你利用Python网络爬虫获取电影天堂视频下载链接
[一.项目背景] 相信大家都有一种头疼的体验,要下载电影特别费劲,对吧?要一部一部的下载,而且不能直观的知道最近电影更新的状态. 今天小编以电影天堂为例,带大家更直观的去看自己喜欢的电影,并且下载下来 ...
使用selenium的方式获取网页中图片的链接和网页的链接，来判断是否是死链（二）
上一篇使用Java正则表达式来判断和获取图片的链接以及跳转的网址,这篇使用selenium的自带的API(getAttribute)来获取网页中指定的内容实现内容:获取下面所有图片的链接地址以及跳转 ...
Java正则表达式获取网页所有网址和链接文字
; pos1= urlContent.indexOf(strAreaBegin)+strAreaBegin.length(); pos2=urlContent.inde ...
生成Ipa安装包的plist文件后生成下载链接
假设生成的plist文件的下载链接是: https://www.xx.com/download/xx.plist 那么如果想让苹果手机的浏览器点击后开始下载苹果软件包,则网页中的下载链接需要拼接成 i ...
获取youku视频下载链接（wireshark抓包分析）
随便说两句前两天写了一个python脚本,试图以分析网页源码的方式得到优酷视频的下载地址,结果只得到视频的纯播放地址,下载纯播放地址得到的文件也无法正常播放视频. 这里共享一下播放地址得到的方法(想 ...

随机推荐

安装 Minio服务
#MINIO SERVER Minio是在Apache License v2.0下发布的对象存储服务器.它与Amazon S3云存储服务兼容. 它最适合存储非结构化数据,如照片,视频,日志文件,备份和 ...
Spring Cloud(四) --- config
Spring Cloud Config 随着线上项目变的日益庞大,每个项目都散落着各种配置文件,如果采用分布式的开发模式,需要的配置文件随着服务增加而不断增多.某一个基础服务信息变更,都会引起一系列的 ...
bzoj1345 序列问题
题意: 给你一个序列,长度为n.你需要进行n - 1次操作,每次合并两个相邻的数,代价是max,合并后成为max,求最小代价. n <= 1e6 解: 有个显然的做法是nlogn的,显然不行.. ...
EOJ2018.10 月赛(A 数学+思维题)
传送门:Problem A https://www.cnblogs.com/violet-acmer/p/9739115.html 题意: 能否通过横着排或竖着排将 1x p 的小姐姐填满 n x m ...
（Java）入门训练斐波那契数列
问题描述 Fibonacci数列的递推公式为:Fn=Fn-1+Fn-2,其中F1=F2=1. 当n比较大时,Fn也非常大,现在我们想知道,Fn除以10007的余数是多少. 输入格式输入包含一个整数n ...
sudALSA lib dlmisc.c:236:(snd1_dlobj_cache_get) Cannot open shared library /usr/lib/alsa-lib/libasound_module_pcm_pulse.so
我使用的系统是kali,默认的浏览器为iceweasel.默认的浏览器很好用!! 但是,给浏览器安装flash后,播放视频,会报错:有视频,无声音. 下面给出我的解决方案:
Kubernetes Ingress管理
目录 Ingress介绍 1.Pod漂移问题 2.端口管理问题 3.域名分配及动态更新问题 Nginx Ingress配置 1.部署默认后端 2.部署Ingress Controller 3.部署In ...
python爬虫 bs4_4select()教程
http://www.w3.org/TR/CSS2/selector.html 5 Selectors Contents 5.1 Pattern matching 5.2 Selector synta ...
vue基础篇---生命周期
每个钩子函数都在啥时间触发 beforeCreate 在实例初始化之后,数据观测(data observer) 和 event/watcher 事件配置之前被调用. created 实例已经创建完成之 ...
CSS预处理器之less
less简单入门 w3cplus--Less讲解 vue中安装less npm install less less-loader --save 注意:在vue中引入less之后,用"> ...

【.net】获取网页CDM的下载链接的地址

【.net】获取网页CDM的下载链接的地址的更多相关文章

随机推荐

热门专题