C# 使用HtmlAgilityPack 抓取网站链接

今天在找电视剧下载链接的时候，找了一个整部剧的下载地址，但是有40多集，链接地址较长且不好复制，于是就想到了HtmlAgilityPack抓取的方式。

先看实现效果：

使用到的NUGET包： HtmlAgilityPack、HttpCode.Core

请求到网址获取整个网址

   static void Main(string[] args)

        {

            HttpHelpers httpHelpers = new HttpHelpers();

            HttpItems items = new HttpItems();

            items.Url = "https://www.123455.com/videodetails/2222.html";//请求地址

            items.Method = "Get";//请求方式 post

            HttpResults hr = httpHelpers.GetHtml(items);

            JX(hr.Html);

        }

解析获取到的网址

/// <summary>

        /// 解析XML

        /// </summary>

        /// <param name="htmlCode"></param>

        public static void JX(string htmlCode)

        {

            //HtmlAgilityPack

            //源码地址：https://html-agility-pack.net/?z=codeplex

            //下载地址2：https://codeplexarchive.blob.core.windows.net/archive/projects/htmlagilitypack/htmlagilitypack.zip

            string path = System.AppDomain.CurrentDomain.BaseDirectory;

            var filname = "抓取文件.txt";

            HtmlDocument document = new HtmlDocument();

            document.LoadHtml(htmlCode);

            HtmlNode rootNode = document.DocumentNode;

            //categoryNodeList 具有相同类型的节点的集合                //标签@属性='属性名称'

            HtmlNodeCollection categoryNodeList = rootNode.SelectNodes("//div[@id='content']//li[@id='li3_0']//span[@id='s3p0']");

            //也可以通过Xpath路径的形式获取 Xpath路径可以使用HAPExplorer.exe（通过上面的源码地址可以下载并生成工具）

            //HtmlNodeCollection categoryNodeList = rootNode.SelectNodes("/html[1]/head[1]/div[2]/div[6]/ul[1]");

            foreach (var item in categoryNodeList)

            {

                var sapn = item.InnerHtml.Trim();

                var herf = sapn.Split('"')[3];

                WriteMessage(path + filname, herf);

            }

        }

输出到文本文件

        /// <summary>

        /// 输出指定信息到文本文件

        /// </summary>

        /// <param name="path">文本文件路径</param>

        /// <param name="msg">输出信息</param>

        public static void WriteMessage(string path, string msg)

        {

            using (FileStream fs = new FileStream(path, FileMode.OpenOrCreate, FileAccess.Write))

            {

                using (StreamWriter sw = new StreamWriter(fs))

                {

                    sw.BaseStream.Seek(0, SeekOrigin.End);

                    sw.WriteLine("{0}\n", msg, DateTime.Now);

                    sw.Flush();

                }

            }

        }

C# 使用HtmlAgilityPack 抓取网站链接的更多相关文章

抓取网站数据不再是难事了，Fizzler（So Easy）全能搞定
首先从标题说起,为啥说抓取网站数据不再难(其实抓取网站数据有一定难度),SO EASY!!!使用Fizzler全搞定,我相信大多数人或公司应该都有抓取别人网站数据的经历,比如说我们博客园每次发表完文章 ...
【转】详解抓取网站，模拟登陆，抓取动态网页的原理和实现（Python，C#等）
转自:http://www.crifan.com/files/doc/docbook/web_scrape_emulate_login/release/html/web_scrape_emulate_ ...
[Python爬虫] 之二十八：Selenium +phantomjs 利用 pyquery抓取网站排名信息
一.介绍本例子用Selenium +phantomjs爬取中文网站总排名(http://top.chinaz.com/all/index.html,http://top.chinaz.com/han ...
利用wget 抓取网站网页包括css背景图片
利用wget 抓取网站网页包括css背景图片 wget是一款非常优秀的http/ftp下载工具,它功能强大,而且几乎所有的unix系统上都有.不过用它来dump比较现代的网站会有一个问题:不支持c ...
使用PHP抓取网站ico图标
网站许久没用更新,以后会经常更新,本次分享一个使用PHP抓取网站ico的程序,提供一个网站列表后对网站的ico进行下载抓取,具体代码如下: <?php /** * 更新热站ico * gao 2 ...
HtmlAgilityPack 抓取页面的乱码处理
HtmlAgilityPack 抓取页面的乱码处理用来解析 HTML 确实方便.不过直接读取网页时会出现乱码. 实际上,它是能正确读到有关字符集的信息,怎么会在输出时,没有取到正确内容. 因此,读两 ...
Python入门-编写抓取网站图片的爬虫-正则表达式
//生命太短我用Python! //Python真是让一直用c++的村里孩子长知识了! 这个仅仅是一个测试,成功抓取了某网站1000多张图片. 下一步要做一个大新闻大工程 #config = ut ...
使用HtmlAgilityPack抓取Ethereum Tokens信息
使用HtmlAgilityPack抓取Ethereum Tokens信息 class Program { static void Main(string[] args) { try { for (in ...
搜索会抓取网站域名的whoise信息吗
http://www.wocaoseo.com/thread-309-1-1.html 网站是否在信产部备案,这是不是会成为影响网站收录和排名的一个因素?百度是否会抓取域名注册人的相关whois信息吗 ...
C# 抓取网站数据
项目主管说这是项目中的一个亮点(无语...), 类似于爬虫一类的东西,模拟登陆后台系统,获取需要的数据.然后就开始研究这个. 之前有一些数据抓取的经验,抓取流程无非:设置参数->服务端发送请求- ...

随机推荐

全新 UI 震撼来袭！ng-matero v18 正式发布！
前言断断续续折腾了近两周,ng-matero v18 终于发布了.其中最大的亮点是启用 Material 3 主题以及全新的 UI 设计.特别说明,这是 ng-matero 发布五年以来首次 UI ...
Vue 处理异步加载顺序问题：在Konva中确保文本在图片之上显示
Vue 处理异步加载顺序问题:在Konva中确保文本在Konva之上显示在使用Konva开发应用时,我们经常会遇到需要将文本绘制在图片之上的情况.一个常见的问题是,由于图像加载是异步的,文本有时会显 ...
将传统应用带入浏览器的开源先锋「GitHub 热点速览」
现代浏览器已经不再是简单的浏览网页的工具,其潜能正在通过技术不断地被挖掘和扩展.得益于 WebAssembly 等技术的出现,让浏览器能够以接近原生的速度执行非 JavaScript 语言编写的程序, ...
[oeasy]python024_vim读取文件_从头复制到尾_撤销_重做_reg_寄存器
Guido的简历回忆上次内容 python 是Guido制作的语言从Guido刚入职场就开始的项目 python这个项目一直跟随Guido Guido 曾经在 cwi cnri beope ...
oeasy教您玩转linux010204-figlet
我们来回顾一下上一部分我们都讲了什么? 用 apt 查询并下载了 linuxlogo 用字符画出了 linux 发行版的 logo 还查了手册,通过改参数控制输出信息我们还能玩点什么呢? 这个实验 ...
[oeasy]python0054_三引号_原样显示字符串_triple_quoted
三引号回忆上次内容 \ 首先是转义字符可以和别的字符构成转义序列 \a是 ␇ (bell), \b 退回一格 \t 水平制表符 \v.\f LineFeed \\ 输出 \ \" 输 ...
LeetCode513. 找树左下角的值
题目链接:https://leetcode.cn/problems/find-bottom-left-tree-value/description/ 题目叙述: 给定一个二叉树的根节点 root,请 ...
ceph 003 对osd操作对存储池操作存储池配额存储池快照 pgp
主机被加入集群时,会自动被分配角色以达到集群的默认状态.(mon,mgr之类) 想要超过默认状态可以进行设置 ceph容器与客户端 ceph集群的客户端需要 ceph-common 软件包 ceph ...
ssh 转发和切换图形化
适用环境宿主机连接到一台服务器是,服务器系统里面的浏览器点击http网页卡顿,那么这时可以通过ssh将端口转发到宿主机使用宿主机的浏览器点击,则不会很卡顿. [root@foundation1 ~ ...
06 定时器和PWM（1）
前言前面介绍了一下外部中断,这一节主要介绍一下内部定时器和PWM,这两个知识还是比较重要的. 一.定时器 1.什么是定时器定时器其实和计数器一样,我们通过设置一个值,当计数器运行一个计数寄存器向上 ...

C# 使用HtmlAgilityPack 抓取 网站链接

C# 使用HtmlAgilityPack 抓取 网站链接的更多相关文章

随机推荐

热门专题

C# 使用HtmlAgilityPack 抓取网站链接

C# 使用HtmlAgilityPack 抓取网站链接的更多相关文章