C#使用HtmlAgilityPack解析Html 爬取图片和视频

HtmlAgilityPack简介

HtmlAgilityPack是.net下的一个HTML解析类库。支持用XPath来解析HTML。

问题来了,有人就会问为什么要使用能XPath呢？小编答：因为对于在web端界面上的元素的xpath，在大部分游览器能够直接获取到，不用手动写。

✍对于HtmlAgilityPack总结：通过这个类库，先通过浏览器获取到xpath获取到节点内容然后再通过正则表达式匹配所需要的内容。

使用HtmlAgilityPack库的操作流程

工具VS2022

NuGet包进行下载安装

HtmlAgilityPack库的一些类的说明

HtmlAttribute--Html元素的属性
HtmlAttributeCollection--一个元素属性的集合
HtmlNode--HTML节点，包括注释，文本，元素等
HtmlNodeCollection--一个HtmlNode节点集合
HtmlNodeType--一个枚举表示节点的类型，文档，注释，元素，文本
HtmlTextNode--Html文本节点
HtmlEntity--对应实体
HtmlParseError--表示文档在解析过程中发现解析错误
下面示例适配部分没有反编译的---初步学习使用

private void Button_Click(object sender, RoutedEventArgs e) {

    //这里因为网页上有些是动态获取数据，所以引入了一个第三个库，使用里面的一个WebView2控件获取网页数据

            webView.Source = new Uri(txt.Text);

        }

        private void Button_Click_1(object sender, RoutedEventArgs e) {

            GetMedia(".//img", @"下载路径");

        }

        private void Button_Click_2(object sender, RoutedEventArgs e) {

            GetMedia(".//video", @"下载路径");

            GetMedia(".//source", @"下载路径");

        }

        HtmlDocument doc=new HtmlDocument();

        public async void GetMedia(string parameter, string dir) {

            var str = "";

            //解决网页乱码和不适配

            object obj = await webView.CoreWebView2.ExecuteScriptAsync("document.documentElement.outerHTML");

            str=Regex.Unescape(obj.ToString()).Replace("\"<html>", "<html>").Replace("</html>\"", "</html>");

            doc.LoadHtml(str);

            var elements = doc.DocumentNode.SelectNodes(parameter);

            if (elements != null) {

                foreach (var el in elements) {

                    if (el.Attributes.Contains("src")) {

                        var url = el.Attributes["src"].Value;

                        if (!string.IsNullOrEmpty(url) && url.StartsWith("http")) {

                            Uri uri = new Uri(url);

                            var fileName=uri.Segments.Last().ToLower();

                            DownLoad(url, $@"{dir}{fileName}");

                        }

                    }

                }

            }

        }

        public static bool DownLoad(string uri, string localFileName) {

            try {

                string ext = Path.GetExtension(localFileName);

                if (string.IsNullOrEmpty(ext)) {

                    localFileName += ".png";

                }

                var server = new Uri(uri);

                var p = Path.GetDirectoryName(localFileName);

                if (!Directory.Exists(p)) Directory.CreateDirectory(p);

                // 发起请求并异步等待结果

                var httpClient = new HttpClient();

                var responseMessage = httpClient.GetAsync(server).Result;

                if (responseMessage.IsSuccessStatusCode) {

                    using (var fs = File.Create(localFileName)) {

                        // 获取结果，并转成 stream 保存到本地。

                        var streamFromService = responseMessage.Content.ReadAsStreamAsync().Result;

                        streamFromService.CopyTo(fs);

                        return true;

                    }

                } else

                    return false;

            } catch {

                return false;

            }

C#使用HtmlAgilityPack解析Html 爬取图片和视频的更多相关文章

python如何使用request爬取图片
下面是代码的简单实现,变量名和方法都是跑起来就行,没有整理,有需要的可以自己整理下: image2local: import requests import time from lxml import ...
爬取图片过程遇到的ValueError: Missing scheme in request url: h 报错与解决方法
一 .scrapy整体框架 1.1 scrapy框架图 1.2 scrapy框架各结构解析 item:保存抓取的内容 spider:定义抓取内容的规则,也是我们主要编辑的文件 pipelines:管道 ...
python +requests 爬虫-爬取图片并进行下载到本地
因为写12306抢票脚本需要用到爬虫技术下载验证码并进行定位点击所以这章主要讲解,爬虫,从网页上爬取图片并进行下载到本地爬虫实现方式: 1.首先选取你需要的抓取的URL:2.将这些URL放入待抓 ...
HtmlAgilityPack解析全国区号页面到XML
需求:完成一个城市和区号的xml配置文件处理思路:通过HtmlAgilityPack解析一个区号页面,生产xml文件页面:http://www.hljboli.gov.cn/html/code.h ...
Java jsoup爬取图片
jsoup爬取百度瀑布流图片是的,Java也可以做网络爬虫,不仅可以爬静态网页的图片,也可以爬动态网页的图片,比如采用Ajax技术进行异步加载的百度瀑布流. 以前有写过用Java进行百度图片的抓取, ...
[python爬虫] 爬取图片无法打开或已损坏的简单探讨
本文主要针对python使用urlretrieve或urlopen下载百度.搜狗.googto(谷歌镜像)等图片时,出现"无法打开图片或已损坏"的问题,作者对它进行简单的探讨.同时 ...
scrapy爬虫，爬取图片
一.scrapy的安装: 本文基于Anacoda3, Anacoda2和3如何同时安装? 将Anacoda3安装在C:\ProgramData\Anaconda2\envs文件夹中即可. 如何用con ...
scrapy爬虫系列之三--爬取图片保存到本地
功能点:如何爬取图片,并保存到本地爬取网站:斗鱼主播完整代码:https://files.cnblogs.com/files/bookwed/Douyu.zip 主要代码: douyu.py im ...
孤荷凌寒自学python第八十二天学习爬取图片2
孤荷凌寒自学python第八十二天学习爬取图片2 (完整学习过程屏幕记录视频地址在文末) 今天在昨天基本尝试成功的基础上,继续完善了文字和图片的同时爬取并存放在word文档中. 一.我准备爬取一个有文 ...
孤荷凌寒自学python第八十一天学习爬取图片1
孤荷凌寒自学python第八十一天学习爬取图片1 (完整学习过程屏幕记录视频地址在文末) 通过前面十天的学习,我已经基本了解了通过requests模块来与网站服务器进行交互的方法,也知道了Beauti ...

随机推荐

【Avalonia】【跨平台】关于控件阴影简单用法
背景当我们在用Avalonia开发项目时,我们可能会对控件添加一些阴影效果,改善用户体验,我们开发WPF的人知道,WPF会给我提供Effect这么一个属性,这是方便我们进行阴影以及特效使用,但是Av ...
python之sys库
sys --- 系统相关的参数和函数该模块提供了一些变量和函数.这些变量可能被解释器使用,也可能由解释器提供.这些函数会影响解释器.本模块总是可用的. sys.abiflags 在POSIX系统上, ...
社工工具包setoolkit克隆网站钓鱼网站
实验主机:kali win10 (搭建好的dvwa靶场用于克隆登录页) setoolkit简介:setoolkit 是一个开源的社会工程学工具包.有很多选项可以使用更多操作读者自行探究. 实验开始: ...
飞桨paddlespeech语音唤醒推理C实现
上篇(飞桨paddlespeech 语音唤醒初探)初探了paddlespeech下的语音唤醒方案,通过调试也搞清楚了里面的细节.因为是python 下的,不能直接部署,要想在嵌入式上部署需要有C下的推 ...
CS144 计算机网络 Lab2：TCP Receiver
前言 Lab1 中我们使用双端队列实现了字节流重组器,可以将无序到达的数据重组为有序的字节流.Lab2 将在此基础上实现 TCP Receiver,在收到报文段之后将数据写入重组器中,并回复发送方. ...
前端js几种加密/解密方法
https://www.jianshu.com/p/4c236d83ea04 https://blog.csdn.net/guxingsheng/article/details/84451573 vu ...
VueUse 是怎么封装Vue3 Provide/Inject 的？
Provide/Inject Provide 和 Inject 可以解决 Prop 逐级透传问题.注入值类型不会使注入保持响应性,但注入一个响应式对象,仍然有响应式的效果. Provide 的问题是无 ...
文盘Rust -- rust连接oss
作者:京东科技贾世闻对象存储是云的基础组件之一,各大云厂商都有相关产品.这里跟大家介绍一下rust与对象存储交到的基本套路和其中的一些技巧. 基本连接我们以 aws 对象存储的sdk为例来说说基 ...
消息推送平台的实时数仓？！flink消费kafka消息入到hive
大家好,3y啊.好些天没更新了,并没有偷懒,只不过一直在安装环境,差点都想放弃了. 上一次比较大的更新是做了austin的预览地址,把企业微信的应用和机器人消息各种的消息类型和功能给完善了.上一篇文章 ...
老夫的正则表达式大成了，桀桀桀桀！！！【Python 正则表达式笔记】
一.正则表达式语法 (一) 字符与字符类特殊字符 \.^$?+*{}[]()| 为特殊字符,若想要使用字面值,必须使用 \ 进行转义字符类 [] [] 匹配包含在方括号中的任何字符.它也可以指定范 ...