1、使用第三方类库 HtmlAgilityPack

官方网址：https://html-agility-pack.net/?z=codeplex、

// From File 从文件获取html信息

var doc = new HtmlDocument();

doc.Load(filePath);

// From String 从字符串获取html信息

var doc = new HtmlDocument();

doc.LoadHtml(html);

// From Web   从网址获取html信息

var url = "http://html-agility-pack.net/";

var web = new HtmlWeb();

var doc = web.Load(url);

1.1、这里介绍一下最后一种用法

var web = new HtmlWeb();

var doc = web.Load(url);

在 web 中我们还可以设置cookie、headers等信息，来处理一些特定的网站需求，比如需要登陆等。

1.2 用法解释

网页在你查看网页源代码之后只是一段字符串，而爬虫所做的就是在这堆字符串中，查询到我们想要的信息，挑选出来。

以往的筛选方法：正则（太麻烦了，写起来有些头疼）

HtmlAgilityPack 支持通过XPath来解析我们需要的信息。

1.2.1 在哪里找XPath？

网页右键检查

通过XPath就可以准确获取你想要元素的全部信息。

1.2.2 获取选中Html元素的信息？

获取选中元素

var web = new HtmlWeb();

var doc = web.Load(url);

var htmlnode = doc?.DocumentNode?.SelectSingleNode("/html/body/header")

获取元素信息

htmlnode.InnerText;

htmlnode.InnerHtml;

//根据属性取值

htmlnode?.GetAttributeValue("src", "未找到")

2、自己封装的类库

 /// <summary>

    /// 下载HTML帮助类

    /// </summary>

    public static class LoadHtmlHelper

    {

        /// <summary>

        /// 从Url地址下载页面

        /// </summary>

        /// <param name="url"></param>

        /// <returns></returns>

        public async static ValueTask<HtmlDocument> LoadHtmlFromUrlAsync(string url)

        {

            HtmlWeb web = new HtmlWeb();

             return await

                 web?.LoadFromWebAsync(url);

        }

        /// <summary>

        /// 获取单个节点扩展方法

        /// </summary>

        /// <param name="htmlDocument">文档对象</param>

        /// <param name="xPath">xPath路径</param>

        /// <returns></returns>

        public static HtmlNode GetSingleNode(this HtmlDocument htmlDocument, string xPath)

        {

          return  htmlDocument?.DocumentNode?.SelectSingleNode(xPath);

        }

        /// <summary>

        /// 获取多个节点扩展方法

        /// </summary>

        /// <param name="htmlDocument">文档对象</param>

        /// <param name="xPath">xPath路径</param>

        /// <returns></returns>

        public static HtmlNodeCollection GetNodes(this HtmlDocument htmlDocument, string xPath)

        {

            return htmlDocument?.DocumentNode?.SelectNodes(xPath);

        }

        /// <summary>

        /// 获取多个节点扩展方法

        /// </summary>

        /// <param name="htmlDocument">文档对象</param>

        /// <param name="xPath">xPath路径</param>

        /// <returns></returns>

        public static HtmlNodeCollection GetNodes(this HtmlNode htmlNode, string xPath)

        {

            return htmlNode?.SelectNodes(xPath);

        }

        /// <summary>

        /// 获取单个节点扩展方法

        /// </summary>

        /// <param name="htmlDocument">文档对象</param>

        /// <param name="xPath">xPath路径</param>

        /// <returns></returns>

        public static HtmlNode GetSingleNode(this HtmlNode htmlNode, string xPath)

        {

            return htmlNode?.SelectSingleNode(xPath);

        }

        /// <summary>

        /// 下载图片

        /// </summary>

        /// <param name="url">地址</param>

        /// <param name="filpath">文件路径</param>

        /// <returns></returns>

        public async static ValueTask<bool> DownloadImg(string url ,string filpath)

        {

            HttpClient httpClient = new HttpClient();

            try

            {

                var bytes = await httpClient.GetByteArrayAsync(url);

                using (FileStream fs = File.Create(filpath))

                {

                    fs.Write(bytes, 0, bytes.Length);

                }

                return File.Exists(filpath);

            }

            catch (Exception ex)

            {

                throw new Exception("下载图片异常", ex);

            }

        }

    }

3、自己写的爬虫案例，爬取的网站https://www.meitu131.com/

数据存储层没有实现，懒得写了，靠你们喽，我是数据暂时存在了文件中

GitHub地址：https://github.com/ZhangQueque/quewaner.Crawler.git

C#爬虫，让你不再觉得神秘的更多相关文章

（Bug修复）C#爬虫，让你不再觉得神秘
Bug修复 https://github.com/ZhangQueque/quewaner.Crawler/issues/1 修复加载Https网址中午乱码,导致Node解析失败的问题 1.使用第三方 ...
Crawlab Lite 正式发布，更轻量的爬虫管理平台
Crawlab 是一款基于 Golang 的分布式爬虫管理平台,产品发布已经一年有余,经过开发团队的不断打磨,即将迭代到 v0.5 版本.在这期间我们为 Crawlab 加入了大量社区用户共同期望的功 ...
Building Modern Web Apps－构建现代的 Web 应用程序（一些感想）
<iframe src="http://channel9.msdn.com/Series/MVA-China/Web20140611A01/player?h=540&w=960 ...
Windows操作系统
Microsoft Windows,是美国微软公司研发的一套操作系统,它问世于1985年,起初仅仅是Microsoft-DOS模拟环境,后续的系统版本由于微软不断的更新升级,不但易用,也慢慢的成为家家 ...
介绍.NET Core
在connect (),我们宣布.NET 核心将能完全释放,作为开放源码软件.我也答应在.NET 核心跟更多的细节.在这篇文章,我将提供.NET 核心,我们如何去释放它,它涉及到.NET 框架,如何和 ...
Android文件下载（实现断点续传）
本文将介绍在android平台下如何实现多线程下载,大家都知道,android平台使用java做为开发语言,所以java中支持的多线程下载方式在android平台下都支持,其中主要有两种方式可以实现多 ...
Java反编译插件jad
原文地址:http://www.cnblogs.com/JimLy-BUG/p/5405868.html 1.首先下载jar文件:net.sf.jadclipse_3.3.0.jar 下载 2. ...
Andrid 多线程下载
本文转自:http://www.2cto.com/kf/201205/130969.html 本文将介绍在android平台下如何实现多线程下载,大家都知道,android平台使用java做为开发语言 ...
Building Modern Web Apps－构建现代的 Web 应用程序
Building Modern Web Apps-构建现代的 Web 应用程序视频长度:1 小时左右视频作者:Scott Hunter 和 Scott Hanselman 视频背景:Visual ...

随机推荐

Guitar Pro小课堂——如何进行消音
在我们弹吉他时,消音技术是必须掌握的一项吉他技能.在我们遇到休止符时.乐曲结束时.乐段,乐句中止时.吉他旋律的分句,呼吸处:变换和弦时的低音(尤其是空弦低音).断奏.弹奏强音时其他空弦被激起的共鸣音( ...
使用Camtasia来给视频或者图片调色
喜欢摄影和制作视频的朋友可能知道,一张好看的照片或一段精美视频的构成要素很多,取景本身就是很重要的条件,相机的硬件水平也是一个重要因素,接下来的就是后期的编辑和处理了,而在后期处理过程中调色是十分重要 ...
C语言讲义——数组和指针
数组名表示的是这个数组的首地址.即如果有int a[10],则a 相当于&a[0]. #include <stdio.h> main() { int a[5]= {1,3,5,7, ...
Docker 跨平台在 netCore 中的从入门到部署
前言从题目我们可以看的出,今天是五部曲的第三部,你可能会好奇,为啥没有见到前两部呢?这里我简单说下: 1.跨平台第一部曲:MySql 如果你看我的所有开源项目,应该能发现我已经全部迁移到了Mysql ...
第7.6节 Python中类的继承机制详述
在本章第一节,介绍了面向对象程序设计的三个特征:封装.继承和多态,前面章节重点介绍了封装和多态,由于Python语言是多态语言,对象的类型不再由继承等方式决定,而由实际运行时所表现出的具体行为来决定, ...
PyQt(Python+Qt)学习随笔：Qt Designer中部件的geometry几何属性
geometry属性保存部件相对于其父级对象的位置和大小,Qt实际上是以一个长方形来表示部件的位置和大小的,包括左上角的坐标位置.长度和宽带. 当部件的geometry调整时,部件如果可见将立即接收m ...
安装pyspider出现的问题
本文来自微信公众号:coder_xiaobu,欢迎关注一.安装pyspider pip install pyspider 二.启动 pyspider all 三.安装中出现的问题处理安装的时候出现 ...
第 3 篇 Scrum 冲刺博客
每天举行会议会议照片: 昨天已完成的工作与今天计划完成的工作及工作中遇到的困难: 成员姓名昨天完成工作今天计划完成的工作工作中遇到的困难蔡双浩了解任务,并做相关学习和思考,创建基本的收藏夹 ...
vue 编程式导航
// 命名的路由(这里的name为路由中定义的name名称) this.$router.push({ name: 'user', params: { userId: '123' }}) // 带查询参 ...
AcWing 326. XOR和路径
大型补档计划题目链接如果整体来做,发现既有加法,也有整体异或,这样不容易搞. 考虑异或,各个位置互不干扰,按位考虑一下. 枚举每一位 $k$ 发现如果设 $f[u]$ 为这一位的期望结果还 ...

C#爬虫，让你不再觉得神秘