C# HtmlAgilityPack爬取静态页面

最近对爬虫很感兴趣，稍微研究了一下，利用HtmlAgilityPack制作了一个十分简单的爬虫，这个简易爬虫只能获取静态页面的Html

HtmlAgilityPack简介

HtmlAgilityPack是一个解析速度十分快，并且开源的Html解析工具，并且HtmlAgilityPack支持使用Xpath解析Html，能够帮助我们解析Html文档就像解析Xml文档一样轻松、方便。

C#安装HtmlAgilityPack

如果VS安装有Nuget，在Nuget直接搜索安装即可。
下载后解压缩后有3个文件，这里只需要将其中的HtmlAgilityPack.dll、HtmlAgilityPack.xml引入解决方案中即可使用

实例(获取某页面图片)

加载HTML页面

//从网页中加载

string url = "https://www.bilibili.com";

HtmlWeb web = new HtmlWeb();

HtmlDocument hd = web.Load(url);

利用WebClient写一个图片下载器

需要using System.Net和using System.IO

/// <summary>

/// 图片下载器

/// </summary>

public class ImgDownloader

{

    /// <summary>

    /// 下载图片

    /// </summary>

    /// <param name="webClient"></param>

    /// <param name="url">图片url</param>

    /// <param name="folderPath">文件夹路径</param>

    /// <param name="fileName">图片名</param>

    public static void DownloadImg(WebClient webClient, string url, string folderPath, string fileName)

    {

        //如果文件夹不存在，则创建一个

        if (!Directory.Exists(folderPath))

        {

            Directory.CreateDirectory(folderPath);

        }

        //判断路径是否完整，补全不完整的路径

        if (url.IndexOf("https:") == -1 && url.IndexOf("http:") == -1)

        {

            url = "https:" + url;

        }

        //下载图片

        try

        {

            webClient.DownloadFile(url, folderPath + fileName);

            Console.WriteLine(fileName + "下载成功");

        }

        catch (Exception ex)

        {

            Console.Write(ex.Message);

            Console.WriteLine(url);

        }

    }

}

通过Xpath获取img标签中的图片

string imgPath = "//img";//选择img

int imgNum = 0;//图片编号

//获取img标签中的图片

foreach (HtmlNode node in hd.DocumentNode.SelectNodes(imgPath))

{

    if (node.Attributes["src"] != null)

    {

        string imgUrl = node.Attributes["src"].Value.ToString();

        if (imgUrl != "" && imgUrl != " ")

        {

            imgNum++;

            //生成文件名，自动获取后缀

            string fileName = imgNum + imgUrl.Substring(imgUrl.LastIndexOf("."));

            ImgDownloader.DownloadImg(wc, imgUrl, "images/", fileName);

        }

    }

}

通过Xpath获取背景图

//获取背景图

string bgImgPath = "//*[@style]";//选择具有style属性的节点

foreach (HtmlNode node in hd.DocumentNode.SelectNodes(bgImgPath))

{

    if (node.Attributes["style"].Value.Contains("background-image:url"))

    {

        imgNum++;

        string bgImgUrl = node.Attributes["style"].Value;

        bgImgUrl = Regex.Match(bgImgUrl, @"(?<=\().+?(?=\))").Value;//读取url()的内容

        //Console.WriteLine(bgImgUrl);

        //生成文件名，自动获取后缀

        string fileName = imgNum + bgImgUrl.Substring(bgImgUrl.LastIndexOf("."));

        ImgDownloader.DownloadImg(wc, bgImgUrl, "images/bgcImg/", fileName);

    }

}

完整代码

using System.Linq;

using System.Text;

using System.Threading.Tasks;

using System.Net;

using System.IO;

using HtmlAgilityPack;

using System.Text.RegularExpressions;

namespace WebCrawlerDemo

{

    class Program

    {

        static void Main(string[] args)

        {

            WebClient wc = new WebClient();

            string url = "https://www.bilibili.com";

            HtmlWeb web = new HtmlWeb();

            HtmlDocument hd = web.Load(url);//下载html页面

            string imgPath = "//img";//选择img

            int imgNum = 0;//图片编号

            //获取img标签中的图片

            foreach (HtmlNode node in hd.DocumentNode.SelectNodes(imgPath))

            {

                if (node.Attributes["src"] != null)

                {

                    string imgUrl = node.Attributes["src"].Value.ToString();

                    if (imgUrl != "" && imgUrl != " ")

                    {

                        imgNum++;

                        //生成文件名，自动获取后缀

                        string fileName = imgNum + imgUrl.Substring(imgUrl.LastIndexOf("."));

                        ImgDownloader.DownloadImg(wc, imgUrl, "images/", fileName);

                    }

                }

            }

            //获取背景图

            string bgImgPath = "//*[@style]";//选择具有style属性的节点

            foreach (HtmlNode node in hd.DocumentNode.SelectNodes(bgImgPath))

            {

                if (node.Attributes["style"].Value.Contains("background-image:url"))

                {

                    imgNum++;

                    string bgImgUrl = node.Attributes["style"].Value;

                    bgImgUrl = Regex.Match(bgImgUrl, @"(?<=\().+?(?=\))").Value;//读取url()的内容

                    //生成文件名，自动获取后缀

                    string fileName = imgNum + bgImgUrl.Substring(bgImgUrl.LastIndexOf("."));

                    ImgDownloader.DownloadImg(wc, bgImgUrl, "images/bgcImg/", fileName);

                }

            }

            Console.WriteLine("----------END----------");

            Console.ReadKey();

        }

    }

    /// <summary>

    /// 图片下载器

    /// </summary>

    public class ImgDownloader

    {

        /// <summary>

        /// 下载图片

        /// </summary>

        /// <param name="webClient"></param>

        /// <param name="url">图片url</param>

        /// <param name="folderPath">文件夹路径</param>

        /// <param name="fileName">图片名</param>

        public static void DownloadImg(WebClient webClient, string url, string folderPath, string fileName)

        {

            //如果文件夹不存在，则创建一个

            if (!Directory.Exists(folderPath))

            {

                Directory.CreateDirectory(folderPath);

            }

            //判断路径是否完整，补全不完整的路径

            if (url.IndexOf("https:") == -1 && url.IndexOf("http:") == -1)

            {

                url = "https:" + url;

            }

            //下载图片

            try

            {

                webClient.DownloadFile(url, folderPath + fileName);

                Console.WriteLine(fileName + "下载成功");

            }

            catch (Exception ex)

            {

                Console.Write(ex.Message);

                Console.WriteLine(url);

            }

        }

    }

}

参考文章

C# HtmlAgilityPack爬取静态页面的更多相关文章

Scrapy爬取静态页面
Scrapy爬取静态页面安装Scrapy框架: Scrapy是python下一个非常有用的一个爬虫框架 Pycharm下: 搜索Scrapy库添加进项目即可终端下: #python2 sudo p ...
node js 爬虫爬取静态页面，
先打一个简单的通用框子 //根据爬取网页的协议引入对应的协议, http||https var http = require('https'); //引入cheerio 简单点讲就是node中的jq ...
scrapy模拟浏览器爬取验证码页面
使用selenium模块爬取验证码页面,selenium模块需要另外安装这里不讲环境的配置,我有一篇博客有专门讲ubuntn下安装和配置模拟浏览器的开发 spider的代码 # -*- coding: ...
一、python简单爬取静态网页
一.简单爬虫框架简单爬虫框架由四个部分组成:URL管理器.网页下载器.网页解析器.调度器,还有应用这一部分,应用主要是NLP配合相关业务. 它的基本逻辑是这样的:给定一个要访问的URL,获取这个ht ...
scrapy(四): 爬取二级页面的内容
scrapy爬取二级页面的内容 1.定义数据结构item.py文件 # -*- coding: utf-8 -*- ''' field: item.py ''' # Define here the m ...
爬取百度页面代码写入到文件+web请求过程解析
一.爬取百度页面代码写入到文件代码示例: from urllib.request import urlopen #导入urlopen包 url="http://www.baidu.com& ...
python爬虫爬取汽车页面信息，并附带分析（静态爬虫）
环境: windows,python3.4 参考链接: https://blog.csdn.net/weixin_36604953/article/details/78156605 代码:(亲测可以运 ...
使用HtmlAgilityPack爬取网站信息并存储到mysql
前言:打算做一个药材价格查询的功能,但刚开始一点数据都没有靠自己找信息录入的话很麻烦的,所以只有先到其它网站抓取存到数据库再开始做这个了. HtmlAgilityPack在c#里应该很多人用吧,简单又 ...
node调用phantomjs-node爬取复杂页面
什么是phantomjs phantomjs官网是这么说的,'整站测试,屏幕捕获,自动翻页,网络监控',目前比较流行用来爬取复杂的,难以通过api或正则匹配的页面,比如页面是通过异步加载.phanto ...

随机推荐

【00NOIP普及组】计算器的改良（信息学奥赛一本通 1910）（洛谷 1022）
[题目描述] NCL是一家专门从事计算器改良与升级的实验室,最近该实验室收到了某公司所委托的一个任务:需要在该公司某型号的计算器上加上解一元一次方程的功能.实验室将这个任务交给了一个刚进入的新手ZL先 ...
【2019】Charles视频教程，接口测试工具最新教程
Charles 是在 windows/mac/linux下常用的网络封包截取工具,也是电商/直播/搜索/金融/H5/App等测试专用接口测试工具. Charles 支持Http/Https/Webso ...
#C++初学记录（STL容器以及迭代器）
STL初步提交ACM会TLE /仅以学习STL与迭代器使用 C. Cards Sorting time limit per test1 second memory limit per test256 ...
RocketMQ集群安装 2主2从 console
安装zip和mavenyum install -y unzip zip wget http://repos.fedorapeople.org/repos/dchen/apache-maven/epel ...
Devops（三）：Docker常用命令
列出镜像列表(docker images) [root@master docker]# docker images REPOSITORY TAG IMAGE ID CREATED SIZE hello ...
linux学习（5）：linux 性能瓶颈排查
作为开发人员,肯定遇到过以下场景,应用突然卡住了,或者异常退出,cpu占用过高等各种异常情况,一般遇到这些异常情况,该如何去查找具体原因呢? linux和jdk提供了一些命令和工具来查看内存.cpu. ...
rqalpha学习-2
conf = default_config()deep_update(user_config(), conf)deep_update(project_config(), conf) 三种不同级别的 ...
matlab学习笔记10_3关系运算符和逻辑运算符
一起来学matlab-matlab学习笔记10 10_3关系运算符和逻辑运算符觉得有用的话,欢迎一起讨论相互学习~Follow Me 参考书籍 <matlab 程序设计与综合应用>张德丰 ...
Axure中继器设置单选
我们给元件添加组的名称是为了让软件知道哪些元件被放进了一个组中,然后软件会自动让这个组中只有一个元件能够是选中状态,以达到唯一被选中的效果.而中继器的这两个属性默认是启用的状态, 会把组的效果给取消, ...
[LeetCode] 621. Task Scheduler 任务调度
Given a char array representing tasks CPU need to do. It contains capital letters A to Z where diffe ...