[项目记录]一个.net下使用HAP实现的吉大校园通知网爬虫工具：OAWebScraping

本文为大大维原创，最早于博客园发表，转载请注明出处！！！

第一章简介

本文主要介绍了在.NET下利用优秀的HTML解析组件HtmlAgilityPack开发的一个吉林大学校内通知oa.jlu.edu.cn的爬取器。尽管.Net下解析HTML文件有很多种选择，包括微软自己也提供MSHTML用于manipulate HTML文件。但是，经过我多方查阅资料和自己的尝试，Html Agility Pack逐步脱颖而出：它是Stackoverflow网站上推荐最多的C# HTML解析器。HAP开源，易用，解析速度快。因此，本人最终选择使用HAP作为爬虫的开发的HTML解析组件。

笔者实现的爬虫OAWebScraping可以实现由使用者指定时间的(从当前时间往前n天)的，对oa.jlu.edu.cn上的所有所有通知和新闻，包括时间、标题、发表部门、正文全文和附件的爬取，并且按照时间->发表部门->标题->正文及附件的树形结构将爬取的文件保存在硬盘中。以下是使用截图：

开始爬虫，输入爬取的时间范围：

爬取成功，对于没有发放通知的日期给予提示：

文件的组织结构：

爬取的文件按照树形结构

时间->发表部门->标题->正文及附件

保存在硬盘：

按时间：

按发表部门：

按标题：

正文及附件：

正文：

附件：

第二章研究方法

（1） How to use HAP?^【¹^】

1. 下载http://htmlagilitypack.codeplex.com/

2. 解压

3. 在Visual Studio Solution里，右击project -> add reference -> 选择解压文件夹里的HTMLAgilityPack.dll -> 确定

4. 代码头部加入 using HtmlAgilityPack;

Done!

（2）HAP 概述：^【²^】

在HtmlAgilityPack中常用到的类有HtmlDocument、HtmlNodeCollection、 HtmlNode和HtmlWeb等.其流程一般是先获取HTML，这个可以通过HtmlDocument的Load()或LoadHtml()来加载静态内容，或者也可以HtmlWeb的Get()或Load()方法来加载网络上的URL对应的HTML。

得到了HtmlDocument的实例之后，就可以用HtmlDocument的DocumentNode属性，这是整个HTML文档的根节点，它本身也是一个HtmlNode，然后就可以利用HtmlNode的SelectNodes()方法返回多个HtmlNode的集合对象HtmlNodeCollection，也可以利用HtmlNode的SelectSingleNode()方法返回单个HtmlNode。

（3）XPath 概述：^[2]

HtmlAgilityPack是一个支持用XPath来解析HTML的类库，避免了采用正则表达式一步步将无关的HTML注释及JS代码部分删除掉，然后再用正则表达式找出需要提取的部分，可以说使用正则表达式来做是一个比较繁琐的过程，以下是一个简单的XPath介绍：XPath 使用路径表达式来选取 XML 文档中的节点或节点集。节点是通过沿着路径 (path) 或者步 (steps) 来选取的。
下面列出了最有用的路径表达式：
nodename:选取此节点的所有子节点。
/:从根节点选取。
//:从匹配选择的当前节点选择文档中的节点，而不考虑它们的位置。
.:选取当前节点。
..:选取当前节点的父节点。

（4）关键代码分析：

Main函数逻辑：通过GetItemWebs(range)找出需要爬取的url簇，然后用etItemWeb(itemWebUrl)爬取文件并下载。

拼接yyyyMMdd天的oa通知界面url。

加载Html并查找当前页，由于oa中通知跳转连接均在<div> class“li rel”下的<a>

Class “font14” 中，爬取出其href并拼接成相关具体通知的url，压入一个List（itemWebs）中，由于有些时段没有发通知，这样会导致nodes为空，会使得nodes.Select()发生空指针异常，因此引入异常机制，保证程序正常运行，并对没有发通知的日期进行提示。

以上是GetItemWebs（int range）的主要逻辑。该函数返回一个所有需要查找的通知的url的string s数组。

在GetItemWeb(string itemWebUrl)函数中，通过url初始化uri，解析uri获得title和orgname。

解析HtmlDocument并通过<div> class ‘content_time’ 获得通知发布时间。

解析HtmlDocument中<div> class ‘content_font fontsize immmge’中的p标签，来拼接通知正文。

按照“时间->发表部门->标题->正文”树形结构将正文存储在硬盘

下载附件，并将附件和对应的正文存在一个文件中。

以上是GetItemWeb(string itemWebUrl)的主要逻辑。

第三章数据分析和结果

由于时间限制，笔者爬取了2017/6/15-2017/6/20之间6天的所有数据，其中2017/6/18没有通知，没有数据。另外17号只有研究院发放的一条通知，其他时段基本上每天都有10个左右的部门发放15条左右的通知。查日历可知，17，18号为周末。

可见在工作日中，我校的教务工作都在积极进行，另外党委组织部和宣传部是通知发送的大头。具体可见ScrapingFiles文件夹（爬取数据的存储文件夹）。

第四章结论

笔者在.NET下利用优秀的HTML解析组件HtmlAgilityPack开发的一个吉林大学校内通知oa.jlu.edu.cn的爬取器，测试好用并且挺实用。

第五章参考文献

【1】Brian网络畅游的记录的博客《开源项目Html Agility Pack实现快速解析Html》

http://www.cnblogs.com/GmrBrian/p/6201237.html

【2】51Ct0博主周公的博客《HTML解析利器HtmlAgilityPack》：

http://zhoufoxcn.blog.51cto.com/792419/595344/

【3】CSDN无极世界博主的博客《HtmlAgilityPack——解析html和采集网页的神兵利器》http://blog.csdn.net/dalmeeme/article/details/7191793

【4】HAP官网的开发文档

http://htmlagilitypack.codeplex.com/

第六章代码

 using System;

 using System.Collections.Generic;

 using System.IO;

 using System.Linq;

 using System.Net;

 using System.Web;

 using HtmlAgilityPack;

 //作者：大大维

 namespace OA

 {

     class Program

     {

         static void Main()

         {

             Console.WriteLine("用于查询距今X天的oa通知！！！欢迎使用！！！");

             Console.WriteLine("请输入查询的范围(距现在多少天,0表示当天，1表示昨天+今天，以此类推):");

             var range = int.Parse(Console.ReadLine());

             Console.WriteLine("开始爬取！！！");

             var itemWebUrls = GetItemWebs(range);

             foreach (var itemWebUrl in itemWebUrls)

             {

                 GetItemWeb(itemWebUrl);

             }

             Console.WriteLine("爬取完毕！！！");

             Console.ReadLine();

         }

         private static string[] GetItemWebs(int range)

         {

             /*在HtmlAgilityPack中常用到的类有HtmlDocument、HtmlNodeCollection、

             HtmlNode和HtmlWeb等.其流程一般是先获取HTML，这个可以通过HtmlDocument的Load()或LoadHtml()来加载静态内容，

             或者也可以HtmlWeb的Get()或Load()方法来加载网络上的URL对应的HTML。

             得到了HtmlDocument的实例之后，就可以用HtmlDocument的DocumentNode属性，

             这是整个HTML文档的根节点，它本身也是一个HtmlNode，

             然后就可以利用HtmlNode的SelectNodes()方法返回多个HtmlNode的集合对象HtmlNodeCollection，

             也可以利用HtmlNode的SelectSingleNode()方法返回单个HtmlNode。 */

             var itemWebs = new List<string>();//由于每页网站的通知内容数目不定，采用List较好

             //@忽略转义字符

             var baseUrl = @"https://oa.jlu.edu.cn/defaultroot/PortalInformation!jldxList.action?channelId=179577&searchnr=";

             var web = new HtmlWeb();

             for (var i = range; i >= ; --i)

             {

                 //拼接yyyyMMdd天的oa通知界面

                 DateTime dt = DateTime.Now.AddDays(-i);

                 var dtStr = string.Format("{0:yyyyMMdd}", dt);

                 var url = baseUrl + dtStr + "&searchlx=3";

                 //加载HTML静态内容

                 var htmlDoc = web.Load(url);

                 //获取每个子页面的url并存入items中

                 var nodes = htmlDoc.DocumentNode.SelectNodes("//div[@class='li rel']/a[@class='font14']");

                 try

                 {

                     var pageItemUrl = nodes.Select(node => "https://oa.jlu.edu.cn/defaultroot/"

                     + node.GetAttributeValue("href", "")).ToList();

                     itemWebs.AddRange(pageItemUrl);

                 }

                 catch(Exception)//当当天没有通知下发时，nodes为空，在nodes.Select()中抛出空指针异常

                 {

                     Console.WriteLine(dtStr+"没有通知下发！！！");

                 }

             }

             return itemWebs.ToArray();

         }

         private static void GetItemWeb(string itemWebUrl)

         {

             //uri解析

             var uri = new Uri(itemWebUrl);

             var title = HttpUtility.ParseQueryString(uri.Query).Get("title");//title即url的title部分

             var orgname = HttpUtility.ParseQueryString(uri.Query).Get("orgname");//orgname即url的orgname部分

             var web = new HtmlWeb();

             var htmlDoc = web.Load(itemWebUrl);

             var contentTime = htmlDoc.DocumentNode.SelectSingleNode("//div[@class='content_time']").InnerText;

             var indexOfBlank = contentTime.IndexOf(' ');

             var time = contentTime.Substring(, indexOfBlank);

             var contentNode = htmlDoc.DocumentNode.SelectSingleNode("//div[@class='content_font fontsize immmge']");

             var content = string.Empty;

             var ps = contentNode.SelectNodes("p");

             if (ps != null)

             {

                 foreach (var p in ps)

                 {

                     content += p.InnerText.Replace("&nbsp;", " ").Replace(' ', ' ') + "\n";

                 }

             }

             else

             {

                 content = contentNode.InnerHtml.TrimStart().Replace("&nbsp;", " ").Replace(' ', ' ').Replace("<br>", "\n");

             }

             //创建ScrapingFiles文件夹保存文件

             Directory.CreateDirectory($"../../../ScrapingFiles/{time}/{orgname}/{title}");

             File.WriteAllText($"../../../ScrapingFiles/{time}/{orgname}/{title}/"+title + ".txt", content);

             //下载相关附件

             var fileNodes = htmlDoc.DocumentNode.SelectNodes("//td[@width='93%']/span");

             if (fileNodes != null)

             {

                 var webClient = new WebClient();

                 foreach (var node in fileNodes)

                 {

                     var fileId = node.GetAttributeValue("id", "");//寻找文件ID

                     var fileTitle = node.GetAttributeValue("title", "");//寻找文件title

                     var articleId = HttpUtility.ParseQueryString(uri.Query).Get("id");

                     var res = webClient.DownloadString(

                         "https://oa.jlu.edu.cn/defaultroot/rd/jldx/BASEEncoderAjax.jsp?" +

                         $"res={fileId}@{fileTitle}@{articleId}");

                     res = res.Trim().Replace("\n", "");

                     webClient.DownloadFile("https://oa.jlu.edu.cn/defaultroot/rd/attachdownload.jsp?res=" + res,

                         $"../../../ScrapingFiles/{time}/{orgname}/{title}/" + fileTitle);

                 }

             }

         }

     }

 }