.NetCore实践爬虫系统（一）解析网页内容

爬虫系统的意义

爬虫的意义在于采集大批量数据，然后基于此进行加工/分析，做更有意义的事情。谷歌，百度，今日头条，天眼查都离不开爬虫。

今日目标

今天我们来实践一个最简单的爬虫系统。根据Url来识别网页内容。

网页内容识别利器：HtmlAgilityPack

GitHub地址

HtmlAgilityPack官网

HtmlAgilityPack的stackoverflow地址

至今Nuget已有超过900多万的下载量，应用量十分庞大。它提供的文档教程也十分简单易用。

Parser解析器

HtmlParse可以让你解析HTML并返回HtmlDocument

FromFile从文件读取

/// <summary>

/// 从文件读取

/// </summary>

public void FromFile() {

var path = @"test.html";

var doc = new HtmlDocument();

doc.Load(path);

var node = doc.DocumentNode.SelectSingleNode("//body");

Console.WriteLine(node.OuterHtml);

}

从字符串加载

/// <summary>

/// 从字符串读取

/// </summary>

public void FromString()

{

var html = @"<!DOCTYPE html>

<html>

<body>

<h1>This is <b>bold</b> heading</h1>

<p>This is <u>underlined</u> paragraph</p>

<h2>This is <i>italic</i> heading</h2>

</body>

</html> ";

var htmlDoc = new HtmlDocument();

htmlDoc.LoadHtml(html);

var htmlBody = htmlDoc.DocumentNode.SelectSingleNode("//body");

Console.WriteLine(htmlBody.OuterHtml);

}

从网络加载

/// <summary>

/// 从网络地址加载

/// </summary>

public void FromWeb() {

var html = @"https://www.cnblogs.com/";

HtmlWeb web = new HtmlWeb();

var htmlDoc = web.Load(html);

var node = htmlDoc.DocumentNode.SelectSingleNode("//div[@id='post_list']");

Console.WriteLine("Node Name: " + node.Name + "\n" + node.OuterHtml);

}

Selectors选择器

选择器允许您从HtmlDocument中选择HTML节点。它提供了两个方法,可以用XPath表达式筛选节点。XPath教程

SelectNodes() 返回多个节点

SelectSingleNode(String) 返回单个节点

简介到此为止，更全的用法参考 http://html-agility-pack.net

查看网页结构

我们以博客园首页为示例。用chrome分析下网页结构，可采集出推荐数，标题，内容Url,内容简要，作者，评论数，阅读数。

编码实现

建立一个Article用来接收文章信息。



public class Article

{

/// <summary>

///

/// </summary>

public string Id { get; set; }

/// <summary>

/// 标题

/// </summary>

public string Title { get; set; }

/// <summary>

/// 概要

/// </summary>

public string Summary { get; set; }

/// <summary>

/// 文章链接

/// </summary>

public string Url { get; set; }

/// <summary>

/// 推荐数

/// </summary>

public long Diggit { get; set; }

/// <summary>

/// 评论数

/// </summary>

public long Comment { get; set; }

/// <summary>

/// 阅读数

/// </summary>

public long View { get; set; }

/// <summary>

///明细

/// </summary>

public string Detail { get; set; }

/// <summary>

///作者

/// </summary>

public string Author { get; set; }

/// <summary>

/// 作者链接

/// </summary>

public string AuthorUrl { get; set; }

}

然后根据网页结构，查看XPath路径，采集内容

/// <summary>

/// 解析

/// </summary>

/// <returns></returns>

public List<Article> ParseCnBlogs()

{

var url = "https://www.cnblogs.com";

HtmlWeb web = new HtmlWeb();

//1.支持从web或本地path加载html

var htmlDoc = web.Load(url);

var post_listnode = htmlDoc.DocumentNode.SelectSingleNode("//div[@id='post_list']");

Console.WriteLine("Node Name: " + post_listnode.Name + "\n" + post_listnode.OuterHtml);

var postitemsNodes = post_listnode.SelectNodes("//div[@class='post_item']");

var articles = new List<Article>();

var digitRegex = @"[^0-9]+";

foreach (var item in postitemsNodes)

{

var article = new Article();

var diggnumnode = item.SelectSingleNode("//span[@class='diggnum']");

//body

var post_item_bodynode = item.SelectSingleNode("//div[@class='post_item_body']");

var titlenode = post_item_bodynode.SelectSingleNode("//a[@class='titlelnk']");

var summarynode = post_item_bodynode.SelectSingleNode("//p[@class='post_item_summary']");

//foot

var footnode = item.SelectSingleNode("//div[@class='post_item_foot']");

var authornode = footnode.ChildNodes[1];

var commentnode = item.SelectSingleNode("//span[@class='article_comment']");

var viewnode = item.SelectSingleNode("//span[@class='article_view']");

article.Diggit = int.Parse(diggnumnode.InnerText);

article.Title = titlenode.InnerText;

article.Url = titlenode.Attributes["href"].Value;

article.Summary = titlenode.InnerHtml;

article.Author = authornode.InnerText;

article.AuthorUrl = authornode.Attributes["href"].Value;

article.Comment = int.Parse(Regex.Replace(commentnode.ChildNodes[0].InnerText, digitRegex, ""));

article.View = int.Parse(Regex.Replace(viewnode.ChildNodes[0].InnerText, digitRegex, ""));

articles.Add(article);

}

return articles;

}

查看采集结果

看到结果就惊呆了，竟然全是重复的。难道是Xpath语法理解不对么？

重温下XPath语法

XPath 使用路径表达式在 XML 文档中选取节点。节点是通过沿着路径或者 step 来选取的

表达式 描述

nodename	选取此节点的所有子节点。

/ 从根节点选取。

// 从匹配选择的当前节点选择文档中的节点，而不考虑它们的位置。

. 选取当前节点。

.. 选取当前节点的父节点。

@ 选取属性。

XPath 通配符可用来选取未知的 XML 元素

通配符 描述

* 匹配任何元素节点。

@* 匹配任何属性节点。

node() 匹配任何类型的节点。

我测试了几个语法如：

//例1，会返回20个

var titlenodes = post_item_bodynode.SelectNodes("//a[@class='titlelnk']");

//会报错，因为这个a并不直接在bodynode下面，而是在子级h3元素的子级。

var titlenodes = post_item_bodynode.SelectNodes("a[@class='titlelnk']");

然后又实验了一种：

//Bingo,这个可以，但是强烈指定了下级h3,这就稍微麻烦了点。

var titlenodes = post_item_bodynode.SelectNodes("h3//a[@class='titlelnk']");

这里就引申出了一个小问题：如何定位子级的子级？用通配符*可以么？

//返回1个。

var titlenodes= post_item_bodynode.SelectNodes("*//a[@class='titlelnk']")

能正确返回1，应该是可以了，我们改下代码看下效果。然后和博客园首页数据对比，结果吻合。

所以我们可以得出结论：

XPath搜索以//开头时，会匹配所有的项，并不是子项。

直属子级可以直接跟上 node名称。

只想查子级的子级，可以用*代替子级，实现模糊搜索。

改过后代码如下：

public List<Article> ParseCnBlogs()

{

var url = "https://www.cnblogs.com";

HtmlWeb web = new HtmlWeb();

//1.支持从web或本地path加载html

var htmlDoc = web.Load(url);

var post_listnode = htmlDoc.DocumentNode.SelectSingleNode("//div[@id='post_list']");

//Console.WriteLine("Node Name: " + post_listnode.Name + "\n" + post_listnode.OuterHtml);

var postitemsNodes = post_listnode.SelectNodes("div[@class='post_item']");

var articles = new List<Article>();

var digitRegex = @"[^0-9]+";

foreach (var item in postitemsNodes)

{

var article = new Article();

var diggnumnode = item.SelectSingleNode("*//span[@class='diggnum']");

//body

var post_item_bodynode = item.SelectSingleNode("div[@class='post_item_body']");

var titlenode = post_item_bodynode.SelectSingleNode("*//a[@class='titlelnk']");

var summarynode = post_item_bodynode.SelectSingleNode("p[@class='post_item_summary']");

//foot

var footnode = post_item_bodynode.SelectSingleNode("div[@class='post_item_foot']");

var authornode = footnode.ChildNodes[1];

var commentnode = footnode.SelectSingleNode("span[@class='article_comment']");

var viewnode = footnode.SelectSingleNode("span[@class='article_view']");

article.Diggit = int.Parse(diggnumnode.InnerText);

article.Title = titlenode.InnerText;

article.Url = titlenode.Attributes["href"].Value;

article.Summary = titlenode.InnerHtml;

article.Author = authornode.InnerText;

article.AuthorUrl = authornode.Attributes["href"].Value;

article.Comment = int.Parse(Regex.Replace(commentnode.ChildNodes[0].InnerText, digitRegex, ""));

article.View = int.Parse(Regex.Replace(viewnode.ChildNodes[0].InnerText, digitRegex, ""));

articles.Add(article);

}

return articles;

}

感谢apgk也提供了一种办法，也是ok的。

var titlenodes = post_item_bodynode.SelectNodes(post_item_bodynode.XPath+"//a[@class='titlelnk']");

源码

点击推荐
查看源码。

GitHub

总结

demo到此结束。谢谢观看！

下篇继续构思如何构建自定义规则，让用户可以在页面自己填写规则去识别。

.NetCore实践爬虫系统（一）解析网页内容的更多相关文章

.NetCore实践爬虫系统（二）自定义规则
回顾上篇文章NetCore实践爬虫系统(一)解析网页内容我们讲了利用HtmlAgilityPack,输入XPath路径,识别网页节点,获取我们需要的内容.评论中也得到了大家的一些支持与建议.下面继 ...
NodeJS爬虫系统初探
NodeJS爬虫系统 NodeJS爬虫系统 0. 概论爬虫是一种自动获取网页内容的程序.是搜索引擎的重要组成部分,因此搜索引擎优化很大程度上是针对爬虫而做出的优化. robots.txt是一个文本文 ...
爬虫系统-日志、初始化url
1.日志log4j 1.1.DEBUG:debug级别 1.2.stdout:输出到控制台 1.3.D:输出到文件 log4j.rootLogger=DEBUG, stdout,D #Console ...
基于golang分布式爬虫系统的架构体系v1.0
基于golang分布式爬虫系统的架构体系v1.0 一.什么是分布式系统分布式系统是一个硬件或软件组件分布在不同的网络计算机上,彼此之间仅仅通过消息传递进行通信和协调的系统.简单来说就是一群独立计算机 ...
用python3.x与mysql数据库构建简单的爬虫系统（转）
这是在博客园的第一篇文章,由于本人还是一个编程菜鸟,也写不出那些高大上的牛逼文章,这篇文章就是对自己这段时间学习python的一个总结吧. 众所周知python是一门对初学编程的人相当友好的编程语言, ...
干货|爱奇艺CDN巡检系统技术解析
小结: 1. 中心处理系统 /1/将定制后的巡检任务拆分,通过配置与任务分发系统.CMDB*( configuration management database)将派发到边缘拨测系统/2/处理边缘拨 ...
PySpider 爬虫系统
PySpider:一个国人编写的强大的网络爬虫系统并带有强大的WebUI.采用Python语言编写,分布式架构,支持多种数据库后端,强大的WebUI支持脚本编辑器,任务监视器,项目管理器以及结果查看器 ...
python爬虫之网页解析
CSS Selector 与Xpath path = ‘D:\\Postgraduate\\Python\\python_projects\\Python视频分布式爬虫Scrapy入门到精通\\第 ...
从程序员到CTO的Java技术路线图 JAVA职业规划 JAVA职业发展路线图系统后台框架图、前端工程师技能图 B2C电子商务基础系统架构解析
http://zz563143188.iteye.com/blog/1877266在技术方面无论我们怎么学习,总感觉需要提升自已不知道自己处于什么水平了.但如果有清晰的指示图供参考还是非常不错的,这样 ...

随机推荐

JS 调试中常见的报错的解决办法
报错:Uncaught SyntaxError: Unexpected token o in JSON at position 1 at JSON.parse (<anonymous>) ...
SAP 销售条件表增强栏位
有时遇到一个比较特殊的业务,比如公司间免费订单,既要让价格为0,不读取VK11里创建的价格, 又要让公司间的价格读取VK11,这实际上是有矛盾的,也就是说一个订单里面的两行,物料一样,客户一样,就会出 ...
python的内置函数time
time 模块 1 >>> import time 2 >>> time.time() 3 1491064723.808669 4 >>> # t ...
Multiple Server Query Execution报The result set could not be merged..
在SQL Server中使用Multiple Server Query Execution这个功能做数据库维护或脚本发布时非常方便,昨天由于磁盘空间原因,删除清理了大量的软件和组件,结果导致SSMS客 ...
Android 弹出输入框
final EditText inputServer = new EditText(SettingActivity.this); AlertDialog.Builder builder = new A ...
c++文件的读写
c++文件的读写 1.文本方式的写文件 #include <iostream> #include <fstream> using namespace std; int main ...
Linux Rsyslog日志集中管理
Linux Rsyslog日志集中管理一.Rsyslog简介 ryslog 是一个快速处理收集系统日志的程序,提供了高性能.安全功能和模块化设计.rsyslog 是syslog 的升级版,它将多种来 ...
【PAT】B1009 说反话
在输入时直接分别将每个单词放入字符串,逆序输出字符串数组 #include<stdio.h> int main(){ int num=0; char ans[90][90]; while( ...
C# -- 使用递归列出文件夹目录及目录下的文件
使用递归列出文件夹目录及目录的下文件 1.使用递归列出文件夹目录及目录下文件,并将文件目录结构在TreeView控件中显示出来. 新建一个WinForm应用程序,放置一个TreeView控件: 代码实 ...
Linux for Python教程01
目录 1. Linux和操作系统 1.1. 什么是操作系统 1.2. 现有操作系统 1.3. Linux用户目录 1.4. Linux文件权限 2. Linux命令 2.1 文件管理相关 (1).ls ...