爬虫技术 -- 进阶学习（十）网易新闻页面信息抓取（htmlagilitypack搭配scrapysharp）

最近在弄网页爬虫这方面的，上网看到关于htmlagilitypack搭配scrapysharp的文章，于是决定试一试~

于是到https://www.nuget.org/packages/ScrapySharp去看看，

看到这句下载提示：To install ScrapySharp, run the following command in the Package Manager Console

PM> Install-Package ScrapySharp

接下去我就去找package manager console，（http://docs.nuget.org/docs/start-here/using-the-package-manager-console）

操作说明：From the Tools menu, select Library Package Manager and then click Package Manager Console.

发现还没装~@_@!!

那么就去装一下插件吧！阅读了这篇博文http://www.cnblogs.com/baiyu/archive/2011/09/07/2170028.html

一、安装Nuget

　　1. Visual studio 2012-> Tool-> Extension Manager。

　　2. 选择Online Gallery，在右上角的搜索中输入Nuget，之后按提示安装即可。

　　3. 安装之后菜单View-> Other windows中会出现Package Manager Console，这是一个集成到VS中的控制台工具。

注意：在选择ScrapySharp的版本的时候也要考虑htmlAgilityPack的版本

附：scrapySharp官网链接：https://www.nuget.org/packages/ScrapySharp

于是，继续操作Tools->Library Package Manager->Package Manager Console

PM> Install-Package HtmlAgilityPack

正在安装“HtmlAgilityPack 1.4.”。

已成功安装“HtmlAgilityPack 1.4.”。

正在将“HtmlAgilityPack 1.4.”添加到 WindowsFormsDemo0320。

已成功将“HtmlAgilityPack 1.4.”添加到 WindowsFormsDemo0320。

PM> Install-Package ScrapySharp

正在尝试解析依赖项“HtmlAgilityPack (≥ 1.4.)”。

正在安装“ScrapySharp 2.2.”。

已成功安装“ScrapySharp 2.2.”。

正在将“ScrapySharp 2.2.”添加到 WindowsFormsDemo0320。

已成功将“ScrapySharp 2.2.”添加到 WindowsFormsDemo0320。

接下来开始进行抓取，

原始网页是网易一新闻网页：http://news.163.com/14/0413/18/9PNVIBV000014JB6.html

下面实现的效果是，抓取title标签的内容和正文内容（也就是<div id="endText">…(捕捉<p></p>中间的内容)…</div>）

捕捉title的时候需要注意，有时候一个网页不只一对title标签！！

但是，其实网易新闻页面显示的标题存储的标签<h1 id="hltitle">……</h1>

所以提取标题的核心代码为

String title = doc.DocumentNode.SelectSingleNode("//h1[@id='h1title']").InnerText;

捕捉正文内容的核心代码：

html.CssSelect("p").CssSelectAncestors("div#endText");

下面看下该新闻页面正文部分的html代码：

<div id="endText"></p><p>人民网兰州4月13日电 兰州市今天下午召开新闻发布会，初步查明了导致自流沟内水体苯超标的原因。根据环保专家现场初步分析判断，周边地下含油污水是引起自流沟内水体苯超标的直接原因。</p><p>根据目前的调查情况初步判定，自流沟周边地下含油污水形成的原因有三点：一是原兰化公司原料动力厂原油蒸馏车间R205A#渣油罐曾于1987年12月28日8时50分发生物理爆破事故，罐体破裂造成90立方渣油泻出，其中有34吨渣油跑料未能回收，渗入地下；二是原兰化公司原料动力厂原油蒸馏车间泵B-113出口总管曾于2002年4月3日发生开裂着火，泄漏的渣油及救火过程中产生的大量消防污水渗入地下。</p><p>另据中新网兰州4月13日电&nbsp; 兰州市“4·11”局部自来水苯指标超标事故应急处置领导小组副组长郑志强13日说，调查组从11日下午3时开始展开调查工作，采取开挖深坑的方法，查找到了导致水体苯超标的方位。根据环保专家现场初步分析判断，周边地下含油污水是引起自流沟内水体苯超标的直接原因。</p><p>兰州官方通报称，根据目前的调查情况初步判定，自流沟周边地下含油污水的形成原因有两个：</p><p>一是原兰化公司原料动力厂原油蒸馏车间R205A#渣油罐(该址原为兰化公司原料动力厂250万吨/年炼油装置，该装置建于1982年，2003年停用，2006年拆除。拆除后，在原址建成现有的40万吨/年芳烃抽提装置，罐区设计分别储存馏份油、轻油、渣油)，曾于1987年12月28日8时50分发生物理爆破事故，罐体破裂造成90立方渣油泄出，其中有34吨渣油跑料未能回收，渗入地下。</p><p><!-- AD200x300_2 -->

<div class="gg200x300">

<iframe src="http://g.163.com/r?site=netease&affiliate=news&cat=article&type=logo300x250&location=13" width="300" height="250" frameborder="no" border="0" marginwidth="0" marginheight="0" scrolling="no"> </iframe>

</div><p>二是原兰化公司原料动力厂原油蒸馏车间泵B—113出口总管曾于2002年4月3日发生开裂着火，泄漏的渣油(具体数量当时未统计)及救火过程中产生的大量消防污水渗入地下。</p><p>郑志强说，目前兰州石化现有生产装置及罐区运行正常，未发现物料及产品泄漏现象。生产区域内雨排井、化污系统水封井未发现物料泄漏现象，消防井内发现有少量飘油。</p><p>事故调查组下一步调查工作的重点是，对从开挖深坑中提取的含油废水组份进行化验，进一步从技术层面核实地下含油污水与自流沟内苯超标水体的关联性。同时，对4号、3号自流沟内的具体泄漏点位进行实地勘查核实，并对造成局部自来水苯超标事件的相关责任单位和责任人进行进一步的调查取证。(完)</p>
 <div class="ep-source cDGray">

                    <span class="left"><a href="http://news.163.com/"><img src="http://img1.cache.netease.com/cnews/css13/img/end_news.png" alt="netease" width="13" height="12" class="icon"></a> 本文来源：人民网  作者：高翔、银燕、苗亮军</span>

                    <span class="ep-editor">责任编辑：NN102</span>              
 </div>

 </div>

下面贴一下实现的核心代码（但是编码处理部分代码没有贴出）

添加：using ScrapySharp.Extensions;

namespace HtmlAgilityDemo

{

    class Program

    {

        static void Main(string[] args)

        {

            var uri = new Uri("http://news.163.com/14/0413/18/9PNVIBV000014JB6.html");

            var browser1 = new ScrapingBrowser();

            var html1 = browser1.DownloadString(uri);

            var doc = new HtmlDocument();

            doc.LoadHtml(html1);

            var html = doc.DocumentNode;

            var title = html.CssSelect("title");

            foreach (var htmlNode in title)

            {

                Console.WriteLine(htmlNode.InnerText);

            }

            var ps = html.CssSelect("p").CssSelectAncestors("div#endText");

            foreach (var htmlNode in ps)

            {

                Console.WriteLine(htmlNode.InnerHtml);

            }

        }

    }

}

运行后输出：

兰州官方公布自流沟周边地下含油污水形成原因_网易新闻中心

人民网兰州4月13日电 兰州市今天下午召开新闻发布会，初步查明了导致自流沟内水体苯超标的原因。根据环保专家现场初步分析判断，周边地下含油污水是引起自流沟内水体苯超标的直接原因。根据目前的调查情况初步判定，自流沟周边地下含油污水形成的原因有三点：一是原兰化公司原料动力厂原油蒸馏车间R205A#渣油罐曾于1987年12月28日8时50分发生物理爆破事故，罐体破裂造成90立方渣油泻出，其中有34吨渣油跑料未能回收，渗入地下；二是原兰化公司原料动力厂原油蒸馏车间泵B-113出口总管曾于2002年4月3日发生开裂着火，泄漏的渣油及救火过程中产生的大量消防污水渗入地下。另据中新网兰州4月13日电&nbsp; 兰州市“·”局部自来水苯指标超标事故应急处置领导小组副组长郑志强13日说，调查组从11日下午3时开始展开调查工作，采取开挖深坑的方法，查找到了导致水体苯超标的方位。根据环保专家现场初步分析判断，周边地下含油污水是引起自流沟内水体苯超标的直接原因。兰州官方通报称，根据目前的调查情况初步判定，自流沟周边地下含油污水的形成原因有两个：一是原兰化公司原料动力厂原油蒸馏车间R205A#渣油罐(该址原为兰化公司原料动力厂250万吨/年炼油装置，该装置建于1982年，2003年停用，2006年拆除。拆除后，在原址建成现有的40万吨/年芳烃抽提装置，罐区设计分别储存馏份油、轻油、渣油)，曾于1987年12月28日8时50分发生物理爆破事故，罐体破裂造成90立方渣油泄出，其中有34吨渣油跑料未能回收，渗入地下。<!-- AD200x300_2 --> 二是原兰化公司原料动力厂原油蒸馏车间泵B—113出口总管曾于2002年4月3日发生开裂着火，泄漏的渣油(具体数量当时未统计)及救火过程中产生的大量消防污水渗入地下。郑志强说，目前兰州石化现有生产装置及罐区运行正常，未发现物料及产品泄漏现象。生产区域内雨排井、化污系统水封井未发现物料泄漏现象，消防井内发现有少量飘油。事故调查组下一步调查工作的重点是，对从开挖深坑中提取的含油废水组份进行化验，进一步从技术层面核实地下含油污水与自流沟内苯超标水体的关联性。同时，对4号、3号自流沟内的具体泄漏点位进行实地勘查核实，并对造成局部自来水苯超标事件的相关责任单位和责任人进行进一步的调查取证。(完)                                                                                                     本文来源：人民网  作者：高翔、银燕、苗亮军

     责任编辑：NN102

然后看下输出，发现出现残留【 】

部分注释代码未被清除，那么处理一下，

foreach (HtmlNode nodeScripte in node.Descendants("script").ToList())
{

     nodeScripte.Remove();

}

foreach (HtmlNode nodeStyle in node.Descendants("style").ToList())

{

     nodeStyle.Remove();

}

foreach (HtmlNode nodeComment in node.Descendants("//comment()").ToList())

{

    nodeComment.Remove();

}

发现嵌套在其中的注释标签用上面的方法无法清除干净。

那么采用下面方法，

foreach(var script in doc.DocumentNode.Descendants("script").ToArray())
{

    script.Remove();
}

foreach(var style in doc.DocumentNode.Descendants("style").ToArray())
{

    style.Remove();
}

foreach(var comment in doc.DocumentNode.SelectNodes("//comment()").ToArray())
{

    comment.Remove();
}

运行后发现，已经清除干净。

把所有的script、style标签从dom树中去掉（为了解决迭代器在工作时不能从集合中Remove元素的问题，使用ToArray()转换为数组再遍历）。

HtmlAgilityPack是使用XPath语法，"//comment()"在XPath中表示“所有注释节点”。

【补充】获取html中meta标签中的content的内容

一些相关的语句：

1、获取网页title：doc.DocumentNode.SelectSingleNode("//title").InnerText;

　解释：XPath中“//title”表示所有title节点。SelectSingleNode用于获取满足条件的唯一的节点。

2、获取所有的超链接：doc.DocumentNode.Descendants("a")

3、获取name为kw的input，也就是相当于getElementsByName()：

var kwBox = doc.DocumentNode.SelectSingleNode("//input[@name='kw']");

　解释："//input[@name='kw']"也是XPath的语法，表示：name属性等于kw的input标签。

4、其他：

var divs = html.CssSelect("div"); //all div elements

var nodes = html.CssSelect("div.content"); //all div elements with css class ‘content’

var nodes = html.CssSelect("div.widget.monthlist"); //all div elements with the both css class

var nodes = html.CssSelect("#postPaging"); //all HTML elements with the id postPaging

var nodes = html.CssSelect("div#postPaging.testClass"); // all HTML elements with the id postPaging and css class testClass

var nodes = html.CssSelect("div.content > p.para"); //p elements who are direct children of div elements with css class ‘content’

var nodes = html.CssSelect("input[type=text].login"); // textbox with css class login

We can also select ancestors of elements:

var nodes = html.CssSelect("p.para").CssSelectAncestors("div.content > div.widget");

参考链接：

http://www.cnblogs.com/rupeng/archive/2012/02/07/2342012.html

http://www.cnblogs.com/cappuccino/p/3403495.html

http://www.cnblogs.com/dc-lancer/archive/2013/03/27/2985163.html

http://www.cnblogs.com/sswwsw/archive/2012/12/06/2805097.html

http://www.cnblogs.com/linfei721/archive/2013/05/08/3066697.html

http://www.cnblogs.com/cxlings/archive/2013/05/31/3110858.html

爬虫技术 -- 进阶学习（十）网易新闻页面信息抓取（htmlagilitypack搭配scrapysharp）的更多相关文章

网易新闻页面信息抓取 -- htmlagilitypack搭配scrapysharp
最近在弄网页爬虫这方面的,上网看到关于htmlagilitypack搭配scrapysharp的文章,于是决定试一试~ 于是到https://www.nuget.org/packages/Scrapy ...
网易新闻页面信息抓取（htmlagilitypack搭配scrapysharp）
转自原文网易新闻页面信息抓取(htmlagilitypack搭配scrapysharp) 最近在弄网页爬虫这方面的,上网看到关于htmlagilitypack搭配scrapysharp的文章,于是决 ...
爬虫技术 -- 进阶学习（十一）【补充】获取html中meta标签中的content的内容
上一篇网易新闻页面信息抓取 -- htmlagilitypack搭配scrapysharp中提及了很多如何快速抓取html中的文本的语句, 但是meta标签中的content内容的抓取,没有提及到! ...
爬虫技术 -- 进阶学习（九）使用HtmlAgilityPack获取页面链接（附c#代码及插件下载）
菜鸟HtmlAgilityPack初体验...弱弱的代码... Html Agility Pack是一个开源项目,为网页提供了标准的DOM API和XPath导航.使用WebBrowser和HttpW ...
爬虫技术 -- 进阶学习（七）简单爬虫抓取示例（附c#代码）
这是我的第一个爬虫代码...算是一份测试版的代码.大牛大神别喷... 通过给定一个初始的地址startPiont然后对网页进行捕捉,然后通过正则表达式对网址进行匹配. List<string&g ...
python 页面信息抓取
1. 特点在python 解析html这篇文章中已经做了初步的介绍,接下来再坐进一步的说明.python抓取页面信息有下面两个特点: 依赖于HTML的架构. 微小的变化可能会导致抓取失败,这取决于你 ...
爬虫技术 -- 进阶学习（八）模拟简单浏览器（附c#代码）
由于最近在做毕业设计,需要用到一些简单的浏览器功能,于是学习了一下,顺便写篇博客~~大牛请勿喷,菜鸟练练手~ 实现界面如下:(简单朴素版@_@||) button_go实现如下: private vo ...
Python学习之静态页面数据抓取
1 页面信息抓取定义getPage函数,根据传入的页码get到整个页面的html内容 getContent函数,通过正则匹配把页面中的表格部分的html内容取出最后定义getData函数,同样是通 ...
scrapy爬虫学习系列五：图片的抓取和下载
系列文章列表: scrapy爬虫学习系列一:scrapy爬虫环境的准备: http://www.cnblogs.com/zhaojiedi1992/p/zhaojiedi_python_00 ...

随机推荐

Angular企业级开发(5)-项目框架搭建
1.AngularJS Seed项目目录结构 AngularJS官方网站提供了一个angular-phonecat项目,另外一个就是Angular-Seed项目.所以大多数团队会基于Angular-S ...
TSQL Identity 用法全解
Identity是标识值,在SQL Server中,有ID列,ID属性,ID值,ID列的值等术语. Identity属性是指在创建Table时,为列指定的Identity属性,其语法是:column_ ...
Vue.js 2.0 和 React、Augular等其他框架的全方位对比
引言这个页面无疑是最难编写的,但也是非常重要的.或许你遇到了一些问题并且先前用其他的框架解决了.来这里的目的是看看Vue是否有更好的解决方案.那么你就来对了. 客观来说,作为核心团队成员,显然我们会 ...
.NET Core的日志[4]:将日志写入EventLog
面向Windows的编程人员应该不会对Event Log感到陌生,以至于很多人提到日志,首先想到的就是EventLog.EventLog不仅仅记录了Windows系统自身针对各种事件的日志,我们的应用 ...
jQuery动画-圣诞节礼物
▓▓▓▓▓▓ 大致介绍下午看到了一个送圣诞礼物的小动画,正好要快到圣诞节了,就动手模仿并改进了一些小问题原地址:花式轮播----圣诞礼物传送思路:动画中一共有五个礼物,他们平均分布在屏幕中,设置 ...
asp.net mvc 验证码
效果图验证码类 namespace QJW.VerifyCode { //用法: //public FileContentResult CreateValidate() //{ // Validat ...
IOS之Objective-C学习 ARC下的单例模式
单例模式是我常用的一种设计模式,最常见的用途就是用来保存数据并且传递数据.这都归功于单例模式的特性,首先就让我为大家简单介绍一下单例模式的特性. 单例模式的三大特性: 1.某个类只能有一个实例: 2. ...
机器指令翻译成 JavaScript —— No.5 指令变化
上一篇,我们通过内置解释器的方案,解决任意跳转的问题.同时,也提到另一个问题:如果指令发生变化,又该如何应对. 指令自改如果指令加载到 RAM 中,那就和普通数据一样,也是可以随意修改的.然而,对应 ...
MonoTouch 二三事（三）mono mkbundle 打包程序的解包支持
2014.10.06 更新编写了 IDA Pro 的插件,用来解包和打包 mkbundle程序,请参见 https://github.com/binsys/MKBundleManager 许久以后, ...
MyBatis6：MyBatis集成Spring事物管理（下篇）
前言前一篇文章<MyBatis5:MyBatis集成Spring事物管理(上篇)>复习了MyBatis的基本使用以及使用Spring管理MyBatis的事物的做法,本文的目的是在这个的基 ...

爬虫技术 -- 进阶学习（十）网易新闻页面信息抓取（htmlagilitypack搭配scrapysharp）

一些相关的语句：

爬虫技术 -- 进阶学习（十）网易新闻页面信息抓取（htmlagilitypack搭配scrapysharp）的更多相关文章

随机推荐

热门专题