最近在弄网页爬虫这方面的,上网看到关于htmlagilitypack搭配scrapysharp的文章,于是决定试一试~

于是到https://www.nuget.org/packages/ScrapySharp去看看,

看到这句下载提示:To install ScrapySharp, run the following command in the Package Manager Console

PM> Install-Package ScrapySharp

接下去我就去找package manager console,(http://docs.nuget.org/docs/start-here/using-the-package-manager-console

操作说明:From the Tools menu, select Library Package Manager and then click Package Manager Console.

发现还没装~@_@!!

那么就去装一下插件吧!阅读了这篇博文http://www.cnblogs.com/baiyu/archive/2011/09/07/2170028.html

一、 安装Nuget

  1. Visual studio 2012-> Tool-> Extension Manager。

  2. 选择Online Gallery,在右上角的搜索中输入Nuget,之后按提示安装即可。

  3. 安装之后菜单View-> Other windows中会出现Package Manager Console, 这是一个集成到VS中的控制台工具。

注意:在选择ScrapySharp的版本的时候也要考虑htmlAgilityPack的版本 

附:scrapySharp官网链接:https://www.nuget.org/packages/ScrapySharp

于是,继续操作Tools->Library Package Manager->Package Manager Console

PM> Install-Package HtmlAgilityPack
正在安装“HtmlAgilityPack 1.4.6”。
已成功安装“HtmlAgilityPack 1.4.6”。
正在将“HtmlAgilityPack 1.4.6”添加到 WindowsFormsDemo0320。
已成功将“HtmlAgilityPack 1.4.6”添加到 WindowsFormsDemo0320。
PM> Install-Package ScrapySharp
正在尝试解析依赖项“HtmlAgilityPack (≥ 1.4.6)”。
正在安装“ScrapySharp 2.2.63”。
已成功安装“ScrapySharp 2.2.63”。
正在将“ScrapySharp 2.2.63”添加到 WindowsFormsDemo0320。
已成功将“ScrapySharp 2.2.63”添加到 WindowsFormsDemo0320。

接下来开始进行抓取,

原始网页是网易一新闻网页:http://news.163.com/14/0413/18/9PNVIBV000014JB6.html

下面实现的效果是,抓取title标签的内容和正文内容(也就是<div id="endText">…(捕捉<p></p>中间的内容)…</div>)

捕捉title的时候需要注意,有时候一个网页不只一对title标签!!

但是,其实网易新闻页面显示的标题存储的标签<h1 id="hltitle">……</h1>

所以提取标题的核心代码为

String title = doc.DocumentNode.SelectSingleNode("//h1[@id='h1title']").InnerText;

捕捉正文内容的核心代码:

html.CssSelect("p").CssSelectAncestors("div#endText");

下面看下该新闻页面正文部分的html代码:

<div id="endText"></p><p>人民网兰州4月13日电 兰州市今天下午召开新闻发布会,初步查明了导致自流沟内水体苯超标的原因。根据环保专家现场初步分析判断,周边地下含油污水是引起自流沟内水体苯超标的直接原因。</p><p>根据目前的调查情况初步判定,自流沟周边地下含油污水形成的原因有三点:一是原兰化公司原料动力厂原油蒸馏车间R205A#渣油罐曾于1987年12月28日8时50分发生物理爆破事故,罐体破裂造成90立方渣油泻出,其中有34吨渣油跑料未能回收,渗入地下;二是原兰化公司原料动力厂原油蒸馏车间泵B-113出口总管曾于2002年4月3日发生开裂着火,泄漏的渣油及救火过程中产生的大量消防污水渗入地下。</p><p>另据中新网兰州4月13日电&nbsp; 兰州市“4·11”局部自来水苯指标超标事故应急处置领导小组副组长郑志强13日说,调查组从11日下午3时开始展开调查工作,采取开挖深坑的方法,查找到了导致水体苯超标的方位。根据环保专家现场初步分析判断,周边地下含油污水是引起自流沟内水体苯超标的直接原因。</p><p>兰州官方通报称,根据目前的调查情况初步判定,自流沟周边地下含油污水的形成原因有两个:</p><p>一是原兰化公司原料动力厂原油蒸馏车间R205A#渣油罐(该址原为兰化公司原料动力厂250万吨/年炼油装置,该装置建于1982年,2003年停用,2006年拆除。拆除后,在原址建成现有的40万吨/年芳烃抽提装置,罐区设计分别储存馏份油、轻油、渣油),曾于1987年12月28日8时50分发生物理爆破事故,罐体破裂造成90立方渣油泄出,其中有34吨渣油跑料未能回收,渗入地下。</p><p><!-- AD200x300_2 -->
<div class="gg200x300">
<iframe src="http://g.163.com/r?site=netease&affiliate=news&cat=article&type=logo300x250&location=13" width="300" height="250" frameborder="no" border="0" marginwidth="0" marginheight="0" scrolling="no"> </iframe>
</div><p>二是原兰化公司原料动力厂原油蒸馏车间泵B—113出口总管曾于2002年4月3日发生开裂着火,泄漏的渣油(具体数量当时未统计)及救火过程中产生的大量消防污水渗入地下。</p><p>郑志强说,目前兰州石化现有生产装置及罐区运行正常,未发现物料及产品泄漏现象。生产区域内雨排井、化污系统水封井未发现物料泄漏现象,消防井内发现有少量飘油。</p><p>事故调查组下一步调查工作的重点是,对从开挖深坑中提取的含油废水组份进行化验,进一步从技术层面核实地下含油污水与自流沟内苯超标水体的关联性。同时,对4号、3号自流沟内的具体泄漏点位进行实地勘查核实,并对造成局部自来水苯超标事件的相关责任单位和责任人进行进一步的调查取证。(完)</p>
<div class="ep-source cDGray">
<span class="left"><a href="http://news.163.com/"><img src="http://img1.cache.netease.com/cnews/css13/img/end_news.png" alt="netease" width="13" height="12" class="icon"></a> 本文来源:人民网 作者:高翔、银燕、苗亮军</span>
<span class="ep-editor">责任编辑:NN102</span>
</div>
</div>

下面贴一下实现的核心代码(但是编码处理部分代码没有贴出)

添加 :using ScrapySharp.Extensions;

namespace HtmlAgilityDemo
{
class Program
{
static void Main(string[] args)
{
var uri = new Uri("http://news.163.com/14/0413/18/9PNVIBV000014JB6.html");
var browser1 = new ScrapingBrowser();
var html1 = browser1.DownloadString(uri);
var doc = new HtmlDocument();
doc.LoadHtml(html1);
var html = doc.DocumentNode; var title = html.CssSelect("title");
foreach (var htmlNode in title)
{
Console.WriteLine(htmlNode.InnerText);
} var ps = html.CssSelect("p").CssSelectAncestors("div#endText");
foreach (var htmlNode in ps)
{
Console.WriteLine(htmlNode.InnerHtml);
}
}
}
}

运行后输出:

兰州官方公布自流沟周边地下含油污水形成原因_网易新闻中心

人民网兰州4月13日电 兰州市今天下午召开新闻发布会,初步查明了导致自流沟内水体苯超标的原因。根据环保专家现场初步分析判断,周边地下含油污水是引起自流沟内水体苯超标的直接原因。根据目前的调查情况初步判定,自流沟周边地下含油污水形成的原因有三点:一是原兰化公司原料动力厂原油蒸馏车间R205A#渣油罐曾于1987年12月28日8时50分发生物理爆破事故,罐体破裂造成90立方渣油泻出,其中有34吨渣油跑料未能回收,渗入地下;二是原兰化公司原料动力厂原油蒸馏车间泵B-113出口总管曾于2002年4月3日发生开裂着火,泄漏的渣油及救火过程中产生的大量消防污水渗入地下。另据中新网兰州4月13日电&nbsp; 兰州市“4·11”局部自来水苯指标超标事故应急处置领导小组副组长郑志强13日说,调查组从11日下午3时开始展开调查工作,采取开挖深坑的方法,查找到了导致水体苯超标的方位。根据环保专家现场初步分析判断,周边地下含油污水是引起自流沟内水体苯超标的直接原因。兰州官方通报称,根据目前的调查情况初步判定,自流沟周边地下含油污水的形成原因有两个:一是原兰化公司原料动力厂原油蒸馏车间R205A#渣油罐(该址原为兰化公司原料动力厂250万吨/年炼油装置,该装置建于1982年,2003年停用,2006年拆除。拆除后,在原址建成现有的40万吨/年芳烃抽提装置,罐区设计分别储存馏份油、轻油、渣油),曾于1987年12月28日8时50分发生物理爆破事故,罐体破裂造成90立方渣油泄出,其中有34吨渣油跑料未能回收,渗入地下。<!-- AD200x300_2 --> 二是原兰化公司原料动力厂原油蒸馏车间泵B—113出口总管曾于2002年4月3日发生开裂着火,泄漏的渣油(具体数量当时未统计)及救火过程中产生的大量消防污水渗入地下。郑志强说,目前兰州石化现有生产装置及罐区运行正常,未发现物料及产品泄漏现象。生产区域内雨排井、化污系统水封井未发现物料泄漏现象,消防井内发现有少量飘油。事故调查组下一步调查工作的重点是,对从开挖深坑中提取的含油废水组份进行化验,进一步从技术层面核实地下含油污水与自流沟内苯超标水体的关联性。同时,对4号、3号自流沟内的具体泄漏点位进行实地勘查核实,并对造成局部自来水苯超标事件的相关责任单位和责任人进行进一步的调查取证。(完)                                                                                                     本文来源:人民网  作者:高翔、银燕、苗亮军
责任编辑:NN102

然后看下输出,发现出现残留【<!-- AD200x300_2 --> 】

部分注释代码未被清除,那么处理一下,

foreach (HtmlNode nodeScripte in node.Descendants("script").ToList())
{
nodeScripte.Remove();
}
foreach (HtmlNode nodeStyle in node.Descendants("style").ToList())
{
nodeStyle.Remove();
}
foreach (HtmlNode nodeComment in node.Descendants("//comment()").ToList())
{
nodeComment.Remove();
}

发现嵌套在其中的注释标签用上面的方法无法清除干净。

那么采用下面方法,

foreach(var script in doc.DocumentNode.Descendants("script").ToArray())
{
script.Remove();
}
foreach(var style in doc.DocumentNode.Descendants("style").ToArray())
{
style.Remove();
}
foreach(var comment in doc.DocumentNode.SelectNodes("//comment()").ToArray())
{
comment.Remove();
}

运行后发现,已经清除干净。

把所有的script、style标签从dom树中去掉(为了解决迭代器在工作时不能从集合中Remove元素的问题,使用ToArray()转换为数组再遍历)。

HtmlAgilityPack是使用XPath语法,"//comment()"在XPath中表示“所有注释节点”。

【补充】获取html中meta标签中的content的内容

一些相关的语句:

1、获取网页title:doc.DocumentNode.SelectSingleNode("//title").InnerText;

  解释:XPath中“//title”表示所有title节点。SelectSingleNode用于获取满足条件的唯一的节点。

2、获取所有的超链接:doc.DocumentNode.Descendants("a")

3、获取name为kw的input,也就是相当于getElementsByName():

var kwBox = doc.DocumentNode.SelectSingleNode("//input[@name='kw']");

  解释:"//input[@name='kw']"也是XPath的语法,表示:name属性等于kw的input标签。

4、其他:

var divs = html.CssSelect("div");  //all div elements

var nodes = html.CssSelect("div.content"); //all div elements with css class ‘content’

var nodes = html.CssSelect("div.widget.monthlist"); //all div elements with the both css class

var nodes = html.CssSelect("#postPaging"); //all HTML elements with the id postPaging

var nodes = html.CssSelect("div#postPaging.testClass"); // all HTML elements with the id postPaging and css class testClass

var nodes = html.CssSelect("div.content > p.para"); //p elements who are direct children of div elements with css class ‘content’

var nodes = html.CssSelect("input[type=text].login"); // textbox with css class login

We can also select ancestors of elements:

var nodes = html.CssSelect("p.para").CssSelectAncestors("div.content > div.widget");

参考链接:

http://www.cnblogs.com/rupeng/archive/2012/02/07/2342012.html

http://www.cnblogs.com/cappuccino/p/3403495.html

http://www.cnblogs.com/dc-lancer/archive/2013/03/27/2985163.html

http://www.cnblogs.com/sswwsw/archive/2012/12/06/2805097.html

http://www.cnblogs.com/linfei721/archive/2013/05/08/3066697.html

http://www.cnblogs.com/cxlings/archive/2013/05/31/3110858.html

网易新闻页面信息抓取 -- htmlagilitypack搭配scrapysharp的更多相关文章

  1. 网易新闻页面信息抓取(htmlagilitypack搭配scrapysharp)

    转自原文 网易新闻页面信息抓取(htmlagilitypack搭配scrapysharp) 最近在弄网页爬虫这方面的,上网看到关于htmlagilitypack搭配scrapysharp的文章,于是决 ...

  2. 爬虫技术 -- 进阶学习(十)网易新闻页面信息抓取(htmlagilitypack搭配scrapysharp)

    最近在弄网页爬虫这方面的,上网看到关于htmlagilitypack搭配scrapysharp的文章,于是决定试一试~ 于是到https://www.nuget.org/packages/Scrapy ...

  3. python 页面信息抓取

    1. 特点 在python 解析html这篇文章中已经做了初步的介绍,接下来再坐进一步的说明.python抓取页面信息有下面两个特点: 依赖于HTML的架构. 微小的变化可能会导致抓取失败,这取决于你 ...

  4. Python学习之静态页面数据抓取

    1 页面信息抓取 定义getPage函数,根据传入的页码get到整个页面的html内容 getContent函数,通过正则匹配把页面中的表格部分的html内容取出 最后定义getData函数,同样是通 ...

  5. 网页信息抓取进阶 支持Js生成数据 Jsoup的不足之处

    转载请标明出处:http://blog.csdn.net/lmj623565791/article/details/23866427 今天又遇到一个网页数据抓取的任务,给大家分享下. 说道网页信息抓取 ...

  6. Ajax异步信息抓取方式

    淘女郎模特信息抓取教程 源码地址: cnsimo/mmtao 网址:https://0x9.me/xrh6z   判断一个页面是不是Ajax加载的方法: 查看网页源代码,查找网页中加载的数据信息,如果 ...

  7. Atitit.web的自动化操作与信息抓取 attilax总结

    Atitit.web的自动化操作与信息抓取 attilax总结 1. Web操作自动化工具,可以简单的划分为2大派系: 1.录制回放 2.手工编写0 U' z; D! s2 d/ Q! ^1 2. 常 ...

  8. 网页信息抓取 Jsoup的不足之处 httpunit

    今天又遇到一个网页数据抓取的任务,给大家分享下. 说道网页信息抓取,相信Jsoup基本是首选的工具,完全的类JQuery操作,让人感觉很舒服.但是,今天我们就要说一说Jsoup的不足. 1.首先我们新 ...

  9. 接口测试——fiddler对soapui请求返回信息抓取

    原文:接口测试——fiddler对soapui请求返回信息抓取 背景:接口测试的时候,需要对接口的请求和返回信息进行查阅或者修改请求信息,可利用fiddler抓包工具对soapui的请求数据进行抓取或 ...

随机推荐

  1. Leetcode#106 Construct Binary Tree from Inorder and Postorder Traversal

    原题地址 二叉树基本操作 [       ]O[              ] [       ][              ]O 代码: TreeNode *restore(vector<i ...

  2. C++实现CString和string的互相转换

    CString->std::string 例子: CString strMfc=“test“; std::string strStl; strStl=strMfc.GetBuffer(0); u ...

  3. iOS开发之runtime的运用-获取当前网络状态

    之前写过runtime的一些东西,这次通过runtime获取一些苹果官方不想让你拿到的东西,比如,状态栏内部的控件属性.本文将通过runtime带你一步步拿到状态栏中显示网络状态的控件,然后通过监测该 ...

  4. input输入框的border-radius属性在IE8下的完美兼容

    在工作中我们发现搜索框大部分都是有圆角的,为此作为经验不足的前端人员很容易就想到,给input标签添加border-radius属性不就解决了嘛.不错方法确实是这样,但是不要忘了border-radi ...

  5. 安装WINCC6.0的步骤

    安装WINCC6.0/6.2的步骤 (XP不能是HOME版的!!!) 1.    首先安装SQL FOR WINCC6.0/6.2这个软件(如果你的系统已安装此软件相关版本可能提示安装失败请卸载后再重 ...

  6. delphi 网络函数

    Delphi网络函数 unit net; interfaceusessysutils,windows,dialogs,winsock,classes,comobj,wininet; //得到本机的局域 ...

  7. iOS-xib(使用XIB自定义一个UIView )

    1.新建一个xib视图

  8. 这个东西,写C++插件的可以用到。 RapidJSON —— C++ 快速 JSON 解析器和生成器

    点这里 原文: RapidJSON —— C++ 快速 JSON 解析器和生成器 时间 2015-04-05 07:33:33  开源中国新闻原文  http://www.oschina.net/p/ ...

  9. Android的事件处理机制详解(二)-----基于监听的事件处理机制

    基于监听的事件处理机制 前言: 我们开发的app更多的时候是需要与用户的交互----即对用户的操作进行响应 这就涉及到了android的事件处理机制; android给我们提供了两套功能强大的处理机制 ...

  10. CAS登录后回传除了ticket参数以外的其他自定义参数

    在一次项目的技术选型中,选择了easyui+cas+shiro+spring的组合,cas实现了单点登录,这使得在一个应用中嵌入另一个应用的页面来展示数据所涉及到的授权方面变得简单. 由于shiro在 ...