Jumony快速抓取网页 --- Jumony使用笔记--icode

作者：郝喜路个人主页：http://www.cnicode.com 博客地址：http://haoxilu.cnblogs.com 时间：2014年6月26日 19:25:02

　　刚刚在博客园看到一篇博文《使用HttpWebRequest和HtmlAgilityPack抓取网页（拒绝乱码，拒绝正则表达式）》，感觉不错，作者写的也挺好的，然后在看了园子里的朋友的评论后，我知道了有一个更牛x的工具——Jumony 。这个工具用起来可谓称之为简单、高效。特此记录和分享，Jumony 的使用方法。

　　Jumony是开源项目，目前源代码存放咋GitHub ，源码地址： https://github.com/Ivony/Jumony 。我测试使用的是Visual Studio 2012 ,测试网页为博客园。

　　下面介绍使用方法：

　　一、在新建项目后，需要将Jumony添加到项目中，你可以下载源码使用，也可以在NugGet 中搜索 Jumony Core 将其添加到项目中并且后自动添加所需的引用。

　　二、添加引用之后，即可写项目代码。（此处代码为获取博客园首页文章内容）

  public string Html = string.Empty;//为将拼接好html字符串返回给前台代码

         protected void Page_Load(object sender, EventArgs e)

         {
             var htmlSource = new JumonyParser().LoadDocument("http://www.cnblogs.com").Find(".post_item a.titlelnk");

             int count = ;

             foreach (var htmlElement in htmlSource)

             {

                 count ++;

                 Html += string.Format(" <li>{2}、&nbsp;&nbsp;<a href=\"About.aspx?Url={0}\" target=\"_blank\">{1}</a></li>", htmlElement.Attribute("href").Value(), htmlElement.InnerText(),count);

             }

         }

　　效果图：

　　三、下面就是要在点击上图从博客园抓取的文章标题之后，在显示博客全文（并非在打开博客园的文章）

　　　　代码：　　　

   string html = Request["Url"];

             var htmlSource =

                 new JumonyParser().LoadDocument(html);

             HtmlText = htmlSource.Find(".postTitle2").FirstOrDefault().InnerText();

             Html = htmlSource.Find("#cnblogs_post_body").FirstOrDefault().InnerHtml();

效果图：

　　到此，网页抓取写完了，没有什么深奥的道理，只是把他的使用方法简单的把代码贴出来了，还没有研究其源码，有时间需要深究一下。

　　Jumony更多的使用方式请参见博客 http://www.cnblogs.com/Ivony/p/3447536.html

　　本次演示Jumony快速开发的代码如下（在百度云盘，请自行下载：）：

　　　　http://pan.baidu.com/s/1COuCI

　　谢谢！

Jumony快速抓取网页 --- Jumony使用笔记--icode的更多相关文章

Jumony快速抓取网页
Jumony快速抓取网页 --- Jumony使用笔记--icode 作者:郝喜路个人主页:http://www.cnicode.com 博客地址:http://haoxilu.c ...
利用pandas库中的read_html方法快速抓取网页中常见的表格型数据
本文转载自:https://www.makcyun.top/web_scraping_withpython2.html 需要学习的地方: (1)read_html的用法作用:快速获取在html中页面 ...
python3.6 使用newspaper库的Article包来快速抓取网页的文章或者新闻等正文
我主要是用了两个方法来抽去正文内容,第一个方法,诸如xpath,css,正则表达式,beautifulsoup来解析新闻页面的时候,总是会遇到这样那样各种奇奇怪怪的问题,让人很头疼.第二个方法是后面标 ...
用python做网页抓取与解析入门笔记[zz]
(from http://chentingpc.me/article/?id=961) 事情的起因是,我做survey的时候搜到了这两本书:Computational Social Network A ...
java抓取网页数据，登录之后抓取数据。
最近做了一个从网络上抓取数据的一个小程序.主要关于信贷方面,收集的一些黑名单网站,从该网站上抓取到自己系统中. 也找了一些资料,觉得没有一个很好的,全面的例子.因此在这里做个笔记提醒自己. 首先需要一 ...
[原创]adb使用教程v1.0-----by-----使用logcat快速抓取android崩溃日志
原文再续,书接上回:<使用logcat快速抓取android崩溃日志>中提到的工具包可以下载拉~ <使用logcat快速抓取android崩溃日志>:http://www.cn ...
使用selenium webdriver+beautifulsoup+跳转frame，实现模拟点击网页下一页按钮，抓取网页数据
记录一次快速实现的python爬虫,想要抓取中财网数据引擎的新三板板块下面所有股票的公司档案,网址为http://data.cfi.cn/data_ndkA0A1934A1935A1986A1995. ...
[原创]adb使用教程v1.1.0-----by-----使用logcat快速抓取android崩溃日志
原文再续,书接上回:<使用logcat快速抓取android崩溃日志>中提到的工具包可以下载拉~ <使用logcat快速抓取android崩溃日志>:http://www.cn ...
Python爬虫练习(多线程，进程，协程抓取网页)
详情点我跳转关注公众号"轻松学编程"了解更多. 一.多线程抓取网页流程:a.设置种子url b.获取区域列表 c.循环区域列表 d.创建线程获取页面数据 e.启动线程 impo ...

随机推荐

AngularJs自定义指令详解（5） - link
在指令中操作DOM,我们需要link参数,这参数要求声明一个函数,称之为链接函数. 写法: link: function(scope, element, attrs) { // 在这里操作DOM} 如 ...
安装memcache扩展
今天早上去公司打开新项目,结果提示"Class 'Memcache' not found",于是上网搜了下这是怎么回事?现在在这里记录一下解决过程,以备查询,也希望能帮助到遇到相同 ...
Asp.net操作cookie大全
实例代码: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 3 ...
CSS 部件
1.导航菜单: [荐]抽屉式菜单 jQuery.mmenu jQuery.mmenu 实现了类似手机上经常使用的抽屉式菜单,效果很好.http://mmenu.frebsite.nl/ 2.jQuer ...
linux系统编程之错误处理机制
在讲解liunx错误处理机制之前我们先来看一段代码: #include<sys/types.h> #include<sys/stat.h> #include<fcntl. ...
jQuery选择器引擎和Sizzle介绍
一.前言 Sizzle原来是jQuery里面的选择器引擎,后来逐渐独立出来,成为一个独立的模块,可以自由地引入到其他类库中.我曾经将其作为YUI3里面的一个module,用起来畅通无阻,没有任何障碍. ...
JS-数组的方法
var arr = [ 1,2,3 ];arr.push( 'abc' );//从后面加 arr.unshift( 0 );//从前面加 arr.pop()//从后面删除 arr.shift()//从 ...
Win7 64位 VS2013环境编译Lua5.3.1
主要参考这篇文章,原文有几个错误顺便改正了. 在Windows下使用Visual Studio编译Lua5.3 写本文时Lua官方网站放出的新版本为5.3.1,然后我不知道为啥,神奇的国内不能访问Lu ...
使用jigdo下载debian [windows环境下]
使用jigdo下载debian 本文地址:http://www.cnblogs.com/yhLinux/p/4104451.html 准备工作: 下载jigdo:http://atterer.org ...
C# 获取本机指定类型指定网卡的Ip地址
1.简单方式 ,适用于单网卡 string hostName = Dns.GetHostName(); IPAddress[] addresses = Dns.GetHostAddresses(hos ...

Jumony快速抓取网页 --- Jumony使用笔记--icode

Jumony快速抓取网页 --- Jumony使用笔记--icode的更多相关文章

随机推荐

热门专题