Jumony快速抓取网页 --- Jumony使用笔记--icode

作者：郝喜路个人主页：http://www.cnicode.com 博客地址：http://haoxilu.cnblogs.com 时间：2014年6月26日 19:25:02

　　刚刚在博客园看到一篇博文《使用HttpWebRequest和HtmlAgilityPack抓取网页（拒绝乱码，拒绝正则表达式）》，感觉不错，作者写的也挺好的，然后在看了园子里的朋友的评论后，我知道了有一个更牛x的工具——Jumony 。这个工具用起来可谓称之为简单、高效。特此记录和分享，Jumony 的使用方法。

　　Jumony是开源项目，目前源代码存放咋GitHub ，源码地址： https://github.com/Ivony/Jumony 。我测试使用的是Visual Studio 2012 ,测试网页为博客园。

　　下面介绍使用方法：

　　一、在新建项目后，需要将Jumony添加到项目中，你可以下载源码使用，也可以在NugGet 中搜索 Jumony Core 将其添加到项目中并且后自动添加所需的引用。

　　二、添加引用之后，即可写项目代码。（此处代码为获取博客园首页文章内容）

 1  public string Html = string.Empty;//为将拼接好html字符串返回给前台代码

 2         protected void Page_Load(object sender, EventArgs e)

 3         {
 5             var htmlSource = new JumonyParser().LoadDocument("http://www.cnblogs.com").Find(".post_item a.titlelnk");

 6             int count = 0;

 7             foreach (var htmlElement in htmlSource)

 8             {

 9                 count ++;

10                 Html += string.Format(" <li>{2}、&nbsp;&nbsp;<a href=\"About.aspx?Url={0}\" target=\"_blank\">{1}</a></li>", htmlElement.Attribute("href").Value(), htmlElement.InnerText(),count);

11             }

12         }

　　效果图：

　　三、下面就是要在点击上图从博客园抓取的文章标题之后，在显示博客全文（并非在打开博客园的文章）

　　　　代码：　　　

1   string html = Request["Url"];

2             var htmlSource =

3                 new JumonyParser().LoadDocument(html);

4             HtmlText = htmlSource.Find(".postTitle2").FirstOrDefault().InnerText();

5

6             Html = htmlSource.Find("#cnblogs_post_body").FirstOrDefault().InnerHtml();

效果图：

　　到此，网页抓取写完了，没有什么深奥的道理，只是把他的使用方法简单的把代码贴出来了，还没有研究其源码，有时间需要深究一下。

　　Jumony更多的使用方式请参见博客 http://www.cnblogs.com/Ivony/p/3447536.html

　　本次演示Jumony快速开发的代码如下（在百度云盘，请自行下载：）：

　　　　http://pan.baidu.com/s/1COuCI

　　谢谢！

作者：郝喜路
出处：http://haoxilu.cnblogs.com/

Jumony快速抓取网页的更多相关文章

Jumony快速抓取网页 --- Jumony使用笔记--icode
作者:郝喜路个人主页:http://www.cnicode.com 博客地址:http://haoxilu.cnblogs.com 时间:2014年6月26日 19:25:02 ...
利用pandas库中的read_html方法快速抓取网页中常见的表格型数据
本文转载自:https://www.makcyun.top/web_scraping_withpython2.html 需要学习的地方: (1)read_html的用法作用:快速获取在html中页面 ...
python3.6 使用newspaper库的Article包来快速抓取网页的文章或者新闻等正文
我主要是用了两个方法来抽去正文内容,第一个方法,诸如xpath,css,正则表达式,beautifulsoup来解析新闻页面的时候,总是会遇到这样那样各种奇奇怪怪的问题,让人很头疼.第二个方法是后面标 ...
使用selenium webdriver+beautifulsoup+跳转frame，实现模拟点击网页下一页按钮，抓取网页数据
记录一次快速实现的python爬虫,想要抓取中财网数据引擎的新三板板块下面所有股票的公司档案,网址为http://data.cfi.cn/data_ndkA0A1934A1935A1986A1995. ...
[原创]adb使用教程v1.1.0-----by-----使用logcat快速抓取android崩溃日志
原文再续,书接上回:<使用logcat快速抓取android崩溃日志>中提到的工具包可以下载拉~ <使用logcat快速抓取android崩溃日志>:http://www.cn ...
Python爬虫练习(多线程，进程，协程抓取网页)
详情点我跳转关注公众号"轻松学编程"了解更多. 一.多线程抓取网页流程:a.设置种子url b.获取区域列表 c.循环区域列表 d.创建线程获取页面数据 e.启动线程 impo ...
Java 抓取网页中的内容【持续更新】
背景:前几天复习Java的时候看到URL类,当时就想写个小程序试试,迫于考试没有动手,今天写了下,感觉还不错内容1. 抓取网页中的URL 知识点:Java URL+ 正则表达式 import jav ...
C语言调用curl库抓取网页图片
思路是先用curl抓取网页源码,然后以关键字寻找出图片网址. #include <stdio.h> #include <stdlib.h> #include <str ...
[转载]爬虫的自我解剖(抓取网页HtmlUnit)
网络爬虫第一个要面临的问题,就是如何抓取网页,抓取其实很容易,没你想的那么复杂,一个开源HtmlUnit包,4行代码就OK啦,例子如下: 1 2 3 4 final WebClient webClie ...

随机推荐

HDU 2120 Ice_cream's world I(并检查集合)
职务地址:HDU 2120 这题尽管字数不多,但就是看不懂. . 意思是求最多有多少个被墙围起来的区域.显然就是求环的个数.然后用并查集求环个数就能够了. 代码例如以下: #include <i ...
XML DTD详解（转）
前情提要与本文内容介绍前面的两篇XML相关博文: 第一篇是介绍格式正规的XML: 格式正规的XML:语法属性实体处理指令样式单 CDATA节第二篇介绍DTD,引入有效的XML的概念(符合语 ...
Ubuntu设置交换空间參考教程[图]
假设你当前使用的Ubuntu系统,不管是虚拟机还是实体机,没有交换分区或交换分区空间不足,能够为其设置交换空间. 本文提供的是一种设置交换空间的简单方法. 如若转载,请注明博文地址及原作者(Risin ...
quick-cocos2d-x游戏开发【6】——制作您自己的自定义效果button菜单
前面提到的主菜单使用,还是很easy的,但我们在商业产品.经常看到button他们人很好,照片不仅就好了,和动画也很不错.Candy Crash都玩过吧,他们看到,button.真的像果冻,效果确实非 ...
Mac OS X中报：java.io.UnixFileSystem.createFileExclusively(Native Method)的简单原因
这个博客太简单了!想到可能有其它朋友也遇到这个问题,就记录一下. 今天把一个之前在Windows上的Java项目放到Mac OS X上执行,本来认为应该非常easy的事情,结果还是报: Excepti ...
ASP.NET MVC+EF框架+EasyUI实现权限管理系列(7)-DBSession的封装
原文:ASP.NET MVC+EF框架+EasyUI实现权限管理系列(7)-DBSession的封装 ASP.NET MVC+EF框架+EasyUI实现权限管系列 (开篇) (1):框架搭建 ...
hdu 2191 (多重背包+二进制优化)
Problem Description 急!灾区的食物依然短缺!为了挽救灾区同胞的生命,心系灾区同胞的你准备自己采购一些粮食支援灾区,现在假设你一共有资金n元,而市场有m种大米,每种大米都是袋装产品, ...
sql server 更新表，每天的数据分固定批次设置批次号sql
按表中的字段 UpdateTime 按每天进行编号,每天的编号都从1开始编号,并附带表的主键 cid,把数据存入临时表中 WITH temp AS (SELECT cid,updatetime, RO ...
Java设计模式菜鸟系列(四)工厂方法模式建模与实现
转载请注明出处:http://blog.csdn.net/lhy_ycu/article/details/39760895 工厂方法模式(Factory Method) 工厂方法:顾名思义,就是调用工 ...
朴素UNIX之-打开历史
它可以毫不夸张地说,,UNIX模型是现代操作系统的原型.无论是真实的UNIX让我们大系列AIX,Solaris,HP-UX,FreeBSD,NetBSD,...或类别UNIX实例Linux...或基于 ...

Jumony快速抓取网页

Jumony快速抓取网页 --- Jumony使用笔记--icode

Jumony快速抓取网页的更多相关文章

随机推荐

热门专题