[爬虫]通过url获取连接地址中的数据
1. 要想获取指定连接的数据,那么就得使用HtmlDocument对象,要想使用HtmlDocument对象就必需引用using
HtmlAgilityPack;
2. 详细步骤如下:
步骤一:
获取链接地址内容:
var html =HttpDownLoadHelper.GetUtf8Html("链接地址");
HttpDownLoadHelper类中的内容如下:
public
class
HttpDownLoadHelper
{
///
<summary>
///
根据URL获取一个页面的Html内容
///
</summary>
///
<param name="url"></param>
///
<returns></returns>
public
static
string
GetUtf8Html(string
url)
{
WebClient
wc
=
new
WebClient();
wc.Encoding
=
Encoding.UTF8;
var
html
=
wc.DownloadString(url);
return
html;
}
}
步骤二:
判断获取到的内容是否为空?
步骤三:
获取数据:
·实例化"HtmlDocument
【HTML文档】"对象
HtmlDocument
doc
=
new
HtmlDocument();
·载入获取到的内容
doc.LoadHtml(html);
·获取文档中的根节点
HtmlNode
rootNode
=
doc.DocumentNode;
·从根节点中通过标签获取指定的内容。
HtmlNodeCollection
titleNodes
=
rootNode.SelectNodes("对应的标签");
存储数据:
·创建一个存放数据的List集合
List<NewsList>
newsList=new
List<NewsList>();
NewsList对象的代码如下:
public
class
NewsList
{
public
string
Title { get; set; }
public
string
Url { get; set; }
}
·将数据添加到集合中:
foreach (var
title
in
titleNodes)
{
NewsList
news=new
NewsList();
news.Title
=
title.GetAttributeValue("title", "");
// title是标签的属性
news.Url="http://www.yulinu.edu.cn"+title.GetAttributeValue("href", "");
//href是标签的属性。
newsList.Add(news);
}
具体事例:【获取榆林学院首页中的新闻列表】
HtmlAgilityPack.dll的下载地址:http://htmlagilitypack.codeplex.com/【里面有支持各种.NET Framework的版本的dll。】
·主方法:
public
static
void
Main(string[] args)
{
//创建一个存放新闻的List集合
List<NewsList>
newsList=new
List<NewsList>();
//根据url获取一个页面的Html内容。
var
html
=
HttpDownLoadHelper.GetUtf8Html("http://www.yulinu.edu.cn/news.jsp?urltype=tree.TreeTempUrl&wbtreeid=1036");
//判断是否为空
if (!string.IsNullOrEmpty(html))
{
HtmlDocument
doc
=
new
HtmlDocument(); //实例化html实例对象
doc.LoadHtml(html);//载入html文档
HtmlNode
rootNode
=
doc.DocumentNode; //获取文档中的根节点
//从根节点中通过标签获取指定的内容。
HtmlNodeCollection
titleNodes
=
rootNode.SelectNodes("//div[@class='Classbox List']/ul/li/a");
foreach (var
title
in
titleNodes)
{
NewsList
news=new
NewsList();
news.Title
=
title.GetAttributeValue("title", "");
news.Url
=
"http://www.yulinu.edu.cn"
+
title.GetAttributeValue("href", "");
newsList.Add(news);
}
}
//输出标题和地址
foreach (var
list
in
newsList)
{
Console.WriteLine("新闻标题为:{0},新闻链接地址为:{1}",list.Title,list.Url);
}
Console.WriteLine("总共有{0}条新闻",newsList.Count);
Console.ReadKey();
}
·HttpDownLoadHelper代码如下:
public
class
HttpDownLoadHelper
{
///
<summary>
///
根据URL获取一个页面的Html内容
///
</summary>
///
<param name="url"></param>
///
<returns></returns>
public
static
string
GetUtf8Html(string
url)
{
WebClient
wc
=
new
WebClient();
wc.Encoding
=
Encoding.UTF8;
var
html
=
wc.DownloadString(url);
return
html;
}
}
·NewsList代码如下:
public
class
NewsList
{
public
string
Title { get; set; }
public
string
Url { get; set; }
}
[爬虫]通过url获取连接地址中的数据的更多相关文章
- 获取给定地址中的域名,substring()截取
package seday01;/** * 获取给定地址中的域名 * @author xingsir */public class Test { public static void main(Str ...
- 项目中通过Sorlj获取索引库中的数据
在开发项目中通过使用Solr所提供的Solrj(java客户端)获取索引库中的数据,这才是真正对项目起实质性作用的功能,提升平台的检索性能及检索结果的精确性 第一步,引入相关依赖的jar包 第二步,根 ...
- asp.net网页上获取其中表格中的数据(爬数据)
下面的方法获取页面中表格数据,每个页面不相同,获取的方式(主要是正则表达式)不一样,只是提供方法参考.大神勿喷,刚使用了,就记下来了. 其中数据怎么存,主要就看着怎么使用了.只是方便记录就都放在lis ...
- vue父组件中获取子组件中的数据
<FormItem label="上传头像" prop="image"> <uploadImg :width="150" ...
- Mysql字符串截取_获取指定字符串中的数据
前言:本人遇到一个需求,需要在MySql的字段中截取一段字符串中的特定字符,类似于正则表达式的截取,苦于没有合适的方法,百度之后终于找到一个合适的方法:substring_index('www.sql ...
- win10连接无线网,开启移动热点,手机连接它手机一直显示获取ip地址中。
*必须要有无线网卡才能设置WIFI首先打开电脑,选中“计算机”或者“我的电脑”,右击进入“管理”选项“.打开“计算机管理”窗口之后,在左栏菜单选项中找到“服务和应用程序”下的“服务”选项,如图点击进入 ...
- 如何获取 C# 类中发生数据变化的属性信息
一.前言 在平时的开发中,当用户修改数据时,一直没有很好的办法来记录具体修改了那些信息,只能暂时采用将类序列化成 json 字符串,然后全塞入到日志中的方式,此时如果我们想要知道用户具体改变了哪几个字 ...
- C# 如何获取SQL Server 中指定数据表的所有字段名和字段类型
如何获取指定数据表的所有字段名和字段类型.SqlConnection.GetSchema方法有2个重载形式,获取指定数据表的所有字段名和字段类型的秘密就在GetSchema (String, Stri ...
- c# 通过URl 获取返回的json格式数据
方法一 http://blog.csdn.net/angle_greensky110/article/details/52209497 protected string GetJson(string ...
随机推荐
- 安卓2D游戏开发设置
http://www.cnblogs.com/xiaominghimi/archive/2010/12/23/1921402.html
- H3C交换配置PBR最佳实践
简要说明 PBR算是比较常用的功能,需要我们去掌握一下 配置步骤简要 配置BFD 配置track 配置acl 配置policy-based-route 在接口上面应用policy-based-rout ...
- MySQL show binglog event in 'log_name'
二进制日志文件记录的内容:记录表的更改. 二进制日志文件记录的形式:基于语句的复制.基于行的复制. 两种记录形式的优点与不足: 基于语句的复制-->它不能保证复制的正确性.如随机函数可能在两台机 ...
- 简单介绍一下ODI的几个基本概念
简单介绍一下ODI的几个基本概念 ODI的几个基本概念是本文我们主要要介绍的内容,接下来我们就开始介绍这一过程,一起来看看吧! 什么是资料库 ODI资料库可安装在任何支持ANSIISO89的数据库 ...
- VS2010/MFC对话框:颜色对话框
颜色对话框 在上一节中为大家讲解了字体对话框的使用方法,熟悉了字体对话框,本节继续讲另一种通用对话框--颜色对话框. 颜色对话框大家肯定也不陌生,我们可以打开它选择需要的颜色,简单说,它的作用就是用来 ...
- 第七届河南省赛10402: C.机器人(扩展欧几里德)
10402: C.机器人 Time Limit: 2 Sec Memory Limit: 128 MB Submit: 53 Solved: 19 [Submit][Status][Web Boa ...
- Oracle 11g 的server结果缓存result_cache_mode
对于常常要查的结果集,返回少量记录,server端是能够缓存的,结果集保存在共享池中,假设是绑定变量,绑定变量的值也要一样. SQL> show parameter result_cache N ...
- 图画hadoop -- 生态圈
- linux下用mail发送邮件
利用外部邮箱发送邮件的方法 bin/mail会默认使用本地sendmail发送邮件,这样要求本地的机器必须安装和启动Sendmail服务,配置很麻烦,并且会带来不必要的 资源占用.而通过改动配置文件能 ...
- Head First设计模式学习笔记
最近在学C++,直接语法之后觉得不太有意思,直接做项目又觉得太肤浅.正好之前一直想学设计模式来着,可惜之前一直在玩C,所以没有机会深入学习,于是决定用C++把设计写一遍.看了点GOF的<设计模式 ...