ASP.NET网页抓取数据

我的数据通过一个TextBox输入，这些代码是写在一个button的点击事件里的。

网页数据抓取大概分为两步，第一步是获取网页源代码：

具体注释如下：

var currentUrl = TextBox1.Text;//获得要抓取的网页的URL地址

var request = WebRequest.Create(currentUrl) as HttpWebRequest;//请求对象
var response=request.GetResponse()as HttpWebResponse;//定义页面回应对象

var encode = string.Empty;

encode = response.CharacterSet;//获得网页的编码

Stream stream;//数据流
        if (response.ContentEncoding.ToLower() == "gzip")
        {
            stream = new GZipStream(response.GetResponseStream(),    CompressionMode.Decompress);
        }
        else {
            stream = response.GetResponseStream();
        }//解压缩
        var sr = new StreamReader(stream,Encoding.GetEncoding(encode));//定义数据流读取对象
        var html = sr.ReadToEnd();
        sr.Close();
        HtmlDocument document=new HtmlDocument();
        document.LoadHtml(html);//将数据存入document

得到了网页源代码，接下来就是对其解析，就是第二步：

解析可以使用正则表达式或是Spilt等字符串操作方法。

根据源代码写出的Xpath，利用节点得到位于两个节点之间的数据：

我的对象网页就是我的博客主页http://home.cnblogs.com/u/xuwanghu/

string sumLine = document.DocumentNode.SelectSingleNode("//body//ul[@id='user_profile']").InnerText;

string yuanlin = sumLine2.ToString().Split(':')[0].Split('博')[0];

这样子，就将园龄存入了yuanlin，也就实现了抓取网页数据的功能。

ASP.NET网页抓取数据的更多相关文章

爬虫学习笔记（1）-- 利用Python从网页抓取数据
最近想从一个网站上下载资源,懒得一个个的点击下载了,想写一个爬虫把程序全部下载下来,在这里做一个简单的记录 Python的基础语法在这里就不多做叙述了,黑马程序员上有一个基础的视频教学,可以跟着学习一 ...
asp.net 网页抓取内容
网页抓取代码 using System; using System.Collections.Generic; using System.Linq; using System.Web; // using ...
java抓取网页数据，登录之后抓取数据。
最近做了一个从网络上抓取数据的一个小程序.主要关于信贷方面,收集的一些黑名单网站,从该网站上抓取到自己系统中. 也找了一些资料,觉得没有一个很好的,全面的例子.因此在这里做个笔记提醒自己. 首先需要一 ...
PHP的cURL库：抓取网页，POST数据及其他,HTTP认证抓取数据
From : http://developer.51cto.com/art/200904/121739.htm 下面是一个小例程: ﹤?php// 初始化一个 cURL 对象$curl = curl_ ...
Python开发爬虫之动态网页抓取篇：爬取博客评论数据——通过Selenium模拟浏览器抓取
区别于上篇动态网页抓取,这里介绍另一种方法,即使用浏览器渲染引擎.直接用浏览器在显示网页时解析 HTML.应用 CSS 样式并执行 JavaScript 的语句. 这个方法在爬虫过程中会打开一个浏览器 ...
Asp.Net 之抓取网页内容
一.获取网页内容——html ASP.NET 中抓取网页内容是非常方便的,而其中更是解决了 ASP 中困扰我们的编码问题. 需要三个类:WebRequest.WebResponse.StreamRea ...
Python实现简单的网页抓取
现在开源的网页抓取程序有很多,各种语言应有尽有. 这里分享一下Python从零开始的网页抓取过程第一步:安装Python 点击下载适合的版本https://www.python.org/ 我这里选择 ...
NET 5 爬虫框架/抓取数据
爬虫大家或多或少的都应该接触过的,爬虫有风险,抓数需谨慎. 爬虫有的是抓请求,有的是抓网页再解析本着研究学习的目的,记录一下在 .NET Core 下抓取数据的实际案例.爬虫代码一般具有时效性,当 ...
基于Casperjs的网页抓取技术【抓取豆瓣信息网络爬虫实战示例】
CasperJS is a navigation scripting & testing utility for the PhantomJS (WebKit) and SlimerJS (Ge ...

随机推荐

Jqgrid的用法总结与分页功能的拓展
这是本人写的第一个与技术相关的博客,但是非挑战技术的,而是对工作的总结,另外加一点点拓展. Jqgrid的功能十分强大,强大到可以做到与数据grid相关的任何功能,同时由于在用的过程中总是不能够一气呵 ...
lnmp架构下php安全配置分享
目录[-] 1. 使用open_basedir限制虚拟主机跨目录访问 2. 禁用不安全PHP函数 3. 关注软件安全资讯 4. php用户只读 5. 关闭php错误日志 6. php上传分离 7. 关 ...
C#多线程实践——线程同步
下面的表格列展了.NET对协调或同步线程动作的可用的工具: 简易阻止方法构成目的 Sleep 阻止给定的时间周期 Join 等待另一个线程完成 ...
剖析c++（二）内置类型的内存形式
分布形式以及转换时候的截断(待编辑)
OpenCV——改变图像大小
, , int interpolation=INTER_LINEAR ) dsize与fx和fy必须不能同时为零,也就是说要么dsize不为零而fx与fy同时可以为0,要么dsize为0而fx与fy不 ...
不用标准库实现memmove，借助一个缓冲区temp，即使src和dest所指的内存有重叠也能正确拷贝
void *mymemmove(void *dest,const void *src,size_t count) { char temp[count]; int i; char *d=(char *) ...
MySQL 分区表 partition线上修改分区字段，后续进一步学习partition (1)
公司线上在用partition,有一个表的分区字段错了,需要重建,结果发现没有办法像修改主键字段或者修改索引字段那样直接一条sql搞定.而是需要建临时表,有down time,所以去仔细看了文档,研究 ...
localhost 与 127.0.0.1 的区别
localhost与127.0.0.1的区别是什么?相信有人会说是本地ip,曾有人说,用127.0.0.1比localhost好,可以减少一次解析.看来这个入门问题还有人不清楚,其实这两者是有区别的. ...
ThinkPHP内置函数详解D、F、S、C、L、A、I
单字母函数D.F.S.C.L.A.I 他们都在ThinkPHP核心的ThinkPHP/Mode/Api/functions.php这个文件中定义. 下面我分别说明一下他们的功能: D() 加载Mode ...
AFNetworking 使用总结（用法+JSON解析）
« AFNetworking 图片的本地缓存问题 Get application bundle seed ID in iOS » AFNetworking 使用总结 (用法+JSON解析) Fr ...

ASP.NET网页抓取数据

ASP.NET网页抓取数据的更多相关文章

随机推荐

热门专题