C# 抓取网页Html源码（网络爬虫）

http://www.cnblogs.com/wxxian001/archive/2011/09/07/2169519.html

刚刚完成一个简单的网络爬虫，因为在做的时候在网上像无头苍蝇一样找资料。发现了很多的资料，不过真正能达到我需要，有用的资料--代码很难找。所以我想发这篇文章让一些要做这个功能的朋友少走一些弯路。

首先是抓取Html源码，并选择<ul class="post_list"> </ul>节点的href：要添加 using System.IO;using System.Net;

private void Search(string url)

{

string rl;

WebRequest Request = WebRequest.Create(url.Trim());

WebResponse Response = Request.GetResponse();

Stream resStream = Response.GetResponseStream();

StreamReader sr = new StreamReader(resStream, Encoding.Default);

StringBuilder sb = new StringBuilder();

while ((rl = sr.ReadLine()) != null)

{

sb.Append(rl);

}

string str = sb.ToString().ToLower();

string str_get = mid(str, "<ul class=\"post_list\">", "</ul>");

int start = 0;

while (true)

{

if (str_get == null)

break;

string strResult = mid(str_get, "href=\"", "\"", out start);

if (strResult == null)

break;

else

{

lab[url] += strResult;

str_get = str_get.Substring(start);

}

private string mid(string istr, string startString, string endString)

{

int iBodyStart = istr.IndexOf(startString, 0); //开始位置

if (iBodyStart == -1)

return null;

iBodyStart += startString.Length; //第一次字符位置起的长度

int iBodyEnd = istr.IndexOf(endString, iBodyStart); //第二次字符在第一次字符位置起的首次位置

if (iBodyEnd == -1)

return null;

iBodyEnd += endString.Length; //第二次字符位置起的长度

string strResult = istr.Substring(iBodyStart, iBodyEnd - iBodyStart - 1);

return strResult;

}

private string mid(string istr, string startString, string endString, out int iBodyEnd)

{

//初始化out参数,否则不能return

iBodyEnd = 0;

int iBodyStart = istr.IndexOf(startString, 0); //开始位置

if (iBodyStart == -1)

return null;

iBodyStart += startString.Length; //第一次字符位置起的长度

iBodyEnd = istr.IndexOf(endString, iBodyStart); //第二次字符在第一次字符位置起的首次位置

if (iBodyEnd == -1)

return null;

iBodyEnd += endString.Length; //第二次字符位置起的长度

string strResult = istr.Substring(iBodyStart, iBodyEnd - iBodyStart - 1);

return strResult;

}

好了，上面就是全部代码了，如果你想要运行出来的话，有些细节要自己修改下。

C# 抓取网页Html源码（网络爬虫）的更多相关文章

C# 使用 Abot 实现爬虫抓取网页信息源码下载
下载地址 ** dome **
Python数据抓取（2） —简单网络爬虫的撰写
(一)使用Requests存储网页 Requests 是什么?网络资源(URLs)抓取套件优点? 改善urllib2的缺点,让使用者以最简单的方式获取网络资源可以使用REST操作(POST,PUT ...
[Python]网络爬虫（一）：抓取网页的含义和URL基本构成
一.网络爬虫的定义网络爬虫,即Web Spider,是一个很形象的名字. 把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛.网络蜘蛛是通过网页的链接地址来寻找网页的. 从网站某一个 ...
[转]Linux Socket编程 Socket抓取网页源码
“一切皆Socket!” 话虽些许夸张,但是事实也是,现在的网络编程几乎都是用的socket. ——有感于实际编程和开源项目研究. 我们深谙信息交流的价值,那网络中进程之间如何通信,如我们每天打开浏览 ...
使用Socket抓取网页源码
import java.io.BufferedReader; import java.io.IOException; import java.io.InputStreamReader; import ...
Asp.net 使用正则和网络编程抓取网页数据(有用)
Asp.net 使用正则和网络编程抓取网页数据(有用) Asp.net 使用正则和网络编程抓取网页数据(有用) /// <summary> /// 抓取网页对应内容 /// </su ...
C语言Linix服务器网络爬虫项目（二）项目设计和通过一个http请求抓取网页的简单实现
我们通过上一篇了解了爬虫具体要实现的工作之后,我们分析得出的网络爬虫的基本工作流程如下: 1.首先选取一部分精心挑选的种子URL: 2.将这些URL放入待抓取URL队列: 3.从待抓取URL队列中取出 ...
Python -- 网络编程 -- 简单抓取网页
抓取网页: urllib.request.urlopen(url).read().decode('utf-8') --- (百度是utf-8,谷歌不是utf-8,也不是cp936,ascii也不行 ...
[转载]爬虫的自我解剖(抓取网页HtmlUnit)
网络爬虫第一个要面临的问题,就是如何抓取网页,抓取其实很容易,没你想的那么复杂,一个开源HtmlUnit包,4行代码就OK啦,例子如下: 1 2 3 4 final WebClient webClie ...

随机推荐

docker下部署gitlab
docker用来隔离应用还是很方便的,一来本身的操作较为简单,二来资源占用也比虚拟机要小得多,三来也较为安全,因为像数据库这样的应用不会再全局暴露端口,同时应用间的通信通过加密和端口转发,更加安全. ...
Redis word bak
@font-face { font-family: "Arial"; }@font-face { font-family: "Courier New"; }@f ...
【WPF】Winform调用WPF窗体注意事项
1.需要添加一些引用 2.调用处使用如下方法进行调用 Window win= new Window(); ElementHost.EnableModelessKeyboardInterop(win) ...
将博客搬至CSDN（放弃）
将博客搬至CSDN需要发这篇文章,但是到现在CSDN还没给我发通知,因为急着要记东西,所以不搬了,继续写我下一篇随笔.
Windows7+VS2012下OpenGL 4的环境配置
系统环境 Windows 7 Ultimate x64,Visual Studio Ultimate 2012 Update 4,和一块支持OpenGL 4.x的显卡. 准备工作首先用GPU Cap ...
How to get date from OAMessageDateFieldBean
OAMessageDateFieldBean dateFromBean = (OAMessageDateFieldBean)webBean.findChildRecursive("pRece ...
JS案例之5——移动端触屏滑动
移动端触屏滑动的效果其实就是图片轮播,在PC的页面上很好实现,绑定click和mouseover等事件来完成.但是在移动设备上,要实现这种轮播的效果,就需要用到核心的touch事件.处理touch事件 ...
Arduino小车学习与研究
信安系统设计基础实践模块 Arduino小车学习与研究 ================== 陈都(20135328) 余佳源(20135321) 莫凡(20135225) ---------- 索引 ...
FileItem类用法详解
FileItem类的常用方法 1.boolean isFormField().isFormField方法用来判断FileItem对象里面封装的数据是一个普通文本表单字段,还是一个文件表单字段.如果是 ...
iOS 自定义控件开发（中）
<iOS 自定义控件开发(上)> <iOS 自定义控件开发(中)> 接上篇iOS自定义控件开发之后,我们尝试另外一种. 在Xcode的右边,会看到如下的图其中,上面有一个:C ...

C# 抓取网页Html源码 （网络爬虫）

C# 抓取网页Html源码 （网络爬虫）的更多相关文章

随机推荐

热门专题

C# 抓取网页Html源码（网络爬虫）

C# 抓取网页Html源码（网络爬虫）的更多相关文章