c# 获取网页源码

LonelyEnvoy 2024-10-19 22:19:56 原文

C#获取指定网页HTML原代码可使用 WebClient WebRequest HttpWebRequest 三种方式来实现。

当然也可使用webBrowse！在此就不研究webBrowse如何获取了。

WebClient

private string GetWebClient(string url)

{

string strHTML = "";

WebClient myWebClient = new WebClient();

Stream myStream = myWebClient.OpenRead(url);

StreamReader sr = new StreamReader(myStream, System.Text.Encoding.GetEncoding("utf-8"));

strHTML = sr.ReadToEnd();

myStream.Close();

return strHTML;

}

WebRequest

private string GetWebRequest(string url)

{

Uri uri = new Uri(url);

WebRequest myReq = WebRequest.Create(uri);

WebResponse result = myReq.GetResponse();

Stream receviceStream = result.GetResponseStream();

StreamReader readerOfStream = new StreamReader(receviceStream, System.Text.Encoding.GetEncoding("utf-8"));

string strHTML = readerOfStream.ReadToEnd();

readerOfStream.Close();

receviceStream.Close();

result.Close();

return strHTML;

}

HttpWebRequest

private string GetHttpWebRequest(string url)

{

Uri uri = new Uri(url);

HttpWebRequest myReq = (HttpWebRequest)WebRequest.Create(uri);

myReq.UserAgent = "User-Agent:Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.2; .NET CLR 1.0.3705";

myReq.Accept = "*/*";

myReq.KeepAlive = true;

myReq.Headers.Add("Accept-Language", "zh-cn,en-us;q=0.5");

HttpWebResponse result = (HttpWebResponse)myReq.GetResponse();

Stream receviceStream = result.GetResponseStream();

StreamReader readerOfStream = new StreamReader(receviceStream, System.Text.Encoding.GetEncoding("utf-8"));

string strHTML = readerOfStream.ReadToEnd();

readerOfStream.Close();

receviceStream.Close();

result.Close();

return strHTML;

}

注意“utf-8”应与指定网页的编码对应。

总结

可以看到HttpWebRequest 方式最复杂，但确提供了更多的选择性。

有的网站检测客户端的UserAgent！如163.com，你如果使用WebClient WebRequest方式获取时，将获取到的是错误提示页面内容。

而通过HttpWebRequest 就没问题。

源码下载：http://files.cnblogs.com/zjfree/GetHTML.rar

测试环境：WIN2003 + VS2005 + C# + winForm

欢迎转载，转载请注明：转载自[ http://www.cnblogs.com/zjfree/ ]

c# 获取网页源码的更多相关文章

C语言之socket获取网页源码
写爬虫也许你用的是python,类似urlopen(url).read()即可获得普通的网页的源码,或者用的java的网络库加上流操作,或者其他高级语言.但你有没有想过使用C语言来实现呢?我曾经以为用 ...
QT：轻松获取网页源码
获取网页源码的小例子,代码很简单,就不多作解释了. 不过一定要注意网页的编码问题,否则会出现乱码的!!! #include <QtCore> #include <QtNetwork& ...
Python爬虫学习之获取网页源码
偶然的机会,在知乎上看到一个有关爬虫的话题<利用爬虫技术能做到哪些很酷很有趣很有用的事情?>,因为强烈的好奇心和觉得会写爬虫是一件高大上的事情,所以就对爬虫产生了兴趣. 关于网络爬虫的定义 ...
vc++获取网页源码
1. 获取网页源码的步骤: com组件的初始化创建WinHttpRequest对象创建并实例化WinHttpRequest组件调用Open方法打开连接调用Send方法发送请求使用Respon ...
vc++获取网页源码之使用import+接口方式
1.使用IWinHttpRequest获取网页源码首先要创建基于对话框的mfc应用程序 2.import+接口方式首先导入winhttp.dll,使用IWinHttpRequest接口 #impo ...
高效获取网页源码COM
目前获取网页源码有几种方法: 1.WebClient下载页面2.HttpWebRequest发请求获取3.com组件xmlhttp获取三者比较:WebClient代码最少,效率最慢:xmlhttp代 ...
Python3 Selenium WebDriver网页的前进、后退、刷新、最大化、获取窗口位置、设置窗口大小、获取页面title、获取网页源码、获取Url等基本操作
Python3 Selenium WebDriver网页的前进.后退.刷新.最大化.获取窗口位置.设置窗口大小.获取页面title.获取网页源码.获取Url等基本操作通过selenium webdr ...
Python3.x获取网页源码
Python3.x获取网页源码 1,获取网页的头部信息以确定网页的编码方式: import urllib.request res = urllib.request.urlopen('http://ww ...
c# HttpClient获取网页源码
#region 获取网页源码 public static string HttpClientGetHtmls(string url) { try { var client = new HttpClie ...
Selenium WebDriver-网页的前进、后退、刷新、最大化、获取窗口位置、设置窗口大小、获取页面title、获取网页源码、获取Url等基本操作
通过selenium webdriver操作网页前进.后退.刷新.最大化.获取窗口位置.设置窗口大小.获取页面title.获取网页源码.获取Url等基本操作 from selenium import ...

随机推荐

Containers Reserved yarn resourcemanager
yarn rm的管理页面中显示了集群的概况,其中有一个指标叫Containers Reserved . 预留的容器,为什么会预留,集群的资源使用饱合,新的app请求的资源一般会进入pending状态, ...
JavaScript继承方式详解[转]
js继承的概念 js里常用的如下两种继承方式: 原型链继承(对象间的继承) 类式继承(构造函数间的继承) 由于js不像java那样是真正面向对象的语言,js是基于对象的,它没有类的概念.所以,要想实现 ...
[转]Linq中使用Left Join
本文转自:http://www.cnblogs.com/xinjian/archive/2010/11/17/1879959.html use Test Create table Student( I ...
sobel算子原理及opencv源码实现
sobel算子原理及opencv源码实现简要描述 sobel算子主要用于获得数字图像的一阶梯度,常见的应用和物理意义是边缘检测. 原理算子使用两个33的矩阵(图1)算子使用两个33的矩阵(图1)去 ...
Appium学习实践（二）Python简单脚本以及元素的属性设置
1.简单的Python脚本 Appium中的设置与Appium学习实践(一)简易运行Appium中的一致 Launch后,执行脚本 #coding:utf-8 import unittest impo ...
NYOJ-756重建二叉树
重建二叉树时间限制:1000 ms | 内存限制:65535 KB 难度:3 描述题目很简单,给你一棵二叉树的后序和中序序列,求出它的前序序列(So easy!). 输入输入有多组数据(少于 ...
netty5和4.x,3.x的一些区别
http://item.congci.com/item/netty-5-0-4-0-xin-bianhua-he-zhuyi-dian
[No000043]学习Linux操作系统必备基础知识
Linux操作系统概述 Q1.什么是GNU?Linux与GNU有什么关系? A: 1)GNU是GNU is Not Unix的递归缩写,是自由软件基金会(Free Software Foundatio ...
今天看了shell大神的写的一个统计脚本
通过nginx日志统计接口耗时排行 grep '/bigbox?' access_log | awk '{print $7"&process="$NF}'| sed -r ...
利用scp 远程上传下载文件/文件夹和ssh远程执行命令
利用scp传输文件 1.从服务器下载文件scp username@servername:/path/filename /tmp/local_destination例如scp codinglog@192 ...