黄聪：C#获取网页HTML内容的三种方式

C#通常有三种方法获取网页内容，使用WebClient、WebBrowser或者HttpWebRequest/HttpWebResponse。

方法一：使用WebClient

static void Main(string[] args)

{

    try {

        WebClient MyWebClient = new WebClient();

        MyWebClient.Credentials = CredentialCache.DefaultCredentials;//获取或设置用于向Internet资源的请求进行身份验证的网络凭据

        Byte[] pageData = MyWebClient.DownloadData(“http://www.163.com”); //从指定网站下载数据

        string pageHtml = Encoding.Default.GetString(pageData);  //如果获取网站页面采用的是GB2312，则使用这句

        //string pageHtml = Encoding.UTF8.GetString(pageData); //如果获取网站页面采用的是UTF-8，则使用这句

        Console.WriteLine(pageHtml);//在控制台输入获取的内容

        using (StreamWriter sw = new StreamWriter("c:\\test\\ouput.html"))//将获取的内容写入文本

        {

            sw.Write(pageHtml);

        }

        Console.ReadLine(); //让控制台暂停,否则一闪而过了

    }

    catch(WebException webEx) {

        Console.WriteLine(webEx.Message.ToString());

    }

}

方法二：使用WebBrowser

WebBrowser web = new WebBrowser();

web.Navigate("http://www.xjflcp.com/ssc/");

web.DocumentCompleted += new WebBrowserDocumentCompletedEventHandler(web_DocumentCompleted);

void web_DocumentCompleted(object sender, WebBrowserDocumentCompletedEventArgs e)

        {

            WebBrowser web = (WebBrowser)sender;

            HtmlElementCollection ElementCollection = web.Document.GetElementsByTagName("Table");

            foreach (HtmlElement item in ElementCollection)

            {

                 File.AppendAllText("Kaijiang_xj.txt", item.InnerText);

            }

        }

方法三：使用HttpWebRequest/HttpWebResponse

HttpWebRequest httpReq;

HttpWebResponse httpResp; 

string strBuff = "";

char[] cbuffer = new char[256];

int byteRead = 0; 

string filename = @"c:\log.txt";

///定义写入流操作

public void WriteStream()

{

Uri httpURL = new Uri(txtURL.Text);

///HttpWebRequest类继承于WebRequest，并没有自己的构造函数，需通过WebRequest的Creat方法 建立，并进行强制的类型转换

      httpReq = (HttpWebRequest)WebRequest.Create(httpURL);

///通过HttpWebRequest的GetResponse()方法建立HttpWebResponse,强制类型转换

   httpResp = (HttpWebResponse) httpReq.GetResponse();

///GetResponseStream()方法获取HTTP响应的数据流,并尝试取得URL中所指定的网页内容

     ///若成功取得网页的内容，则以System.IO.Stream形式返回，若失败则产生ProtoclViolationException错 误。在此正确的做法应将以下的代码放到一个try块中处理。这里简单处理

Stream respStream = httpResp.GetResponseStream();

///返回的内容是Stream形式的，所以可以利用StreamReader类获取GetResponseStream的内容，并以

StreamReader类的Read方法依次读取网页源程序代码每一行的内容，直至行尾（读取的编码格式：UTF8）

StreamReader respStreamReader = new StreamReader(respStream,Encoding.UTF8);

byteRead = respStreamReader.Read(cbuffer,0,256); 

while (byteRead != 0)

{

string strResp = new string(cbuffer,0,byteRead);

                  strBuff = strBuff + strResp;

                  byteRead = respStreamReader.Read(cbuffer,0,256);

} 

respStream.Close();

txtHTML.Text = strBuff;

}

黄聪：C#获取网页HTML内容的三种方式的更多相关文章

Action 中获取表单数据的三种方式
(尊重劳动成果,转载请注明出处:http://blog.csdn.net/qq_25827845/article/details/53138905 冷血之心的博客) Action 中获取表单提交数据 ...
python 获取本机IP的三种方式
python获取本机IP的方式第一种: #!/usr/bin/python import socket import fcntl import struct def get_ip_address(i ...
黄聪：异步加载JS的4种方式（详解）
方案1:$(document).ready <!DOCTYPE html> <html> <head> <script src="http://co ...
Jquery获取服务器端控件的三种方式
一 Jquery获得服务器控件值的方法由于ASP.NET网页运行后,服务器控件会随机生成客户端id,jquery获取时候不太好操作,google了下,总结有以下3种方法: 服务器控件代码:<as ...
Python输出内容的三种方式：print输出 python脚本执行 linux直接执行
1. 在linux中安装python后,在linux命令行中输入python即可切换到Python命令行下退出python命令行的命令: 老版本:ctrl+D 新版本:quit();或exit() ...
Python读取文件内容的三种方式并比较
本次实验的文件是一个60M的文件,共计392660行内容. 程序一: def one(): start = time.clock() fo = open(file,'r') fc = fo.readl ...
Action获取表单数据的三种方式
1.使用ActionContext类获取示例获取用户提交的用户名和密码 jsp页面 action中的java代码 2.使用ServletActionContext类获取 jsp页面 Java代码 ...
PHP读取文件内容的三种方式
<?php // 第一种读取方式 header("content-type:text/html;charset=utf-8"); // 文件路径 $fileA = " ...
Python Django 获取表单数据的三种方式
# In viewsdef zbsservice(request): #返回一个列表 v1 = models.Business.objects.all() # .value返回一个字典 v2 = mo ...

随机推荐

better-scroll无法滚动的问题。
better-scroll无法滚动的问题.1遇见better-scroll(以下简称:BS)无法滚动,可从两方面去考虑.一是层级关系出错,二是计算高度出错.###1,层级关系BS的基本结构是:一个wr ...
python爬虫初级--获取指定页面上的菜单名称以及链接，然后导出
''' Created on 2017年4月5日 @author: Admin ''' import requests from bs4 import BeautifulSoup as bsp # 网 ...
牛客网PAT乙级(Basic Level)真题-组个最小数 (20)
组个最小数 (20) 时间限制 1000 ms 内存限制 32768 KB 代码长度限制 100 KB 判断程序 Standard (来自小小) 题目描述给定数字0-9各若干个.你可以以任意顺序排 ...
"Loading a plug-in failed The plug-in or one of its prerequisite plug-ins may be missing or damaged and may need to be reinstalled"
The Unarchiver 虽好,但存在问题比我们在mac上zip打包一个软件xcode, 然后copy to another mac, 这时用The Unarchiver解压缩出来的xcode包不 ...
轻松理解AOP(面向切面编程)
https://my.oschina.net/yanquan345/blog/203415
大数据学习-2 认识Hadoop
一.什么是Hadoop? Hadoop可以简单的理解为一个数据存储和数据分析分布式系统.随着互联网的普及产生的数据是非常的庞大的,那么我们怎么去处理这么大量的数据呢?传统的单一计算机肯定是完成不了的, ...
【EMV L2】EMV终端数据
Account TypeAcquirer IdentifierAdditional Terminal CapabilitiesAmount, Authorised (Binary)Amount, Au ...
scrapy获取页面信息
本例子用命令行调试的方式,演示如何获取页面的特定信息: 0) 示例页面 1) 使用scrapy shell获取目标页面: scrapy shell http://bj.lianjia.com/ersh ...
安装网卡ifconfig不出现问题
安装万兆网卡,Ethernet controller: Intel Corporation 82599EB 10-Gigabit SFI/SFP+ Network Connection 使用lspci ...
前端框架Angular、react、vue在github上的数据统计-2018-05
2018年5月31日09:15:45 突然想看看几个前端框架的数量,然后就截图了如下数据: 分析: react关注.收藏.Fork都高vue一些, 但相差不大 angular比较奇葩,收藏只有二者一半 ...

黄聪：C#获取网页HTML内容的三种方式

黄聪：C#获取网页HTML内容的三种方式的更多相关文章

随机推荐

热门专题