ASP.NET抓取网页内容

一、ASP.NET 使用HttpWebRequest抓取网页内容

这种方式抓取某些页面会失败

不过，有时候我们会发现，这个程序在抓取某些页面时，是获不到所需的内容的，有时候甚至返回404的错误提示页，这是什么原因呢？

其实，很多人都忽略了一个问题，那就是服务器默认的浏览器问题。有的服务器默认的浏览器是手机浏览器，那么，当我抓取这个服务器下的网页是，就相当于用手机浏览器来打开网页，而如果要抓取的目标网页没有相应的手机网页的话，就会返回意想不到的结果，有的返回404错误提示页，有的返回403错误提示页，有的甚至跳转到其他网页去了。

如何解决这个问题？

要解决这个问题，其实很简单，我们只需要在程序里指定使用的浏览器的即可，即是设置UserAgent的参数值。

完整代码：

C# 代码复制



        /// <summary>方法一：比较推荐

        /// 用HttpWebRequest取得网页源码

        /// 对于带BOM的网页很有效，不管是什么编码都能正确识别

        /// </summary>

        /// <param name="url">网页地址" </param>

        /// <returns>返回网页源文件</returns>

        public static string GetHtmlSource2(string url)

        {

            //处理内容

            string html = "";

            HttpWebRequest request = (HttpWebRequest)WebRequest.Create(url);

            request.Accept = "*/*"; //接受任意文件

            request.UserAgent = "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.2; .NET CLR 1.1.4322)"; //

            request.AllowAutoRedirect = true;//是否允许302

            //request.CookieContainer = new CookieContainer();//cookie容器，

            request.Referer = url; //当前页面的引用

            HttpWebResponse response = (HttpWebResponse)request.GetResponse();

            Stream stream = response.GetResponseStream();

            StreamReader reader = new StreamReader(stream, Encoding.Default);

            html = reader.ReadToEnd();

            stream.Close();

            return html;

        }

二、ASP.NET 使用 WebResponse 抓取网页内容

C# 代码复制



        public static string GetHttpData2(string Url)

        {

            string sException = null;

            string sRslt = null;

            WebResponse oWebRps = null;

            WebRequest oWebRqst = WebRequest.Create(Url);

            oWebRqst.Timeout = 50000;

            try

            {

                oWebRps = oWebRqst.GetResponse();

            }

            catch (WebException e)

            {

                sException = e.Message.ToString();

            }

            catch (Exception e)

            {

                sException = e.ToString();

            }

            finally

            {

                if (oWebRps != null)

                {

                    StreamReader oStreamRd = new StreamReader(oWebRps.GetResponseStream(), Encoding.GetEncoding("utf-8"));

                    sRslt = oStreamRd.ReadToEnd();

                    oStreamRd.Close();

                    oWebRps.Close();

                }

            }

            return sRslt;

        }

三、ASP.NET 使用 WebClient 抓取网页内容

C# 代码复制



        /// <param name="url">/要访问的网站地址</param>

        /// <param name="charSets">目标网页的编码，如果传入的是null或者"",那就自动分析网页的编码</param>

        /// <returns></returns>

        public static string getHtml(string url, params  string[] charSets)

        {

            try

            {

                string charSet = null;

                if (charSets.Length == 1)

                {

                    charSet = charSets[0];

                }

                WebClient myWebClient = new WebClient(); //创建WebClient实例myWebClient

                // 需要注意的：

                //有的网页可能下不下来，有种种原因比如需要cookie,编码问题等等

                //这是就要具体问题具体分析比如在头部加入cookie

                // webclient.Headers.Add("Cookie", cookie);

                //这样可能需要一些重载方法.根据需要写就可以了

                //获取或设置用于对向 Internet 资源的请求进行身份验证的网络凭据.

                myWebClient.Credentials = CredentialCache.DefaultCredentials;

                //如果服务器要验证用户名，密码

                //NetworkCredential mycred = new NetworkCredential(struser, strpassword);

                //myWebClient.Credentials = mycred;

                //从资源下载数据并返回字节数组.(加@是因为网址中间有"/"符号)

                byte[] myDataBuffer = myWebClient.DownloadData(url);

                string strWebData = Encoding.Default.GetString(myDataBuffer);

                //获取网页字符编码描述信息

                Match charSetMatch = Regex.Match(strWebData, "<meta([^<]*)charset=([^<]*)", RegexOptions.IgnoreCase | RegexOptions.Multiline);

                string webCharSet = charSetMatch.Groups[2].Value;

                if (charSet == null || charSet == "")

                    charSet = webCharSet;

                if (charSet != null && charSet != "" && Encoding.GetEncoding(charSet) != Encoding.Default)

                {

                    strWebData = Encoding.GetEncoding(charSet).GetString(myDataBuffer);

                }

                else

                {

                    strWebData = Encoding.GetEncoding("utf-8").GetString(myDataBuffer);

                }

                return strWebData;

            }

            catch (Exception e) { return ""; }

        }

ASP.NET抓取网页内容的更多相关文章

ASP.NET抓取网页内容的实现方法
这篇文章主要介绍了ASP.NET抓取网页内容的实现方法,涉及使用HttpWebRequest及WebResponse抓取网页内容的技巧,需要的朋友可以参考下一.ASP.NET 使用HttpWebRe ...
ASP.NET 抓取网页内容
(转)ASP.NET 抓取网页内容 ASP.NET 抓取网页内容-文字 ASP.NET 中抓取网页内容是非常方便的,而其中更是解决了 ASP 中困扰我们的编码问题. 需要三个类:WebRequest. ...
Asp.Net 之抓取网页内容
一.获取网页内容——html ASP.NET 中抓取网页内容是非常方便的,而其中更是解决了 ASP 中困扰我们的编码问题. 需要三个类:WebRequest.WebResponse.StreamRea ...
Asp 使用 Microsoft.XMLHTTP 抓取网页内容无乱码处理，并过滤须要的内容
Asp 使用 Microsoft.XMLHTTP 抓取网页内容.并过滤须要的内容 Asp 使用 Microsoft.XMLHTTP 抓取网页内容无乱码处理,并过滤须要的内容演示样例源代码: < ...
C# 抓取网页内容的方法
1.抓取一般内容需要三个类:WebRequest.WebResponse.StreamReader 所需命名空间:System.Net.System.IO 核心代码: view plaincopy ...
asp.net抓取网页html源代码失败只因UserAgent作怪
asp.net抓取网页html源代码,我想对于任何一个asp.net程序员来说都不再陌生,这是一个非常简单容易就能实现的功能.下面便是一个通用的asp.net获得网页源代码的程序. 首先引用 usin ...
paip.抓取网页内容--java php python
paip.抓取网页内容--java php python.txt 作者Attilax 艾龙, EMAIL:1466519819@qq.com 来源:attilax的专栏地址:http://blog ...
使用Jsoup函数包抓取网页内容
之前写过一篇用Java抓取网页内容的文章,当时是用url.openStream()函数创建一个流,然后用BufferedReader把这个inputstream读取进来.抓取的结果是一整个字符串.如果 ...
c#抓取网页内容乱码的解决方案
写过爬虫的同学都知道,这是个很常见的问题了,一般处理思路是: 使用HttpWebRequest发送请求,HttpWebResponse来接收,判断HttpWebResponse中”Content-Ty ...

随机推荐

latex如何输入正确的双引号
latex当输入双引号,假设直接用双引号键在键盘上.玩过顺-handed. 引述左输入法是正确的:按两次"Tab在之上,数字1左边的键".至于后面行情,该方法是一样的老,这是两次单 ...
java类和对象之间的差
java类和对象之间的差别是一个普遍的问题,刚开始学习java当它来到与类和对象接触.今天就来总结一下它们之间的差异. 先说说class和object差异.事实上,词:object是全部class的父 ...
APP漏洞导致移动支付隐患重重，未来之路怎样走？
没有一种支付是100%安全的,互联网及移动支付规模的增长,其交易的安全性须要银行.支付公司.App开发人员.用户等參与各方更加重视.当下手机支付似乎变成了一种时尚,用户们"刷手机" ...
Android定调的发展
首先,介绍一下Android系统支持的铃声格式. 有下面几种: 64赫兹Midi,AAC.AAC+.AMR.WAV.MP3.Real Audio.WMA.OGG等格式. 将音频文件设置成铃声非常eas ...
Linux的selinux
SELinux 操作模式学科 (Subject):SELinux 序,因此你能够将『主体』跟 process 划上等号: 目标 (Object): 主体程序是否能存取的『目标资源』一 ...
在 Windows Server 2008 R2 上安装 IIS 7.5
原文在 Windows Server 2008 R2 上安装 IIS 7.5 默认情况下,Windows Server(R) 2008 R2 上不安装 IIS 7.5.可以使用服务器管理器中的“添加 ...
（大数据工程师学习路径）第三步 Git Community Book----高级技能
一.创建新的空分支 1.创建新的空分支在偶尔的情况下,你可能会想要保留那些与你的代码没有共同祖先的分支.例如在这些分支上保留生成的文档或者其他一些东西.如果你需要创建一个不使用当前代码库作为父提交的 ...
linux awk命令详细使用方法
简单介绍 awk是一个强大的文本分析工具,相对于grep的查找,sed的编辑,awk在其对数据分析并生成报告时,显得尤为强大.简单来说awk就是把文件逐行的读入,以空格为默认分隔符将每行切片,切开的部 ...
dotNET跨平台相关文档
dotNET跨平台相关文档整理一直在从事C#开发的相关技术工作,从C# 1.0一路用到现在的C# 6.0, 通常情况下被局限于Windows平台,Mono项目把我们C#程序带到了Windows之外的 ...
AngularJS html5Mode与ASP.NET MVC路由共存
前言很久之前便听说AngularJS,非常酷,最近也比较火,我也在持续关注这个技术,只是没有认真投入学习.前不久公司找我们部门做一个OA系统(想省下几万大洋的费用),第一时间便想到AngularJS ...

ASP.NET抓取网页内容

ASP.NET抓取网页内容的更多相关文章

随机推荐

热门专题