c#如何采集需要登录的页面

首先说明：代码片段是从网络获取，然后自己修改。我想好的东西应该拿来分享。

先说下原理：当我们采集页面的时候，如果被采集的网站需要登录才能采集。不管是基于Cookie还是基于Session，我们都会首先发送一个Http请求头，这个Http请求头里面就包含了网站需要的Cookie信息。当网站接收到发送过来的Http请求头时，会从Http请求头获取相关的Cookie或者Session信息，然后由程序来处理，决定你是否有权限访问当前页面。

好了，原理搞清楚了，就好办了。我们所要做的仅仅是在采集的时候（或者说HttpWebRequest提交数据的时候），将Cookie信息放入Http请求头里面就可以了。

在这里我提供2种方法。

第一种，直接将Cookie信息放入HttpWebRequest的CookieContainer里。看代码：

protected void Page_Load(object sender, EventArgs e)
        {
            //设置Cookie，存入Hashtable
            Hashtable ht = new Hashtable();
            ht.Add("username", "youraccount");
            ht.Add("id", "yourid");
            this.Collect(ht);
        }
        public void Collect(Hashtable ht)
        {
            string content = string.Empty;
            string url = "http://www.ibest100.com/需要登录后才能采集的页面";
            string host = "http://www.ibest100.com";
            try
            {
                //获取提交的字节
                byte[] bs = Encoding.UTF8.GetBytes(content);
                //设置提交的相关参数
                HttpWebRequest req = (HttpWebRequest)HttpWebRequest.Create(url);
                req.Method = "POST";
                req.ContentType = "application/json;charset=utf-8";
                req.ContentLength = bs.Length;
                //将Cookie放入CookieContainer，然后再将CookieContainer添加到HttpWebRequest
                CookieContainer cc = new CookieContainer();
                cc.Add(new Uri(host), new Cookie("username", ht["username"].ToString()));
                cc.Add(new Uri(host), new Cookie("id", ht["id"].ToString()));
                req.CookieContainer = cc;
                //提交请求数据
                Stream reqStream = req.GetRequestStream();
                reqStream.Write(bs, 0, bs.Length);
                reqStream.Close();
                //接收返回的页面，必须的，不能省略
                WebResponse wr = req.GetResponse();
                System.IO.Stream respStream = wr.GetResponseStream();
                System.IO.StreamReader reader = new System.IO.StreamReader(respStream, System.Text.Encoding.GetEncoding("utf-8"));
                string t = reader.ReadToEnd();
                System.Web.HttpContext.Current.Response.Write(t);
                wr.Close();
            }
            catch (Exception ex)
            {
                System.Web.HttpContext.Current.Response.Write("异常在getPostRespone:" + ex.Source + ":" + ex.Message);
            }

}

第二种，每次打开采集程序时，需要先到被采集的网站模拟登录一次，获取CookieContainer，然后再采集。看代码：

protected void Page_Load(object sender, EventArgs e)
        {
            try
            {
                CookieContainer cookieContainer = new CookieContainer();
                string formatString = "username={0}&password={1}";//***************
                string postString = string.Format(formatString, "youradminaccount", "yourpassword");
                //将提交的字符串数据转换成字节数组
                byte[] postData = Encoding.UTF8.GetBytes(postString);
                //设置提交的相关参数
                string URI = "http://www.ibest100.com/登录页面";//***************
                HttpWebRequest request = WebRequest.Create(URI) as HttpWebRequest;
                request.Method = "POST";
                request.KeepAlive = false;
                request.ContentType = "application/x-www-form-urlencoded";
                request.CookieContainer = cookieContainer;
                request.ContentLength = postData.Length;
                // 提交请求数据
                System.IO.Stream outputStream = request.GetRequestStream();
                outputStream.Write(postData, 0, postData.Length);
                outputStream.Close();
                //接收返回的页面，必须的，不能省略
                HttpWebResponse response = request.GetResponse() as HttpWebResponse;
                System.IO.Stream responseStream = response.GetResponseStream();
                System.IO.StreamReader reader = new System.IO.StreamReader(responseStream, Encoding.GetEncoding("gb2312"));
                string srcString = reader.ReadToEnd();
                //打开您要访问的页面
                URI = "http://www.ibest100.com/需要登录后才能采集的页面";//***************
                request = WebRequest.Create(URI) as HttpWebRequest;
                request.Method = "GET";
                request.KeepAlive = false;
                request.CookieContainer = cookieContainer;
                // 接收返回的页面
                response = request.GetResponse() as HttpWebResponse;
                responseStream = response.GetResponseStream();
                reader = new System.IO.StreamReader(responseStream, Encoding.GetEncoding("gb2312"));
                srcString = reader.ReadToEnd();
                //输出获取的页面或者处理
                Response.Write(srcString);
            }
            catch (WebException we)
            {
                string msg = we.Message;
                Response.Write(msg);
            }
        }

也许有人会问，如果对方登录的时候要验证码怎么办？那你就用第一种方式吧，只不过需要你分析对方的Cookie。

应用范围：采集数据、论坛发帖、博客发文。

感谢来自网络的文章编辑:dezai

转载自:http://www.aspnetjia.com

c#如何采集需要登录的页面的更多相关文章

用curl采集需要登录的页面
登陆cookie存储至自定义目录 $cookie_dir = tempnam('.', 'cookie');curl_setopt($curl, CURLOPT_COOKIEJAR, $cookie_ ...
Golddata如何采集需要登录/会话的数据？
概要本文将介绍使用GoldData半自动登录功能,来采集需要登录网站的数据.GoldData半自动登录功能,就是指通过脚本来执行登录,如果需要验证码或者其它内容需要人工输入时,可以通过收发邮件来执行 ...
AChecker + Selenium2对需要登录的页面进行自动化可访问性测试
前言:这段时间还算比较空闲,我准备把过去做过的有些形形色色,甚至有些奇怪的研究总结一下,也许刚好有人用的着也不一定,不枉为之抓耳挠腮的时光和浪费的电力. 名词解释: 网站可访问性测试:国内基本没有 ...
登录注册页面html模版
登录注册页面html模版地址:http://download.csdn.net/detail/xiaosongaixiaoqian/5432033
SpringSecurity兑现多登录成功页面和登录成功返回被拦截界面
SpringSecurity实现多登录成功页面和登录成功返回被拦截界面使用SrpingSceurity作为认证和授权的安全框架可以省下很多基础工作. 具体可以参考SpringSecurity,这里不 ...
/*用户登录注册页面输入框的设置*/<span>的使用
<!DOCTYPE html> /*用户登录注册页面输入框的设置*/ <html lang="en"> <head> <meta char ...
Vue 实现动态路由及登录&404页面跳转控制&页面刷新空白解决方案
Vue实现动态路由及登录&404页面跳转控制&页面刷新空白解决方案 by:授客 QQ:1033553122 开发环境 Win 10 Vue 2.9.6 node-v ...
Python3.7爬虫：实时api(百度ai)检测验证码模拟登录(Selenium)页面
原文转载自「刘悦的技术博客」https://v3u.cn/a_id_134 今天有同学提出了一个需求,老板让自动登录这个页面:https://www.dianxiaomi.com/index.htm, ...
servlet技术--使用注解模拟用户登录实现页面跳转
文章目录 1.servlet体系结构 2.servlet技术特点 3.servlet和jsp的区别 4.servlet开发 1.servlet体系结构 servlet实质就是按servlet规范编写的 ...

随机推荐

jmx完整示例
很早就开始去了解这个了,不过一直都是皮毛,基本概念明白,具体api几乎一无不知... 认真看了几篇文章,做了测试,终于有所了解参考入门级别: http://www.cnblogs.com/agou ...
搭建jekyll博客
使用jekyll将markdown文件生成静态的html文件,并使用主题有序的进行布局,形成最终的博客页面. 特点基于ruby 使用Markdown书写文章无需数据库可以使用GitHub Pag ...
struts2学习笔记之九:struts2的命名空间
struts2的命名空间适用于多人开发,根据不同模块命名不同的命名空间,方便开发和管理 struts2如果没有配置命名空间,默认命名空间为"/",Struts2中Action的完整 ...
Atitit 深入了解UUID含义是通用唯一识别码 (Universally Unique Identifier)，
Atitit 深入了解UUID含义是通用唯一识别码 (Universally Unique Identifier), UUID1 作用1 组成1 全球唯一标识符(GUID)2 UUID 编辑 UUID ...
atitit 点播系统概览 v2 qb1.docx
atitit 点播系统概览 v2 qb1.docx 1.1. 多界面(可以挂载多个不同的界面主题)1 1.2. 独立的选片模块(跨设备,跨平台)2 1.3. 跨设备平台(android安卓盒子,pc ...
Java六大问题你都懂了吗？
这些问题对于认真学习java的人都要必知的,当然如果你只是初学者就没必要那么严格了,那如果你认为自己已经超越初学者了,却不很懂这些问题,请将你自己重归初学者行列. 一.到底要怎么样初始化! 本问题讨论 ...
fir.im Weekly - Stanford 的 Swift 课程来了
上周提过,Swift 的 Github 主页上已经有了 >>「Port to Android」,这周重点推荐一下 Stanford 的 Swift 课程. Developing iOS 9 ...
mysqldump导出不包含存储过程
mysqldump导出不包含存储过程 mysqldump -u 数据库用户名 -p -n -t -d -R --triggers=false 数据库名 > 文件名这样单独把存储过程和函数导出 ...
javascript类型系统——字符串String类型
× 目录 [1]定义 [2]引号 [3]反斜线[4]特点[5]转字符串前面的话 javascript没有表示单个字符的字符型,只有字符串String类型,字符型相当于仅包含一个字符的字符串字符串S ...
bootstrap-table 分页的问题
文档网站 http://wenzhixin.net.cn/p/bootstrap-table/docs/examples.html#via-javascript-table 问题1 :服务器端取不到f ...

c#如何采集需要登录的页面

c#如何采集需要登录的页面的更多相关文章

随机推荐

热门专题