C# WebClient Get获取网页内容

//不知道怎么删除，只好留着

1. Get方式：

WebClient web = new WebClient();

var html = web.DownloadString(url);

2. Post方式

         /// <summary>

         ///

         /// </summary>

         /// <param name="web"></param>

         /// <param name="url"></param>

         /// <param name="queryString">格式： paramname=value@name2=value2</param>

         /// <param name="clearHeads"></param>

         /// <returns></returns>

         public static string Post(this MyWebClient web, string url, string queryString, bool clearHeads=false)

         {

             string postString = queryString;// WebUtility.UrlEncode( queryString);//这里即为传递的参数，可以用工具抓包分析，也可以自己分析，主要是form里面每一个name都要加进来

             byte[] postData = Encoding.UTF8.GetBytes(postString);//编码，尤其是汉字，事先要看下抓取网页的编码方式

             web.RequestConentLength = postData.Length;

             if (clearHeads)

             {

                 web.Headers.Clear();

                 web.Headers.Add("Content-Type", "application/x-www-form-urlencoded");//采取POST方式必须加的header，如果改为GET方式的话就去掉这句话即可

             }

             byte[] responseData = web.UploadData(url, "POST", postData);//得到返回字符流

             string srcString = Encoding.UTF8.GetString(responseData);//解码

             return srcString;

         }

3. Headers设置

                     web.Headers.Add(HttpRequestHeader.Accept, "*/*");

                     web.Headers.Add(HttpRequestHeader.AcceptEncoding, "gzip, deflate");

                     web.Headers.Add(HttpRequestHeader.AcceptLanguage, "zh-CN,zh;q=0.9");

                     //web.Headers.Add(HttpRequestHeader.Connection, "keep-alive");

                     web.Headers.Add("Content-Type", "application/x-www-form-urlencoded; charset=UTF-8");

                     web.Headers.Add(HttpRequestHeader.Host, "wenshu.court.gov.cn");

                     web.Headers.Add("Origin", "http://wenshu.court.gov.cn");

                     //web.Headers.Add("Proxy-Connection", "keep-alive");

                     web.Headers.Add(HttpRequestHeader.UserAgent, userAgent);

                     web.Headers.Add("X-Requested-With", "XMLHttpRequest");

                     web.Headers.Add(HttpRequestHeader.Referer, WebUtility.UrlEncode(Referer1));

4.Cookie、超时等高可用基类

     public class MyWebClient : WebClient

     {

         public CookieContainer Cookies ;

         public MyWebClient(CookieContainer cookieContainer)

         {

             this.Cookies = cookieContainer;

         }

         public int TimeoutSeconds { get; set; } = ;

         public WebRequest Request { get; set; }

         public int RequestConentLength;

         protected override WebRequest GetWebRequest(Uri address)

         {

             HttpWebRequest request = base.GetWebRequest(address) as HttpWebRequest;

             if (request != null)

             {

                 request.Method = "Post";

                 request.CookieContainer = Cookies;

                 request.Timeout =  * TimeoutSeconds;

                 request.ContentLength = RequestConentLength;

             }

             Request = request;

             return request;

         }

         public WebResponse Response { get; set; }

         protected override WebResponse GetWebResponse(WebRequest request)

         {

             this.Response = base.GetWebResponse(request);

             return this.Response;

         }

         public string GetCookieValue(string cookieName)

         {

             var cookies = this.Cookies.GetCookies(this.Request.RequestUri);

             var ck = cookies[cookieName];

             return ck?.Value;

         }

     }

特别注意，一个浏览器对于网站多次请求的情况，要创建多个WebClient对象，但是它们应该共用一个CookieContainer。而当写爬虫，模拟多个浏览器会话时，又不应全部使用同样的CookieContainer对象，以避免会话冲突。

附赠一个C#调用JS脚本的代码：

         public string CallJs(string jsCall , string jsFunctions)

         {

             Type obj = Type.GetTypeFromProgID("ScriptControl");

             if (obj == null) return null;

             object ScriptControl = Activator.CreateInstance(obj);

             obj.InvokeMember("Language", BindingFlags.SetProperty, null, ScriptControl, new object[] { "JavaScript" });

             //string js = "function time(a, b, msg){ var sum = a + b; return new Date().getTime() + ': ' + msg + ' = ' + sum }";

             obj.InvokeMember("AddCode", BindingFlags.InvokeMethod, null, ScriptControl, new object[] { jsFunctions });

             //return obj.InvokeMember("Eval", BindingFlags.InvokeMethod, null, ScriptControl, new object[] { "time(3, 5, '3 + 5')" }).ToString();

             return obj.InvokeMember("Eval", BindingFlags.InvokeMethod, null, ScriptControl, new object[] { jsCall }).ToString();

         }

使用示例：

string js = "function jsfunction(parm){ return parm + "abc"; }";
string val = CallJs($"jsfunction('{csvar}')", js.ToString());

C# WebClient Get获取网页内容的更多相关文章

C#获取网页内容 (WebClient、WebBrowser和HttpWebRequest/HttpWebResponse)
获取网页数据有很多种方式.在这里主要讲述通过WebClient.WebBrowser和HttpWebRequest/HttpWebResponse三种方式获取网页内容. 这里获取的是包括网页的所有信息 ...
C#获取网页内容的三种方式
C#通常有三种方法获取网页内容,使用WebClient.WebBrowser或者HttpWebRequest/HttpWebResponse... 方法一:使用WebClient (引用自:http: ...
C#获取网页内容的三种方式(转)
搜索网络,发现C#通常有三种方法获取网页内容,使用WebClient.WebBrowser或者HttpWebRequest/HttpWebResponse... 方法一:使用WebClient (引用 ...
C# -- WebClient自动获取web页面编码并转换
C# -- WebClient自动获取web页面编码并转换抽个时间,写篇小文章,最近有个朋友,用vb开发一个工具,遇到WebClient获取的内容出现乱码,可惜对vb不是很熟悉,看了几分钟vb的语法 ...
【C#】获取网页内容及HTML解析器HtmlAgilityPack的使用
最近经常需要下载一些东西,而这个下载地址又会经过层层跳转,每个页面上都有很多广告,烦不胜烦,所以做了一个一键获得最终下载地址的小工具.使用C#,来获取网页内容,然后通过HtmlAgilityPack获 ...
定义一个方法get_page(url),url参数是需要获取网页内容的网址，返回网页的内容。提示（可以了解python的urllib模块）
定义一个方法get_page(url),url参数是需要获取网页内容的网址,返回网页的内容.提示(可以了解python的urllib模块) import urllib.request def get_ ...
使用Jsoup获取网页内容超时设置
使用Jsoup获取网页内容超时设置最近使用Jsoup来抓取网页,并对网页进行解析,发现很好用.在抓取过程中遇到一个问题,有些页面总是报Timeout异常,开始想是不是被抓取网站对IP进行了限制,后来 ...
基于apache —HttpClient的小爬虫获取网页内容
今天(17-03-31)忙了一下午研究webmagic,发现自己还太年轻,对于这样难度的框架(类库) 还是难以接受,还是从基础开始吧,因为相对基础的东西教程相多一些,于是乎我找了apache其下的 H ...
使用selenium和phantomJS浏览器获取网页内容的小演示
# 使用selenium和phantomJS浏览器获取网页内容的小演示 # 导入包 from selenium import webdriver # 使用selenium库里的webdriver方法调 ...

随机推荐

ES6框架的搭建
1.引入traceur.js http://google.github.io/traceur-compiler/bin/traceur.js 2.将Traceur编译器用于网页 new traceu ...
C++学习笔记(8)----C++类的大小
C++类的大小 (i) 如下代码: #include<iostream> using namespace std; class CBase { }; class CDerive :publ ...
Java Basis
java中.java源文件放在src文件夹下,.class文件放在bin文件夹下. java代码区域,以及控制台区域字体大小更改.Java->Java Editor Text Font ...
【眼见为实】自己动手实践理解数据库READ COMMITTED && MVCC
[READ COMMITTED] 首先设置数据库隔离级别为读已提交(READ COMMITTED): set global transaction isolation level READ COMMI ...
ubuntu下面解压tar.gz包报错：tar命令报错： gzip: stdin: not in gzip format tar: Child returned status 1 tar: Error
原因: 压缩包文件不完整(损坏或者其他原因) 比如今天下载的tomcat8,使用ubuntu的命令下载的 curl -O http://apache.mirrors.ionfish.org/tomca ...
zabbix启动报错:Connection to database 'xxx' failed解决方法
Zabbix 分布式系统监视系统 zabbix是一个基于WEB界面的提供分布式系统监视以及网络监视功能的企业级的开源解决方案. zabbix能监视各种网络参数,保证服务器系统的安全运营:并提供灵活的通 ...
Quick BI助力云上大数据分析---深圳云栖大会
在3月29日深圳云栖大会的数据分析与可视化专场中,阿里云产品专家陌停对大数据智能分析产品 Quick BI 进行了深入的剖析.大会现场的精彩分享也赢得观众们的一直认可和热烈的反响. 大数据分析之路的挑 ...
Linux命令--目录处理
ls命令 Linux ls命令用于显示指定工作目录下之内容(列出目前工作目录所含之文件及子目录). 语法 ls [-alrtAFR] [name...] 参数 : -a 显示所有文件及目录 (ls内定 ...
Java遇到的问题、错误——持续更新
内容:dead code.关于eclipse没有js代码提示的解决持续更新 ######################################################## dead ...
css计数器及鼠标经过从中间扩散一个矩形（正方形长方形均可）
<!DOCTYPE html> <html> <head> <title>css计数器--兼容IE8</title> <meta ch ...

C# WebClient Get获取网页内容

C# WebClient Get获取网页内容的更多相关文章

随机推荐

热门专题