C#快速获取指定网页源码的几种方式，并通过字符串截取函数或正则取指定内容(IP)

//只获取网页源码开始到标题位目的进行测试

//第一种方式经过测试，稍微快点

 string url = "http://www.ip.cn";

            HttpWebRequest req = (HttpWebRequest)WebRequest.Create(url);

            req.Method = "GET";

            req.ContentType = "application/x-www-form-urlencoded";

            HttpWebResponse res = (HttpWebResponse)req.GetResponse();

            Stream ReceiveStream = res.GetResponseStream();

            Encoding encode = System.Text.Encoding.UTF8;

            StreamReader sr = new StreamReader(ReceiveStream, encode);

            string strResult = "";

            Char[] read = new Char[];

            int count = sr.Read(read, , );

            while (count > )

            {

                String str = new String(read, , count);

                strResult += str;

                count = sr.Read(read, , );

                if (strResult.IndexOf("</title>") != -)

                {

                    break;

                }

            }

            textBoxTest.Text = strResult;

//第二种获取网页源码

WebClient MyClient = new WebClient();

MyClient.Credentials = CredentialCache.DefaultCredentials;

MyClient.Headers.Add("Host", "www.kuwo.cn");

MyClient.Headers.Add("User-Agent", "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36");

Byte[] pageData = MyClient.DownloadData(url);

//string pageHtml = Encoding.Default.GetString(pageData);  //GB2312

string pageHtml = Encoding.UTF8.GetString(pageData); //UTF-8

//字符串截取，从网页源码中截取 两字符串中间信息

private string GetStr(string TxtStr, string FirstStr, string SecondStr)

        {

            if (FirstStr.IndexOf(SecondStr, ) != -)

                return "";

            int FirstSite = TxtStr.IndexOf(FirstStr, );

            int SecondSite = TxtStr.IndexOf(SecondStr, FirstSite + );

            if (FirstSite == - || SecondSite == -)

                return "";

            return TxtStr.Substring(FirstSite + FirstStr.Length, SecondSite - FirstSite - FirstStr.Length);

        }

//正则截取字符串 A.B之间

string title2 = Regex.Match(title, "(?<="+"A"+").*?(?="+"B"+")").Value;

//Regex.Match(sUrl, "(?<=A).*?(?=B)").Value;

 //自定义函数

private string MyGetTitle(string url, string endTag, string startStr, string endStr)

        {

            try

            {

                //HttpWebRequest类继承于WebRequest，并没有自己的构造函数，需通过WebRequest的Creat方法 建立，并进行强制的类型转换

                HttpWebRequest req = (HttpWebRequest)WebRequest.Create(url);

                req.Method = "GET";

                req.ContentType = "text/html;charset=UTF-8";

                //通过HttpWebRequest的GetResponse()方法建立HttpWebResponse,强制类型转换

                HttpWebResponse res = (HttpWebResponse)req.GetResponse();

                //若成功取得网页的内容，则以System.IO.Stream形式返回，

                //若失败则产生ProtoclViolationException错 误。

                //在此正确的做法应将以下的代码放到一个try块中处理。这里简单处理

                Stream ReceiveStream = res.GetResponseStream();

                //返回的内容是Stream形式的，所以可以利用StreamReader类获取GetResponseStream的内容,

                //并以StreamReader类的Read方法依次读取网页源程序代码每一行的内容，直至行尾（读取的编码格式：UTF8）

                StreamReader sr = new StreamReader(ReceiveStream, Encoding.UTF8);

                string strResult = "";

                Char[] read = new Char[];

                //Read(char[] buffer,int index,int count);

                //从文件流的第index个位置开始读，到count个字符，把它们存到buffer中，

                //然后返回一个正数，内部指针后移一位，保证下次从新的位置开始读。

                int count = sr.Read(read, , );

                while (count > )

                {

                    String str = new String(read, , count);

                    strResult += str;

                    count = sr.Read(read, , );

                    if (strResult.IndexOf(endTag) != -) break;

                }

                res.Close();

                ReceiveStream.Dispose();

                return Regex.Match(strResult, "(?<=" + startStr + ").*?(?=" + endStr + ")").Value;

            }

            catch (Exception ex)

            {

                LogAdd(ListBoxDownLog, "异常：" + ex.Message);

                throw;

            }

        }

C#快速获取指定网页源码的几种方式，并通过字符串截取函数或正则取指定内容(IP)的更多相关文章

C#获取指定网页源码的几种方法
// WebClient private string GetWebClient(string url) { string strHTML = ""; WebClient myWe ...
github下载源码的三种方式
从github上下载源码的三种方式 CreationTime--2018年6月7日15点21分 Author:Marydon 1.情景展示 2.实现方式方式一:直接点击"Downloa ...
Python3.4 获取百度网页源码并保存在本地文件中
最近学习python 版本 3.4 抓取网页源码并且保存在本地文件中 import urllib.request url='http://www.baidu.com' #上面的url一定要写明确,如果 ...
objectARX加载lisp函数、源码的一种方式
//感谢高飞鸟highflybird版主的思路以及研究. //先声明非公开函数acedEvaluateLisp extern int acedEvaluateLisp(const ACHAR*,str ...
免费获取 IntelliJ IDEA 激活码的 6 种方式！
你还在满世界找 IntelliJ IDEA 激活码? 破解的不稳定,也是违法的,有安全风险还不一定,不建议大家使用来历不明的补丁. 今天栈长就分享免费获取 IntelliJ IDEA 的 6 种方式, ...
PHP 通过fsockopen函数获取远程网页源码
<?php $fp = fsockopen("www.baidu.com", 80, &$errno, &$errstr, 10); if(!$fp) { e ...
c#下载网页源码的两种方法
1.WebClient: System.Net.WebClient wc = new System.Net.WebClient(); Byte[] pageData = wc.DownloadData ...
Python3 Selenium WebDriver网页的前进、后退、刷新、最大化、获取窗口位置、设置窗口大小、获取页面title、获取网页源码、获取Url等基本操作
Python3 Selenium WebDriver网页的前进.后退.刷新.最大化.获取窗口位置.设置窗口大小.获取页面title.获取网页源码.获取Url等基本操作通过selenium webdr ...
Selenium WebDriver-网页的前进、后退、刷新、最大化、获取窗口位置、设置窗口大小、获取页面title、获取网页源码、获取Url等基本操作
通过selenium webdriver操作网页前进.后退.刷新.最大化.获取窗口位置.设置窗口大小.获取页面title.获取网页源码.获取Url等基本操作 from selenium import ...

随机推荐

Python面向对象----继承, 重载
1. 面向对象三大特性之继承. 继承的便捷是子类可以直接调用父类里面的方法和属性.(在强类型语言里面是只能调用公有成员), 不用重复的造轮子. 减少程序猿的负担.实现多态等上层结构 2. 父类代码 3 ...
js数组对象排序详解
一.js对象遍历输出的时候真的是按照顺序输出吗? 下边就来实践一下: var obj={'3':'ccc',name:'abc',age:23,school:'sdfds',class:'dfd',h ...
00107_TCP通信
1.TCP通信的概述 (1)TCP通信同UDP通信一样,都能实现两台计算机之间的通信,通信的两端都需要创建socket对象: (2)区别在于: ①UDP中只有发送端和接收端,不区分客户端与服务器端,计 ...
PatentTips – RDMA data transfer in a virtual environment
BACKGROUND Embodiments of this invention relate to RDMA (remote direct memory access) data transfer ...
MySQL终端（Terminal）命令基本操作（转）
注意:MySQL数据库命令不区分大小写.但在MAC的终端,如果你想使用tab自动补全命令,那么你就必须使用大写,这样MAC的终端才会帮你补全命令,否则你按N遍tab都不会有响应. 1.数据库(data ...
Spring MVC-控制器（Controller）-参数方法名称解析器（Parameter Method Name Resolver ）示例（转载实践）
以下内容翻译自:https://www.tutorialspoint.com/springmvc/springmvc_parametermethodnameresolver.htm 说明:示例基于Sp ...
CF #330 D2 E
相当于给你一些点,要你最多删除不超过k,使得能使用一个边长为整数的长方形,与XY轴平行,使长方形的面积最小. 上课时拿笔来画画,然后忽然思路就开了,要是比赛也这样就好了~~先按X,Y分别排序,由于K较 ...
CF #330 C
改了题目之后,就是没有奇数的测试了... 其实可以很轻易地发现,要距离近的一方只会删除两端的,而要求远的一方会删除中间的. 那么,很明显的,剩下的两点会相差x/2个节点,于是,只要计算i和i+x/2的 ...
HDU 4542
T_T终于让我过了,坑啊,竟然时限是200ms... 我是预处理出不整除了个数的,因为这个较容易一点.利用算术基本定理,f=p1^a1*p2^a2...... 所以,整除它的个数就是(a1+1)*(a ...
个人常常使用的一些Eclipse技巧
引言为了加快开发效率,方便地浏览源代码,重构以及重写一些方法等,Eclipse给我们提供了非常多方便的快捷键以及小技巧.以下是我总结一下经常使用的快捷键和技巧. 快捷键清理控制台(console) ...

C#快速获取指定网页源码的几种方式，并通过字符串截取函数 或 正则 取指定内容(IP)

C#快速获取指定网页源码的几种方式，并通过字符串截取函数 或 正则 取指定内容(IP)的更多相关文章

随机推荐

热门专题

C#快速获取指定网页源码的几种方式，并通过字符串截取函数或正则取指定内容(IP)

C#快速获取指定网页源码的几种方式，并通过字符串截取函数或正则取指定内容(IP)的更多相关文章