C#用正则表达式获取网页源代码标签的属性或值

1.有url获取到网页源代码：

using System.Web;

        using System.IO;

        using System.Net;

        private void GetHtmlinfo(string PageUrl)

        {

            WebRequest request = WebRequest.Create(PageUrl);

            WebResponse response = request.GetResponse();

            Stream resStream = response.GetResponseStream();

            StreamReader sr = new StreamReader(resStream, System.Text.Encoding.UTF8);

            string htmlinfo = sr.ReadToEnd();

            resStream.Close();

            sr.Close();       

        }

2.获取标签中的值：

using System.Text.RegularExpressions;

         /// 获取字符中指定标签的值

      /// </summary>

        /// <param name="str">字符串</param>

        /// <param name="title">标签</param>

        /// <returns>值</returns>

        public static string GetTitleContent(string str, string title1, string title2)

        {

            string tmpStr = string.Format("<{0}[^>]*?>(?<Text>[^<]*)</ {1}>", title1, title2); //获取<title>之间内容  

            Match TitleMatch = Regex.Match(str, tmpStr, RegexOptions.IgnoreCase);  

            string result = TitleMatch.Groups["Text"].Value;

            return result;

        }

Example:
HTML 源文件：<span class="t1_tx">现排名:<b class="color1">20</b>

Parameter: title1 = @"span class=""t1_tx"">现排名:<b class=""color1""";

title2 - "b";

3.获取标签中的属性：

/// 获取字符中指定标签的值

      /// </summary>

        /// <param name="str">字符串</param>

        /// <param name="title">标签</param>

        /// <param name="attrib">属性名</param>

        /// <returns>属性</returns>

        public static string GetTitleContent(string str, string title,string attrib)

        {  

            string tmpStr = string.Format("<{0}[^>]*?{1}=(['\"\"]?)(?<url>[^'\"\"\\s>]+)\\1[^>]*>", title, attrib); //获取<title>之间内容  

            Match TitleMatch = Regex.Match(str, tmpStr, RegexOptions.IgnoreCase);  

            string result = TitleMatch.Groups["url"].Value;

            return result;

        }

C#用正则表达式获取网页源代码标签的属性或值的更多相关文章

[转载]C#用正则表达式获取网页源代码标签的属性或值
最近调试程序需要用到获取网页指定标签的属性和值,找到了一个比较好的正则匹配方法,特此备份. [原]C#用正则表达式获取网页源代码标签的属性或值整理两个在C#中,用正则表达式获取网页源代码标签的 ...
C#用正则表达式获取标签的属性或值
整理两个在C#中,用正则表达式获取网页源代码标签的属性或值的方法 : 1.获取标签中的值: string str="<a href=\"www.csdn.net\&quo ...
delphi 获取网页源代码
//获取网页源代码 var s: string; begin s := WebBrowser1.OleObject.document.body.innerHTML; //body内的所有代码 ...
Java 网络爬虫获取网页源代码原理及实现
Java 网络爬虫获取网页源代码原理及实现 1.网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成.传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL ...
c#利用WebClient和WebRequest获取网页源代码的比较
前几天举例分析了用asp+xmlhttp获取网页源代码的方法,但c#中一般是可以利用WebClient类和WebRequest类获取网页源代码.下面分别说明这两种方法的实现. WebClient类获取 ...
JS远程获取网页源代码的例子
js代码获取网页源代码. 代码: <!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"> < ...
c#利用WebClient和WebRequest获取网页源代码
C#中一般是可以利用WebClient类和WebRequest类获取网页源代码.下面分别说明这两种方法的实现. WebClient类获取网页源代码 WebClient类 WebClient ...
c#利用HttpWebRequest获取网页源代码
c#利用HttpWebRequest获取网页源代码,搞了好几天终于解决了,直接获取网站编码进行数据读取,再也不用担心乱码了! 命名空间:Using System.Net private static ...
js技术要点---JS 获取网页源代码
JS 获取网页源代码 <!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"> <html& ...

随机推荐

.net mvc笔记3_Understanding Razor Syntax
Understanding Razor Syntax MVC3新视图引擎的名字叫做Razor.ASP.NET视图引擎处理web页面,寻找包含在服务器端指令的特殊元素.正如我们前面已经提到的,标准的AS ...
Java知识点复习
总结下java的知识点 final 关键字-方法:不能被子类重写(override)-变量:不能被修改-类:不可以被继承,派生子类 finally 关键字与try/catch语句配合使用,即使有异常抛 ...
swift菜鸟入门视频教程-03-字符串和字符
本人自己录制的swift菜鸟入门,欢迎大家拍砖.有什么问题能够在这里留言. 主要内容: 字符串字面量初始化空字符串字符串可变性字符串是值类型使用字符计算字符数量连接字符串和字符字符串插值 ...
typedef使用
1.利用typedef定义函数指针代码简化,促进跨平台开发 typedef行为有点类似#define 宏,用其实际类型替代同义字. 不同点:typedef 在编译时被解释,因此让编译器来应付超 ...
C#中两个整数相除得到带小数点的结果
有时候需要将两个整数相除,获得带小数点的float类型数.例如一个整数12345,需要变成123.45.常见与串口与硬件通讯,DSP处理浮点型比较麻烦,DSP传递来的温度等数据都以整型的方式传递,串口 ...
iOS开发笔记基于wsdl2objc调用asp.net WebService
1.准备先下载待会要用到的工具 WSDL2ObjC-0.6.zip WSDL2ObjC-0.7-pre1.zip 我用的是WSDL2ObjC-0.6.zip 1.1搭建asp.net WebServ ...
2015 5.16 C# 继承和多态
类的层次结构有两种基本的构造方式自顶向下自底向上基类的保护成员是指允许派生类的方法代码访问,而不是指通过派生类的对象访问如果基类中的字段通过公有且可读写的属性进行了封装,那么建议将字段定义 ...
获取当前WEB应用全路径
<%String path = request.getContextPath();String basePath =request.getScheme()+"://"+req ...
1.1. chromium源代码分析 - chromiumframe - 介绍
本人能力有效,面对chromium庞大的代码就头大.还是先由前辈的chromiumFrame入手. 1. chromeFrame概貌 chromiumFrame是前辈的心血之作,以最小化的方式抽出ch ...
HDU 4497 GCD and LCM（分解质因子+排列组合）
题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=4497 题意:已知GCD(x, y, z) = G,LCM(x, y, z) = L.告诉你G.L,求满 ...

C#用正则表达式 获取网页源代码标签的属性或值

C#用正则表达式 获取网页源代码标签的属性或值的更多相关文章

随机推荐

热门专题

C#用正则表达式获取网页源代码标签的属性或值

C#用正则表达式获取网页源代码标签的属性或值的更多相关文章