C#用正则表达式获取网页源代码标签的属性或值

1.有url获取到网页源代码：

using System.Web;

        using System.IO;

        using System.Net;

        private void GetHtmlinfo(string PageUrl)

        {

            WebRequest request = WebRequest.Create(PageUrl);

            WebResponse response = request.GetResponse();

            Stream resStream = response.GetResponseStream();

            StreamReader sr = new StreamReader(resStream, System.Text.Encoding.UTF8);

            string htmlinfo = sr.ReadToEnd();

            resStream.Close();

            sr.Close();       

        }

2.获取标签中的值：

using System.Text.RegularExpressions;

         /// 获取字符中指定标签的值

      /// </summary>

        /// <param name="str">字符串</param>

        /// <param name="title">标签</param>

        /// <returns>值</returns>

        public static string GetTitleContent(string str, string title1, string title2)

        {

            string tmpStr = string.Format("<{0}[^>]*?>(?<Text>[^<]*)</ {1}>", title1, title2); //获取<title>之间内容  

            Match TitleMatch = Regex.Match(str, tmpStr, RegexOptions.IgnoreCase);  

            string result = TitleMatch.Groups["Text"].Value;

            return result;

        }

Example:
HTML 源文件：<span class="t1_tx">现排名:<b class="color1">20</b>

Parameter: title1 = @"span class=""t1_tx"">现排名:<b class=""color1""";

title2 - "b";

3.获取标签中的属性：

/// 获取字符中指定标签的值

      /// </summary>

        /// <param name="str">字符串</param>

        /// <param name="title">标签</param>

        /// <param name="attrib">属性名</param>

        /// <returns>属性</returns>

        public static string GetTitleContent(string str, string title,string attrib)

        {  

            string tmpStr = string.Format("<{0}[^>]*?{1}=(['\"\"]?)(?<url>[^'\"\"\\s>]+)\\1[^>]*>", title, attrib); //获取<title>之间内容  

            Match TitleMatch = Regex.Match(str, tmpStr, RegexOptions.IgnoreCase);  

            string result = TitleMatch.Groups["url"].Value;

            return result;

        }

C#用正则表达式获取网页源代码标签的属性或值的更多相关文章

[转载]C#用正则表达式获取网页源代码标签的属性或值
最近调试程序需要用到获取网页指定标签的属性和值,找到了一个比较好的正则匹配方法,特此备份. [原]C#用正则表达式获取网页源代码标签的属性或值整理两个在C#中,用正则表达式获取网页源代码标签的 ...
C#用正则表达式获取标签的属性或值
整理两个在C#中,用正则表达式获取网页源代码标签的属性或值的方法 : 1.获取标签中的值: string str="<a href=\"www.csdn.net\&quo ...
delphi 获取网页源代码
//获取网页源代码 var s: string; begin s := WebBrowser1.OleObject.document.body.innerHTML; //body内的所有代码 ...
Java 网络爬虫获取网页源代码原理及实现
Java 网络爬虫获取网页源代码原理及实现 1.网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成.传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL ...
c#利用WebClient和WebRequest获取网页源代码的比较
前几天举例分析了用asp+xmlhttp获取网页源代码的方法,但c#中一般是可以利用WebClient类和WebRequest类获取网页源代码.下面分别说明这两种方法的实现. WebClient类获取 ...
JS远程获取网页源代码的例子
js代码获取网页源代码. 代码: <!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"> < ...
c#利用WebClient和WebRequest获取网页源代码
C#中一般是可以利用WebClient类和WebRequest类获取网页源代码.下面分别说明这两种方法的实现. WebClient类获取网页源代码 WebClient类 WebClient ...
c#利用HttpWebRequest获取网页源代码
c#利用HttpWebRequest获取网页源代码,搞了好几天终于解决了,直接获取网站编码进行数据读取,再也不用担心乱码了! 命名空间:Using System.Net private static ...
js技术要点---JS 获取网页源代码
JS 获取网页源代码 <!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"> <html& ...

随机推荐

一个好用的hash函数（C语言）
typedef unsigned int DWORD; typedef unsigned char BYTE; /******************************************* ...
富文本编辑器ckeditor继承
新建一个web项目ckfinder,导入lib包加入java包,编码格式UTF-8 在WebRoot下添加ckedtior以及ckfinder两个文件夹,将config.xml拷入WEB-INF中 ...
vs 2013下自定义ASP.net MVC 5/Web API 2 模板（T4 视图模板/控制器模板）
vs 2013下自定义ASP.net MVC 5/Web API 2 模板(T4 视图模板/控制器模板): Customizing ASP.NET MVC 5/Web API 2 Scaffoldi ...
RIA Service 的 SOAP EndPoint
原文 www.cyqdata.com/cnblogs/article-detail-39983-english 越来越多的朋友都在使用Silverlight开发应用程序,其中我们常用的还会有一个特殊的 ...
Thml 小插件8 天气插件定制
网址:http://www.tianqi.com/plugin/
POJ 3693 Maximum repetition substring（后缀数组+ST表）
[题目链接] poj.org/problem?id=3693 [题目大意] 求一个串重复次数最多的连续重复子串并输出,要求字典序最小. [题解] 考虑错位匹配,设重复部分长度为l,记s[i]和s[i+ ...
Euromonitor 2013年奢侈品报告精选 |华丽志
Euromonitor 2013年奢侈品报告精选 |华丽志 Euromonitor 2013年奢侈品报告精选
GitHub Linux下使用方法
1. 在网站注册帐号,创建工程 test 进入工程,右下角会有一个项目仓库的地址.https://github.com/braverior/test.git 2.Linux下安装github sud ...
Android 手势锁的实现为了让自己的应用程序的安全，现在
转载请注明出处:http://blog.csdn.net/lmj623565791/article/details/36236113 今天偶遇以github上gesturelock关于手势锁的一个样例 ...
【中英对照】【EntLib6】【Unity】实验1：使用一个Unity容器
Lab 1: Using a Unity Container 实验1:使用一个Unity容器 Estimated time to complete this lab: 15 minutes 估计完成时 ...

C#用正则表达式 获取网页源代码标签的属性或值

C#用正则表达式 获取网页源代码标签的属性或值的更多相关文章

随机推荐

热门专题

C#用正则表达式获取网页源代码标签的属性或值

C#用正则表达式获取网页源代码标签的属性或值的更多相关文章