C＃-提取网页中的超链接

转载：http://www.wzsky.net/html/Program/net/26849.html
using System;

using System.Xml;

using System.Text;

using System.Net;

using System.IO;

using System.Collections;

using System.Text.RegularExpressions; 

namespace test

{

    class Program

    {

        static void Main(string[] args)

        {

            string strCode;

            ArrayList alLinks;

            Console.Write("请输入一个网页地址：");

            string strURL = Console.ReadLine();

            if (strURL.Substring(, ) != @"http://")

            {

                strURL = @"http://" + strURL;

            }

            Console.WriteLine("正在获取页面代码，请稍侯...");

            strCode = GetPageSource(strURL);

            Console.WriteLine("正在提取超链接，请稍侯...");

            alLinks = GetHyperLinks(strCode);

            Console.WriteLine("正在写入文件，请稍侯...");

            WriteToXml(strURL, alLinks);

        }

        // 获取指定网页的HTML代码

        static string GetPageSource(string URL)

        {

            Uri uri = new Uri(URL);

            HttpWebRequest hwReq = (HttpWebRequest)WebRequest.Create(uri);

            HttpWebResponse hwRes = (HttpWebResponse)hwReq.GetResponse();

            hwReq.Method = "Get";

            hwReq.KeepAlive = false;

            StreamReader reader = new StreamReader(hwRes.GetResponseStream(), System.Text.Encoding.GetEncoding("GB2312"));

            return reader.ReadToEnd();

        }

        // 提取HTML代码中的网址

        static ArrayList GetHyperLinks(string htmlCode)

        {

            ArrayList al = new ArrayList();

            string strRegex = @"http://([\w-]+\.)+[\w-]+(/[\w- ./?%&=]*)?";

            Regex r = new Regex(strRegex, RegexOptions.IgnoreCase);

            MatchCollection m = r.Matches(htmlCode);

            for (int i = ; i <= m.Count - ; i++)

            {

                bool rep = false;

                string strNew = m[i].ToString();

                // 过滤重复的URL

                foreach (string str in al)

                {

                    if (strNew == str)

                    {

                        rep = true;

                        break;

                    }

                }

                if (!rep) al.Add(strNew);

            }

            al.Sort();

            return al;

        }

        // 把网址写入xml文件

        static void WriteToXml(string strURL, ArrayList alHyperLinks)

        {

            XmlTextWriter writer = new XmlTextWriter("HyperLinks.xml", Encoding.UTF8);

            writer.Formatting = Formatting.Indented;

            writer.WriteStartDocument(false);

            writer.WriteDocType("HyperLinks", null, "urls.dtd", null);

            writer.WriteComment("提取自" + strURL + "的超链接");

            writer.WriteStartElement("HyperLinks");

            writer.WriteStartElement("HyperLinks", null);

            writer.WriteAttributeString("DateTime", DateTime.Now.ToString());

            foreach (string str in alHyperLinks)

            {

                string title = GetDomain(str);

                string body = str;

                writer.WriteElementString(title, null, body);

            }

            writer.WriteEndElement();

            writer.WriteEndElement();

            writer.Flush();

            writer.Close();

        }

        // 获取网址的域名后缀

        static string GetDomain(string strURL)

        {

            string retVal;

            string strRegex = @"(\.com/|\.net/|\.cn/|\.org/|\.gov/)";

            Regex r = new Regex(strRegex, RegexOptions.IgnoreCase);

            Match m = r.Match(strURL);

            retVal = m.ToString();

            strRegex = @"\.|/$";

            retVal = Regex.Replace(retVal, strRegex, "").ToString();

            if (retVal == "")

                retVal = "other";

            return retVal;

        }

    }

}

C＃-提取网页中的超链接的更多相关文章

python笔记之提取网页中的超链接
python笔记之提取网页中的超链接对于提取网页中的超链接,先把网页内容读取出来,然后用beautifulsoup来解析是比较方便的.但是我发现一个问题,如果直接提取a标签的href,就会包含jav ...
用html.parser抓网页中的超链接,返回list
#python3 from html.parser import HTMLParser class MyHTMLParser(HTMLParser): """ 1.tag ...
python学习笔记——爬虫中提取网页中的信息
1 数据类型网页中的数据类型可分为结构化数据.半结构化数据.非结构化数据三种 1.1 结构化数据常见的是MySQL,表现为二维形式的数据 1.2 半结构化数据是结构化数据的一种形式,并不符合关系 ...
[爬虫学习笔记]用于提取网页中所有链接的 Extractor 模块
Extractor的工作是从下载的网页中将它包含的所有URL提取出来.这是个细致的工作,你需要考虑到所有可能的url的样式,比如网页中常常会包含相对路径的url,提取的时候需要将它转换 ...
网页中的超链接<a>标签
格式: <a href="目标网址" title="鼠标滑过显示的文本">链接显示的文本</a> 注意:为文本加入<a>标签 ...
C#正则表达式通过HTML提取网页中的图片src
目前在做HoverTreeCMS项目中有处理图片的部分,参考了一下网上案例,自己写了一个获取内容中的图片地址的方法. 可以先看看效果:http://tool.hovertree.com/a/zz/im ...
【搜索引擎Jediael开发笔记3】使用HtmlParser提取网页中的链接
关于HtmpParser的基本内容请见 HtmlParser基础教程本文示例用于提取HTML文件中的链接 package org.ljh.search.html; import java.util. ...
【google chrome 一键打开谷歌跳转的页面+JS Replace】谷歌无法打开网页的时候，提取网页中url的部分
经常在谷歌搜索,遇到网页无法打开,然后就停留在比如:http://www.google.com.hk/search?newwindow=1&safe=strict&site=& ...
Python:提取网页中的电子邮箱
import requests, re #regex = r"([a-zA-Z0-9_.+-]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+)"#这个正则表达式过滤 ...

随机推荐

20145210 《Java程序设计》第07周学习总结
教材学习内容总结第十二章 Lambda 12.1 认识Lambda语法 •Lambda 教材的引入循序渐近.深入浅出 •如果使用JDK8的话,可以使用Lambda特性去除重复的信息,例: Compa ...
Hello WPF！
WPF是微软提供的用户界面框架,它提供了统一的编程模型.语言,实现了分离界面设计人员与开发人员的工作.相对基于C++的MFC来说,界面更加美观,操作更加便捷,是新WIN环境下UI的首选. vs中新建W ...
【转】Paxos算法深入分析
http://blog.csdn.net/anderscloud/article/details/7175209 在分布式系统设计领域,Paxos可谓是最重要一致性的算法.Google的大牛们称 ...
var functionName = function() {} vs function functionName() {}
The difference is that functionOne is defined at run-time, whereas functionTwo is defined at parse-t ...
命令行创建畸形文件夹+畸形目录管理工具(DeformityPath)
命令行创建畸形文件夹: 第一步:在运行中输入cmd,回车,打开命令行窗口第二步:在命令行窗口中切换到想要建立文件夹的硬盘分区,如D盘(输入d:) 第三步:输入 MD 123..＼回车,注意文件夹名 ...
使用AjaxPro
1:后台注册 protected void Page_Load(object sender, EventArgs e) { AjaxPro.Utility.RegisterTypeForAjax(ty ...
装载：关于拉格朗日乘子法与KKT条件
作者:@wzyer 拉格朗日乘子法无疑是最优化理论中最重要的一个方法.但是现在网上并没有很好的完整介绍整个方法的文章.我这里尝试详细介绍一下这方面的有关问题,插入自己的一些理解,希望能够对大家有帮助. ...
tyvj 1056 能量项链区间dp (很神)
P1056 能量项链时间: 1000ms / 空间: 131072KiB / Java类名: Main 背景 NOIP2006 提高组第一道描述在Mars星球上,每个Mars人都随身佩 ...
2015GitWebRTC编译实录2
2015.07.17libyuvneon编译通过,可能需要验证才行.先继续下一个lib commonaudio[170/1600 ] CXX obj /webrtc/common_audio/comm ...
spingmvc 返回json数据日期格式化方法
第一种: json 用的是这个依赖  <dependency> <groupId>com.fasterxm ...

C＃-提取网页中的超链接

C＃-提取网页中的超链接的更多相关文章

随机推荐

热门专题