C＃-提取网页中的超链接

转载：http://www.wzsky.net/html/Program/net/26849.html
using System;

using System.Xml;

using System.Text;

using System.Net;

using System.IO;

using System.Collections;

using System.Text.RegularExpressions; 

namespace test

{

    class Program

    {

        static void Main(string[] args)

        {

            string strCode;

            ArrayList alLinks;

            Console.Write("请输入一个网页地址：");

            string strURL = Console.ReadLine();

            if (strURL.Substring(, ) != @"http://")

            {

                strURL = @"http://" + strURL;

            }

            Console.WriteLine("正在获取页面代码，请稍侯...");

            strCode = GetPageSource(strURL);

            Console.WriteLine("正在提取超链接，请稍侯...");

            alLinks = GetHyperLinks(strCode);

            Console.WriteLine("正在写入文件，请稍侯...");

            WriteToXml(strURL, alLinks);

        }

        // 获取指定网页的HTML代码

        static string GetPageSource(string URL)

        {

            Uri uri = new Uri(URL);

            HttpWebRequest hwReq = (HttpWebRequest)WebRequest.Create(uri);

            HttpWebResponse hwRes = (HttpWebResponse)hwReq.GetResponse();

            hwReq.Method = "Get";

            hwReq.KeepAlive = false;

            StreamReader reader = new StreamReader(hwRes.GetResponseStream(), System.Text.Encoding.GetEncoding("GB2312"));

            return reader.ReadToEnd();

        }

        // 提取HTML代码中的网址

        static ArrayList GetHyperLinks(string htmlCode)

        {

            ArrayList al = new ArrayList();

            string strRegex = @"http://([\w-]+\.)+[\w-]+(/[\w- ./?%&=]*)?";

            Regex r = new Regex(strRegex, RegexOptions.IgnoreCase);

            MatchCollection m = r.Matches(htmlCode);

            for (int i = ; i <= m.Count - ; i++)

            {

                bool rep = false;

                string strNew = m[i].ToString();

                // 过滤重复的URL

                foreach (string str in al)

                {

                    if (strNew == str)

                    {

                        rep = true;

                        break;

                    }

                }

                if (!rep) al.Add(strNew);

            }

            al.Sort();

            return al;

        }

        // 把网址写入xml文件

        static void WriteToXml(string strURL, ArrayList alHyperLinks)

        {

            XmlTextWriter writer = new XmlTextWriter("HyperLinks.xml", Encoding.UTF8);

            writer.Formatting = Formatting.Indented;

            writer.WriteStartDocument(false);

            writer.WriteDocType("HyperLinks", null, "urls.dtd", null);

            writer.WriteComment("提取自" + strURL + "的超链接");

            writer.WriteStartElement("HyperLinks");

            writer.WriteStartElement("HyperLinks", null);

            writer.WriteAttributeString("DateTime", DateTime.Now.ToString());

            foreach (string str in alHyperLinks)

            {

                string title = GetDomain(str);

                string body = str;

                writer.WriteElementString(title, null, body);

            }

            writer.WriteEndElement();

            writer.WriteEndElement();

            writer.Flush();

            writer.Close();

        }

        // 获取网址的域名后缀

        static string GetDomain(string strURL)

        {

            string retVal;

            string strRegex = @"(\.com/|\.net/|\.cn/|\.org/|\.gov/)";

            Regex r = new Regex(strRegex, RegexOptions.IgnoreCase);

            Match m = r.Match(strURL);

            retVal = m.ToString();

            strRegex = @"\.|/$";

            retVal = Regex.Replace(retVal, strRegex, "").ToString();

            if (retVal == "")

                retVal = "other";

            return retVal;

        }

    }

}

C＃-提取网页中的超链接的更多相关文章

python笔记之提取网页中的超链接
python笔记之提取网页中的超链接对于提取网页中的超链接,先把网页内容读取出来,然后用beautifulsoup来解析是比较方便的.但是我发现一个问题,如果直接提取a标签的href,就会包含jav ...
用html.parser抓网页中的超链接,返回list
#python3 from html.parser import HTMLParser class MyHTMLParser(HTMLParser): """ 1.tag ...
python学习笔记——爬虫中提取网页中的信息
1 数据类型网页中的数据类型可分为结构化数据.半结构化数据.非结构化数据三种 1.1 结构化数据常见的是MySQL,表现为二维形式的数据 1.2 半结构化数据是结构化数据的一种形式,并不符合关系 ...
[爬虫学习笔记]用于提取网页中所有链接的 Extractor 模块
Extractor的工作是从下载的网页中将它包含的所有URL提取出来.这是个细致的工作,你需要考虑到所有可能的url的样式,比如网页中常常会包含相对路径的url,提取的时候需要将它转换 ...
网页中的超链接<a>标签
格式: <a href="目标网址" title="鼠标滑过显示的文本">链接显示的文本</a> 注意:为文本加入<a>标签 ...
C#正则表达式通过HTML提取网页中的图片src
目前在做HoverTreeCMS项目中有处理图片的部分,参考了一下网上案例,自己写了一个获取内容中的图片地址的方法. 可以先看看效果:http://tool.hovertree.com/a/zz/im ...
【搜索引擎Jediael开发笔记3】使用HtmlParser提取网页中的链接
关于HtmpParser的基本内容请见 HtmlParser基础教程本文示例用于提取HTML文件中的链接 package org.ljh.search.html; import java.util. ...
【google chrome 一键打开谷歌跳转的页面+JS Replace】谷歌无法打开网页的时候，提取网页中url的部分
经常在谷歌搜索,遇到网页无法打开,然后就停留在比如:http://www.google.com.hk/search?newwindow=1&safe=strict&site=& ...
Python:提取网页中的电子邮箱
import requests, re #regex = r"([a-zA-Z0-9_.+-]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+)"#这个正则表达式过滤 ...

随机推荐

magento后台登陆被锁定索引报错的解决：General error: 1205 Lock wait timeout
1. magento在索引的时候用shell,有时候会报错: General error: 1205 Lock wait timeout exceeded 这个时候,是因为行锁的原因,在表中您直接用s ...
CMAKE语法
[语法] 注释 # : #我是注释命令语法 COMMAND: COMMAND(参数1 参数2 ...) 字符串列 A;B;C //分号分割或空格分隔的值变量 ...
linxu c语言 fcntl函数和flock函数区别【转】
flock和fcntl都有锁的功能,但他们还有一点小小的区别: 1.flock只能加全局锁,fcntl可以加全局锁也可以加局部锁. 2.当一个进程用flock给一个文件加锁时,用另一个进程再给这个文件 ...
I.MX6 console 跳过 login
/*************************************************************************** * I.MX6 console 跳过 logi ...
lost+found目录
If you run fsck, the filesystem check and repair command, it might find data fragments that are not ...
hdu 1542 Atlantis
求矩形的面积之和. 线段树+离散话+扫描线 #include<iostream> #include<cstdio> #include<cstdlib> #inclu ...
一次性编译所有T-Code
SGEN, 然后选择Generate all,或regenerate ...... 转的,My question: 这个不太懂能干什么
php 函数积累
array_slice()<?php $a=array("red","green","blue","yellow" ...
static讲解
static表示"全局"或者"静态"的意思,用来修饰成员变量和成员方法,也可以形成静态static代码块,但是Java语言中没有全局变量的概念. 被stati ...
break、continue与return见的区别
比较简单的说法就是: 1.break:跳出当前的循环体 2.continue:跳出本次的循环 3.return:返回调用函数(也就完全的跳出了函数块) 好,下面就是我的代码练习君了: package ...

C＃-提取网页中的超链接

C＃-提取网页中的超链接的更多相关文章

随机推荐

热门专题