C# 抓取并导出网页里面所有超链接方法

public class app

    {

        // 获取指定网页的HTML代码

        public static string GetPageSource(string URL)

        {

            Uri uri = new Uri(URL);

            HttpWebRequest hwReq = (HttpWebRequest)WebRequest.Create(uri);

            HttpWebResponse hwRes = (HttpWebResponse)hwReq.GetResponse();

            hwReq.Method = "Get";

            hwReq.KeepAlive = false;

            StreamReader reader = new StreamReader(hwRes.GetResponseStream(), System.Text.Encoding.GetEncoding("GB2312"));

            return reader.ReadToEnd();

        }

        // 提取HTML代码中的网址

        public static ArrayList GetHyperLinks(string htmlCode)

        {

            ArrayList al = new ArrayList();

            string strRegex = @"http://([\w-]+\.)+[\w-]+(/[\w- ./?%&=]*)?";

            Regex r = new Regex(strRegex, RegexOptions.IgnoreCase);

            MatchCollection m = r.Matches(htmlCode);

            for (int i = ; i <= m.Count - ; i++)

            {

                bool rep = false;

                string strNew = m[i].ToString();

                // 过滤重复的URL

                foreach (string str in al)

                {

                    if (strNew == str)

                    {

                        rep = true;

                        break;

                    }

                }

                if (!rep) al.Add(strNew);

            }

            al.Sort();

            return al;

        }

        // 把网址写入xml文件

        public static void WriteToXml(string strURL, ArrayList alHyperLinks)

        {

            XmlTextWriter writer = new XmlTextWriter("HyperLinks.xml", Encoding.UTF8);

            writer.Formatting = Formatting.Indented;

            writer.WriteStartDocument(false);

            writer.WriteDocType("HyperLinks", null, "urls.dtd", null);

            writer.WriteComment("提取自" + strURL + "的超链接");

            writer.WriteStartElement("HyperLinks");

            writer.WriteStartElement("HyperLinks", null);

            writer.WriteAttributeString("DateTime", DateTime.Now.ToString());

            foreach (string str in alHyperLinks)

            {

                string title = GetDomain(str);

                string body = str;

                writer.WriteElementString(title, null, body);

            }

            writer.WriteEndElement();

            writer.WriteEndElement();

            writer.Flush();

            writer.Close();

        }

        // 获取网址的域名后缀

        static string GetDomain(string strURL)

        {

            string retVal;

            string strRegex = @"(\.com/|\.net/|\.cn/|\.org/|\.gov/)";

            Regex r = new Regex(strRegex, RegexOptions.IgnoreCase);

            Match m = r.Match(strURL);

            retVal = m.ToString();

            strRegex = @"\.|/$";

            retVal = Regex.Replace(retVal, strRegex, "").ToString();

            if (retVal == "")

                retVal = "other";

            return retVal;

        }

    }

private void btnkaishi_Click(object sender, EventArgs e)

        {

            string strCode;

            ArrayList alLinks;

            if (txtapi.Text == "")

            {

                MessageBox.Show("请输入网址");

                return;

            }

            string strURL = txtapi.Text.ToString().Trim();

            if (strURL.Substring(, ) != @"http://")

            {

                strURL = @"http://" + strURL;

            }

            MessageBox.Show("正在获取页面代码，请稍后...");

            strCode = app.GetPageSource(strURL);

            MessageBox.Show("正在提取超链接，请稍侯...");

            alLinks = app.GetHyperLinks(strCode);

            MessageBox.Show("正在写入文件，请稍侯...");

            app.WriteToXml(strURL, alLinks);

        }

C# 抓取并导出网页里面所有超链接方法的更多相关文章

PHP抓取及分析网页的方法详解
本文实例讲述了PHP抓取及分析网页的方法.分享给大家供大家参考,具体如下: 抓取和分析一个文件是非常简单的事.这个教程将通过一个例子带领你一步一步地去实现它.让我们开始吧! 首先,我首必须决定我们将抓 ...
使用Python中的urlparse、urllib抓取和解析网页（一）（转）
对搜索引擎.文件索引.文档转换.数据检索.站点备份或迁移等应用程序来说,经常用到对网页(即HTML文件)的解析处理.事实上,通过Python 语言提供的各种模块,我们无需借助Web服务器或者Web浏览 ...
C#抓取和分析网页的类
抓取和分析网页的类. 主要功能有: Ontology 1.提取网页的纯文本,去所有html标签和javascript代码 2.提取网页的链接,包括href和frame及iframe 3.提取网页的ti ...
Python中的urlparse、urllib抓取和解析网页（一）
对搜索引擎.文件索引.文档转换.数据检索.站点备份或迁移等应用程序来说,经常用到对网页(即HTML文件)的解析处理.事实上,通过Python 语言提供的各种模块,我们无需借助Web服务器或者Web浏览 ...
Windbg抓取程序崩溃的dmp文件的方法
Windbg抓取程序崩溃的dmp文件的方法一. 简介 windbg是在windows平台下,强大的用户态和内核态调试工具.相比较于Visual Studio,它是一个轻量级的调试工具, ...
C#实现通过程序自动抓取远程Web网页信息的代码
http://www.jb51.net/article/9499.htm 通过程序自动的读取其它网站网页显示的信息,类似于爬虫程序.比方说我们有一个系统,要提取BaiDu网站上歌曲搜索排名.分析系统在 ...
网络爬虫中Fiddler抓取PC端网页数据包与手机端APP数据包
1 引言在编写网络爬虫时,第一步(也是极为关键一步)就是对网络的请求(request)和回复(response)进行分析,寻找其中的规律,然后才能通过网络爬虫进行模拟.浏览器大多也自带有调试工具可以 ...
C#抓取远程Web网页信息的代码
来自:http://www.jb51.net/article/9499.htm 通过程序自动的读取其它网站网页显示的信息,类似于爬虫程序.比方说我们有一个系统,要提取BaiDu网站上歌曲搜索排名.分析 ...
实验：用Unity抓取指定url网页中的所有图片并下载保存
突发奇想,觉得有时保存网页上的资源非常麻烦,有没有办法输入一个网址就批量抓取对应资源的办法呢. 需要思考的问题: 1.如何得到网页url的html源码呢? 2.如何在浩瀚如海的html中匹配出需要的资 ...

随机推荐

Docker 入门（Mac环境）- part 3 服务（services）
part-3 服务(services) 简介一个应用的规模的扩大是很常见的事情,会经常用到负载均衡这些,如要实现这些功能,我们就会用到docker中更高一层的东西-service(服务). 比如说一 ...
Python处理大数据
起因 Python处理一下数据,大概有六七个G,然后再存到另外一个文件中,单线程跑起来发现太慢了,数据总量大概是千万行的级别,然后每秒钟只能处理不到20行--遂想怎么提高一下速度尝试1-multip ...
vs2010密钥
vs2010密钥 YCFHQ-9DWCY-DKV88-T2TMH-G7BHP
order by name 注入
order by name id id是一个注入点可以利用if语句进行注入 order by name ,if(1=1,1,select 1 from information_schema.tabl ...
ActiveMQ入门实例（转）
转载自:http://www.cnblogs.com/xwdreamer/archive/2012/02/21/2360818.html 1.下载ActiveMQ 去官方网站下载:http://act ...
[转]【MySQL】关于时间的查询，比如本月，本年，本季度
原文地址:https://www.cnblogs.com/flydkPocketMagic/p/7089324.html -- mysql查询本季度 -- 今天 select * from ticke ...
linux 重定向标准错误与标准输出到同一文件
Linux Shell 环境中的输入输出重定向,用符号<和>来表示.0.1和2分别表示标准输入.标准输出和标准错误. 1.重定向标准输出到文件: cat foo > foo.txt ...
Linxu
http://www.92csz.com/study/linux/ MySql 乱码修改 /etc/my.cnf文件 character-set-server=utf8 , 表名不区分大小写:lo ...
Android——修改Button样式，动态修改Button中的图片大小
原文地址: http://www.cnblogs.com/gzggyy/archive/2013/05/17/3083218.html http://www.xuebuyuan.com/2173740 ...
FTDI通用转USB芯片简述
FTDI公司的FT2232系列芯片可实现USB与异步串行口RS232/RS485.同步串行总线IIC/SPI/JTAG相互通信,市场占有率,使用普遍. FTDI芯片有两种类型的驱动:virtual C ...

C# 抓取并导出网页里面所有超链接方法

C# 抓取并导出网页里面所有超链接方法的更多相关文章

随机推荐

热门专题