[爬虫学习笔记]用于提取网页中所有链接的 Extractor 模块

Extractor的工作是从下载的网页中将它包含的所有URL提取出来。这是个细致的工作，你需要考虑到所有可能的url的样式，比如网页中常常会包含相对路径的url，提取的时候需要将它转换成绝对路径。这里我们选择使用正则表达式来完成链接的提取。

html标签中的链接地址通常会出现在href属性或者src属性中，所以我们采用两个正则表达式来匹配网页中的所有链接地址。

网页链接提取器Extractor类：

using System;
using System.Collections.Generic;
using System.Linq;
using Crawler.Common;

namespace Crawler.Processing
{
    /// <summary>
    /// Extractor的工作是从下载的网页中将它包含的所有URL提取出来。这是个细致的工作，你需要考虑到所有可能的url的样式，比如网页中常常会包含相对路径的url，提取的时候需要将它转换成绝对路径。
    /// </summary>
    public class Extractor
    {
        public List<Uri> GetAllUrl(string html, string host)
        {
            var list = new List<string>();
            //匹配href属性
            var href = RegexHelper.ExtractStringArray(html, "href *= *['\"]*(\\S+)[\"']");
            //去掉匹配到字符串的空格、双引号和前面的href=，得到链接
            var temp = from h in href
                       );
            //加入数组
            list.AddRange(temp);

            //匹配src属性
            var src = RegexHelper.ExtractStringArray(html, "src *= *['\"]*(\\S+)[\"']");
            temp = from s in src
                   );
            list.AddRange(temp);

            //去重
            list = list.Distinct().ToList();

            //将链接地址中的相对路径转换为绝对路径
             ? new Uri(new Uri(host), s) : new Uri(s)).ToList();
            return uriList.ToList();
        }
    }
}

[爬虫学习笔记]用于提取网页中所有链接的 Extractor 模块的更多相关文章

python笔记之提取网页中的超链接
python笔记之提取网页中的超链接对于提取网页中的超链接,先把网页内容读取出来,然后用beautifulsoup来解析是比较方便的.但是我发现一个问题,如果直接提取a标签的href,就会包含jav ...
【搜索引擎Jediael开发笔记3】使用HtmlParser提取网页中的链接
关于HtmpParser的基本内容请见 HtmlParser基础教程本文示例用于提取HTML文件中的链接 package org.ljh.search.html; import java.util. ...
python学习笔记——爬虫中提取网页中的信息
1 数据类型网页中的数据类型可分为结构化数据.半结构化数据.非结构化数据三种 1.1 结构化数据常见的是MySQL,表现为二维形式的数据 1.2 半结构化数据是结构化数据的一种形式,并不符合关系 ...
python网络爬虫学习笔记
python网络爬虫学习笔记 By 钟桓 9月 4 2014 更新日期:9月 4 2014 文章文件夹 1. 介绍: 2. 从简单语句中開始: 3. 传送数据给server 4. HTTP头-描写叙述 ...
阅读OReilly.Web.Scraping.with.Python.2015.6笔记---找出网页中所有的href
阅读OReilly.Web.Scraping.with.Python.2015.6笔记---找出网页中所有的href 1.查找以<a>开头的所有文本,然后判断href是否在<a> ...
php爬虫学习笔记1 PHP Simple HTML DOM Parser
常用爬虫. 0. Snoopy是什么? (下载snoopy) Snoopy是一个php类,用来模仿web浏览器的功能,它能完成获取网页内容和发送表单的任务. Snoopy的一些特点: * ...
JS中substring()方法（用于提取字符串中介于两个指定下标之间的字符）
<!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title> ...
JS对象 substring() 方法用于提取字符串中介于两个指定下标之间的字符。
提取字符串substring() substring() 方法用于提取字符串中介于两个指定下标之间的字符. 语法: stringObject.substring(starPos,stopPos) 参 ...
substring() 方法用于提取字符串中介于两个指定下标之间的字符。
substring() 方法用于提取字符串中介于两个指定下标之间的字符. 语法 stringObject.substring(start,stop) 参数描述 start 必需.一个非负的整数,规定 ...

随机推荐

解决mint17-linux里chrome一搞就弹出“登陆密钥环”的框框
摘自:https://sites.google.com/site/easylinuxtipsproject/tips#TOC-Make-the-keyring-password-on-your-com ...
【转】TCP协议的无消息边界问题
http://www.cnblogs.com/eping/archive/2009/12/12/1622579.html 使用TCP协议编写应用程序时,需要考虑一个问题:TCP协议是无消息边界的, ...
降低屏幕亮度，减缓眼疲劳 (linux/windows/firefox/android)
Linux 在Linux上自动调整屏幕亮度来保护眼睛 - 51CTO.COM -- 介绍了Camera和RedShift这两款工具 How to automatically dim your scre ...
【NLP】word2vec
http://blog.csdn.net/mytestmy/article/details/26969149?utm_source=tuicool&utm_medium=referral
(笔记)Linux内核学习(八)之定时器和时间管理
一内核中的时间观念内核在硬件的帮助下计算和管理时间.硬件为内核提供一个系统定时器用以计算流逝的时间.系统定时器以某种频率自行触发,产生时钟中断,进入内核时钟中断处理程序中进行处理. 墙上时间和系 ...
sql优化之（DMV）
原文地址:http://technet.microsoft.com/zh-cn/library/bb838723.aspx Microsoft SQL Server 2005 提供了一些工具来监控数据 ...
easyui plugin——etreegrid：CRUD Treegrid
昨天写了一个ko+easyui的同样的实现,感觉写的太乱,用起来十分麻烦,于是今天照着edatagrid,写了一个etreegrid,这样再用ko绑定就方便多了. 使用很简单,$(tableId).e ...
C用函数指针模拟重载 C++重载
C中为什么不支持重载,即同一作用域内不允许出现同名函数? 我们都知道重载是c++面向对象的特性.c语言中是不存在的.所谓重载简单来说就是一个函数名可以实现不同的功能,要么输入参数不同或者参数个数不同, ...
IIS+PHP+MYSQL安装配置
首先下载php-5.2.0-win32.zip,mysql-noinstall-5.0.22-win32.zip和phpMyAdmin-2.9.1.1-all-languages.zip.这三个文件的 ...
注解Annotation 详解（转）
要深入学习注解,我们就必须能定义自己的注解,并使用注解,在定义自己的注解之前,我们就必须要了解Java为我们提供的元注解和相关定义注解的语法. 元注解: 元注解的作用就是负责注解其他注解.Java5. ...

[爬虫学习笔记]用于提取网页中所有链接的 Extractor 模块

[爬虫学习笔记]用于提取网页中所有链接的 Extractor 模块的更多相关文章

随机推荐

热门专题