相信很多程序(尤其是采集类的程序)都会有需要把网址的相对路径转换成绝对路径的需要,例如采集到某页面的HTML代码中包含资源文件经常会看到这样的文件名:

  • <link rel="stylesheet" href="css/style.css" />
  • <img src="/logo.png" />
  • <img src="../banner.jpg" />

如果直接用获取其href属性或src属性很明显这个地址是打不开的,这就需要将其中的相对路径转为绝对路径。查一下网上相关的代码也不少,但大多数代码都太难被读懂,而且执行效率不见得会高,基于此我开始着手写一个自己的转化方法。

由于采集来的网址格式大部分为绝对地址或者位于根目录的地址,所以代码对这两种格式的的地址优先处理并返回,以提高代码的执行效率。

源码如下:函数接收两个参数,第一个参数为采集到的相对路径,第二个参数为被采集的原始的URL,例如从www.example.com/a/b/c.html中采集到某资源地址为css/style.css,那么函数调用方式为filter_relative_url('css/style.css', 'http://www.example.com/a/b/c.html');(注:函数中省略了对URI参数的验证和过滤操作,如果URI参数没加http://前缀会报错,相关验证代码可自行添加)。

  • /**
  • * 把从HTML源码中获取的相对路径转换成绝对路径
  • * @param string $url HTML中获取的网址
  • * @param string $URI 用来参考判断的原始地址
  • * @return 返回修改过的网址,如果网址有误则返回FALSE
  • */
  • function filter_relative_url($url, $URI){
  • //STEP1: 先去判断URL中是否包含协议,如果包含说明是绝对地址则可以原样返回
  • if(strpos($url, '://') !== FALSE){
  • return $url;
  • }
  • //STEP2: 解析传入的URI
  • $URI_part = parse_url($URI);
  • if($URI_part == FALSE)
  • return FALSE;
  • $URI_root = $URI_part['scheme'] . '://' . $URI_part['host'] . (isset($URI_part['port']) ? ':' . $URI_part['port'] : '');
  • //STEP3: 如果URL以左斜线开头,表示位于根目录
  • if(strpos($url, '/') === 0){
  • return $URI_root . $url;
  • }
  • //STEP4: 不位于根目录,也不是绝对路径,考虑如果不包含'./'的话,需要把相对地址接在原URL的目录名上
  • $URI_dir = (isset($URI_part['path']) &amp;&amp; $URI_part['path']) ? '/' . ltrim(dirname($URI_part['path']), '/') : '';
  • if(strpos($url, './') === FALSE){
  • if($URI_dir != ''){
  • return $URI_root . $URI_dir . '/' . $url;
  • } else {
  • return $URI_root . '/' . $url;
  • }
  • }
  • //STEP5: 如果相对路径中包含'../'或'./'表示的目录,需要对路径进行解析并递归
  • //STEP5.1: 把路径中所有的'./'改为'/','//'改为'/'
  • $url = preg_replace('/[^\.]\.\/|\/\//', '/', $url);
  • if(strpos($url, './') === 0)
  • $url = substr($url, 2);
  • //STEP5.2: 使用'/'分割URL字符串以获取目录的每一部分进行判断
  • $URI_full_dir = ltrim($URI_dir . '/' . $url, '/');
  • $URL_arr = explode('/', $URI_full_dir);
  • if($URL_arr[0] == '..')
  • return FALSE;
  • //因为数组的第一个元素不可能为'..',所以这里从第二个元素开始循环
  • $dst_arr = $URL_arr; //拷贝一个副本,用于最后组合URL
  • for($i = 1; $i < count($URL_arr); $i ++){
  • if($URL_arr[$i] == '..'){
  • $j = 1;
  • while(TRUE){
  • if(isset($dst_arr[$i - $j]) &amp;&amp; $dst_arr[$i - $j] != FALSE){
  • $dst_arr[$i - $j] = FALSE;
  • $dst_arr[$i] = FALSE;
  • break;
  • } else {
  • $j ++;
  • }
  • }
  • }
  • }
  • // 组合最后的URL并返回
  • $dst_str = $URI_root;
  • foreach($dst_arr as $val){
  • if($val != FALSE)
  • $dst_str .= '/' . $val;
  • }
  • return $dst_str;
  • }
php

代码如上分为几步针对不同格式的相对路径进行处理并返回,以下是测试代码:

  • $URI_1 = 'http://www.abc.com/a/b/c/d.html';
  • $URI_2 = 'http://www.abc.com';
  • $test [] = 'http://www.abc.com/css/style.css';
  • $test [] = '/img/banner.jpg';
  • $test [] = 'images/res_03.png';
  • $test [] = '../../js/jquery.min.js';
  • $test [] = './../res/js/../jquery/./1.8.3/jquery.js';
  • foreach($test as $val){
  • echo filter_relative_url($val, $URI_1);
  • }
  • foreach($test as $val){
  • echo filter_relative_url($val, $URI_2);
  • }
php

程序返回:

  • http://www.abc.com/css/style.css
  • http://www.abc.com/img/banner.jpg
  • http://www.abc.com/a/b/c/images/res_03.png
  • http://www.abc.com/a/js/jquery.min.js
  • http://www.abc.com/a/b/res/jquery/1.8.3/jquery.js
  • http://www.abc.com/css/style.css
  • http://www.abc.com/img/banner.jpg
  • http://www.abc.com/images/res_03.png

*注:测试代码的第二个循环只返回了3条结果,是因为后两条结果返回了FALSE,因为原始URI是位于网站根目录,再在前面加“../“请求上级目录是无效的。

以上代码的主要优点是解决了网上流传的那些代码对于复杂格式的相对路径不能完美兼容的问题,同时照顾了执行效率,减少判断和分解的次数。此代码目前我自己正在使用,如果有任何问题还请留言或邮件联系我,谢谢!


2016年5月17日更新

看到PHP官网WIKI上面有一个关于相对地址转换的写法,写在下面以供参考:

  • function normalizePath($path)
  • {
  • $parts = array();// Array to build a new path from the good parts
  • $path = str_replace('\\', '/', $path);// Replace backslashes with forwardslashes
  • $path = preg_replace('/\/+/', '/', $path);// Combine multiple slashes into a single slash
  • $segments = explode('/', $path);// Collect path segments
  • $test = '';// Initialize testing variable
  • foreach($segments as $segment)
  • {
  • if($segment != '.')
  • {
  • $test = array_pop($parts);
  • if(is_null($test))
  • $parts[] = $segment;
  • else if($segment == '..')
  • {
  • if($test == '..')
  • $parts[] = $test;
  • if($test == '..' || $test == '')
  • $parts[] = $segment;
  • }
  • else
  • {
  • $parts[] = $test;
  • $parts[] = $segment;
  • }
  • }
  • }
  • return implode('/', $parts);
  • }
php

参考资料:

本文链接:https://icewing.cc/post/php-conv-addr-re-ab-2.html

黄聪:PHP转换网址相对路径到绝对路径的一种方法的更多相关文章

  1. WPF编程,通过Path类型制作沿路径运动的动画另一种方法。

    原文:WPF编程,通过Path类型制作沿路径运动的动画另一种方法. 版权声明:我不生产代码,我只是代码的搬运工. https://blog.csdn.net/qq_43307934/article/d ...

  2. filebeat配置不同路径下的log的两种方法

    第一种方法: vim /etc/filebeat/filebeat.yml filebeat.inputs: # Each - is an input. Most options can be set ...

  3. Java从文件路径中获取文件名的几种方法

    举例:String fName =" G:\Java_Source\navigation_tigra_menu\demo1\img\lev1_arrow.gif " 方法一: 1 ...

  4. python将字符串转换成字典的几种方法

    当我们遇到类似于{‘a’:1, 'b':2, 'c':3}这种字符串时,想要把它转换成字典进行处理,可以使用以下几种方法: 1. Python自带的eval函数(不安全) dictstr = '{&q ...

  5. 如何修改myeclipse中web项目的工作路径或默认路径

    如何修改myeclipse中web项目的工作路径或默认路径 博客分类: J2EE开发技术指南   安装好myeclipse后,第一次启动myeclipse时,都会弹出会弹出Workspace Laun ...

  6. 黄聪:如何使用CodeSmith批量生成代码(转:http://www.cnblogs.com/huangcong/archive/2010/06/14/1758201.html)

    先看看CodeSmith的工作原理: 简单的说:CodeSmith首先会去数据库获取数据库的结构,如各个表的名称,表的字段,表间的关系等等,之后再根据用户自定义好的模板文件,用数据库结构中的关键字替代 ...

  7. 【转】黄聪:HtmlAgilityPack教程案例

    [转]黄聪:HtmlAgilityPack教程案例 HtmlAgilityPack中的HtmlNode类与XmlNode类差不多,提供的功能也大同小异.下面来看看该类提供功能. 一.静态属性 publ ...

  8. 黄聪:《跟黄聪学WordPress插件开发》

    续<跟黄聪学WordPress主题开发>之后,又一个作品完成!<跟黄聪学Wordpress插件开发>,国内最好的Wordpress插件开发视频教程!! 目录预览: WordPr ...

  9. C# .Net实现URL绝对路径和相对路径之间互相转换

    网站制作开发中,URL的绝对路径和相对路径之间互相转换,是经常需要用到的.以下是在C#.Net下一种实现二者互相转化的方法: [DllImport("shlwapi.dll", C ...

随机推荐

  1. JAVA开发几个常用快捷键

  2. Nginx + FastCGI + Django在windows上部署及nginx常用命令

    一般应用都是部署在linux系统上,不会在windows上部署,emmm..所以有兴趣的就瞧瞧吧哈哈 nginx工作原理: nginx用于处理静态文件,动态部分经由fastcgi .scgi或uWSG ...

  3. ism 发布

    ism 发布 ism 发布 ism 发布

  4. 网页前端之JavaScript学习记录总结篇

    咔咔咔咔咔咔扩扩扩扩扩扩扩扩扩扩

  5. TopCoder12808 「SRM594Medium」FoxAndGo3 二分图最大独立集

    问题描述 一个 \(N \times N\) 围棋棋盘,任意两个白子不相邻,你要加入若干个黑子并提出白子,最大化空格数目. submit 题解 显然最终棋盘的局面不能够一个白子和它周围的空格都是空的, ...

  6. IT兄弟连 HTML5教程 多媒体应用 新增多媒体播放元素

    在HTML5之前,要在网站上展示视频.音频.动画等多媒体信息,除了使用第三方自主开发的播放器,使用最多的工具应该算是Flash了,但是它们都需要在浏览器中安装各种插件才能使用,有时速度很慢.HTML5 ...

  7. three.js实现土星绕太阳体系

    概况如下: 1.SphereGeometry实现自转的太阳,土星: 2.RingGeometry实现土星公转轨道: 3.ImageUtils加载球体贴图: 4.canvas中createRadialG ...

  8. jenkins-pipeline里使用docker命令

    在jenkins的pipeline里,就是jenkinsfile文件里,如果希望调用docker来构建镜像,需要进行以下配置! tools{}里添加docker是失败的,这个我找了很多资料,最后需要e ...

  9. 【转载】Android App应用启动分析与优化

    前言: 昨晚新版本终于发布了,但是还是记得有测试反馈app启动好长时间也没进入app主页,所以今天准备加个班总结一下App启动那些事! app的启动方式: 1.)冷启动  当启动应用时,后台没有该应用 ...

  10. GitHub访问速度慢的一种优化方法

    GitHub是一个面向开源及私有软件项目的托管平台,因为只支持Git 作为唯一的版本库格式进行托管,故名GitHub. 由于GitHub是一个国外网站,在国内访问速度如何呢? 我们通过浏览器访问下ht ...