* 从Packagist上搜索需要的包

https://packagist.org/

* 通过composer下载依赖包

composer require guzzlehttp/guzzle
composer require league/csv

  

* 使用composer自动加载器, 编写scan.php

<?php

// 1. 使用composer自动加载器
require 'vendor/autoload.php'; use GuzzleHttp\RequestOptions; // 2. 实例Guzzle HTTP客户端
$client = new \GuzzleHttp\Client(); $options = [
RequestOptions::TIMEOUT => 3,
RequestOptions::DECODE_CONTENT => false,
RequestOptions::HEADERS => [
'User-Agent' => 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36',
]
]; // 3. 打开迭代处理csv
// 或者传用户自定义命令行参数指定输入文件 $argv[1]
// $file = new SplFileObject('../data/t_video.csv'); /* $csvRow[4], $csvRow[5] */
$file = new SplFileObject('../data/urls.csv');
$csv = \League\Csv\Reader::createFromFileObject($file);
foreach ($csv as $csvRow) {
$url = $csvRow[0];
echo 'scanning ',$url,'... ';
try {
// 4. 发送http options请求
$httpResponse = $client->request('GET', $url, $options); // 5. 检查http相应的状态码
$code = $httpResponse->getStatusCode();
if ($code === 200) {
echo "\033[32m[OK]\033[0m",PHP_EOL;
} else {
throw new \Exception();
} } catch (\Exception $e) {
// 6. 把死链发给标准输出
// echo $url.PHP_EOL;
echo "\033[31m[ERROR]\033[0m ".$e->getMessage().PHP_EOL;
}
}

  

* input csv:

../data/urls.csv

https://www.baidu.com
https://mail.qq.com/cgi-bin/frame_html?sid=CYcBjsDbOqznWhVO&r=375cccc57697ed7d00ae5d751663a71c
https://pan.baidu.com/disk/home?errno=0&errmsg=Auth%20Login%20Sucess&&bduss=&ssnerror=0&traceid=#/all?vmode=list&path=%2F05.php%2F25K%20PHP%E9%9D%A2%E8%AF%95%E8%A7%86%E9%A2%91%E6%95%99%E7%A8%8B
http://dict.youdao.com/w/eng/components/#keyfrom=dict2.index
http://php.net/manual/en/splfileobject.fwrite.php
https://www.baidu.com/s?ie=utf-8&f=8&rsv_bp=1&rsv_idx=2&tn=baiduhome_pg&wd=ansi%20%E7%BB%88%E7%AB%AF%E9%A2%9C%E8%89%B2%20%5B%5C33&rsv_spt=1&oq=ansi%2520%25E7%25BB%2588%25E7%25AB%25AF%25E9%25A2%259C%25E8%2589%25B2&rsv_pq=8b17bd6e0027882b&rsv_t=fcf6oR2SbHi9Cpu2eThdv3AQvGwSDf7ecjv7QBvjXoZ3SMpBem3pdNzlNRNmuOW%2BEowe&rqlang=cn&rsv_enter=1&inputT=2640&rsv_sug3=68&rsv_sug2=0&rsv_sug4=3243
https://blog.csdn.net/SLASH_24/article/details/54846392
https://www.jb51.net/article/42358.htm
https://www.cnblogs.com/xudong-bupt/p/3721210.html
http://www.cnblogs.com/mingzhanghui/p/9314906.html
https://packagist.org/packages/maatwebsite/excel
https://www.phptherightway.com/#use_the_current_stable_version
https://doc.phpspider.org/methods.html
http://nosuchurl
http://deadurl

  

output:

* 在Linux终端输出带颜色的文字的方法

注意 echo "" 要用双引号, 单引号会原样输出 \033[32mxxx\033[0m

一、shell下的实现方法

只要设置输出属性,就可输出带颜色的文字 ,shell中的部分属性:

      \033[0m 关闭所有属性
      \033[1m 设置高亮度
      \033[4m 下划线
      \033[5m 闪烁
      \033[7m 反显
      \033[8m 消隐
      \033[30m 至 \33[37m 设置前景色
      \033[40m 至 \33[47m 设置背景色
      \033[nA 光标上移n行 
      \033[nB 光标下移n行
      \033[nC 光标右移n行
      \033[nD 光标左移n行
      \033[y;xH设置光标位置
      \033[2J 清屏
      \033[K 清除从光标到行尾的内容
      \033[s 保存光标位置 
      \033[u 恢复光标位置
      \033[?25l 隐藏光标
      \033[?25h 显示光标
 
--------------------------------------------------------------------------
      各数字所代表的颜色如下:
      字背景颜色范围:40----49
      40:黑
      41:深红
      42:绿
      43:黄色
      44:蓝色
      45:紫色
      46:深绿
      47:白色

      字颜色:30----39
      30:黑
      31:红
      32:绿
      33:黄
      34:蓝色
      35:紫色
      36:深绿 
      37:白色
 
      使用,如:echo -e "\033[34mHello, world!" (-e作用是引导设置输出属性),
      恢复属性为默认值:echo -e  "\033[0m",
      同类的多种设置项可以组合在一起,中间用分号(;)隔开。如下:
      echo -e "\033[20;1H\033[1;4;34mHello,world\033[0m"

===================================================================================

php 命令行脚本

http://php.net/manual/en/wrappers.php.php

http://php.net/manual/en/reserved.variables.argv.php

http://php.net/manual/en/reserved.variables.argc.php

====================================================================================

scanner.php

不在终端打印 返回数组

 1 <?php
2 /**
3 * Created by PhpStorm.
4 * User: Mch
5 * Date: 7/17/18
6 * Time: 21:34
7 */
8 namespace Tsinghuadtv\ModernPHP\Url;
9
10 // composer require guzzlehttp/guzzle
11 require 'vendor/autoload.php';
12
13 use GuzzleHttp\RequestOptions;
14
15 class Sanner {
16 protected $urls;
17
18 protected $httpClient;
19
20 protected $options = [
21 RequestOptions::VERSION => 1.1,
22 RequestOptions::TIMEOUT => 3,
23 RequestOptions::DECODE_CONTENT => false,
24 RequestOptions::HEADERS => [
25 'User-Agent' => 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.133 Safari/537.36'
26 ]
27 ];
28
29 public function __construct(array $urls) {
30 $this->urls = $urls;
31 $this->httpClient = new \GuzzleHttp\Client();
32 }
33
34 public function getInvalidUrls() {
35 $invalidUrls = [];
36 foreach ($this->urls as $url) {
37 try {
38 $statusCode = $this->getStatusCodeForUrl($url);
39 } catch (\Exception $e) {
40 $statusCode = 500;
41 }
42 if ($statusCode >= 400) {
43 array_push($invalidUrls, [
44 'url' => $url,
45 'status' => $statusCode
46 ]);
47 }
48 }
49 return $invalidUrls;
50 }
51
52 protected function getStatusCodeForUrl($url) {
53 $httpResponse = $this->httpClient->request('get', $url, $this->options);
54 return $httpResponse->getStatusCode();
55 }
56
57 }

scanner.php

调用scanner.php测试

假设这个包提交到 modernphp/scanner  https://packagist.org

composer require modernphp/scanner

 1 <?php
2 /**
3 * Created by PhpStorm.
4 * User: Mch
5 * Date: 7/17/18
6 * Time: 21:41
7 */
8 // require 'vendor/autoload.php';
9 include 'scanner.php';
10
11 $urls = [
12 'http://www.apple.com',
13 'http://nosuchurl',
14 'https://www.cnblogs.com/mingzhanghui/p/9317179.html',
15 'https://www.baidu.com',
16 'http://jp2.php.net',
17 'http://sdfssdwerw.org'
18 ];
19
20 $scanner = new \Tsinghuadtv\ModernPHP\Url\Sanner($urls);
21 print_r($scanner->getInvalidUrls());

index.php

output:

Array (

    [0] => Array ([url] => http://nosuchurl   [status] => 500 )

[1] => Array([url] => http://sdfssdwerw.org  [status] => 500 )

)

php 扫描url死链接的更多相关文章

  1. php 扫描url死链接 \033[31m ANSI Linux终端输出带颜色

    * 从Packagist上搜索需要的包 https://packagist.org/ * 通过composer下载依赖包 composer require guzzlehttp/guzzlecompo ...

  2. 常用工具篇(二)死链接扫描工具–Xenu

    一个网站上线一段时间之后,可能出现很多的死链接,死链接就是那些打不开的链接,或者是请求是404的,可能是因为有的文件位置移动了,或者有的功能不好使了,可能会影响我们网的功能,我们就要隔一阵扫描一下网站 ...

  3. 死链接检查工具:Xenu 使用教程

    一.软件作用 Xenu 全称Xenu’s Link Sleuth,是一款英文软件,界面单一,功能简单,使用方法很容易掌握.虽然看起来简单,但Xenu却拥有强大的功能.Xenu可以对网站的内链进行详细的 ...

  4. Xenu-web开发死链接检測工具应用

    Xenu 是一款深受业界好评,并被广泛使用的死链接检測工具. 时常检測站点并排除死链接,对站点的SEO 很重要,由于大量死链接存在会减少用户和搜索引擎对站点的信任,web程序开发者还可通过其找到死链接 ...

  5. Xenu-web开发死链接检测工具应用

    Xenu 是一款深受业界好评,并被广泛使用的死链接检测工具. 时常检测网站并排除死链接,对网站的SEO 非常重要,因为大量死链接存在会降低用户和搜索引擎对网站的信任,web程序开发人员还可通过其找到死 ...

  6. 基于Python实现的死链接自动化检测工具

    基于Python实现的死链接自动化检测工具   by:授客 QQ:1033553122 测试环境: win7 python 3.3.2 chardet 2.3.0 脚本作用: 检测系统中访问异常(请求 ...

  7. 整站死链接检测与查询工具 Xenu(可以用来制作sitemap)

    http://www.wocaoseo.com/thread-286-1-1.html 很多新手朋友们都会去找一些工具来检查网站死链接,这里给大家分享一款非常好用的检查网站死链接的工具xenu,大家可 ...

  8. 最佳死链接href= "#" VS href= "javascript:void(0);"

    href= "#" 熟悉hash跳转的同学都知道,只是一个hash跳转,跳转到页面的顶部,可以发现地址栏多了一个#,点击返回会返回本页面. href= "javascri ...

  9. mmz-asio4delphi死链接的解决办法

    最近一段时间,因为忙于网络的项目,特意到网上找了些例子,特意花时间研究了一下马敏钊写的 mmz-asio4delphi 感觉很好用,不过深入研究之后,发现一个问题. 马大的这个代码,会产生死链接.   ...

随机推荐

  1. Element Vue 开箱即用框架如何使用-测试开发【提测平台】阶段小结(二)

    微信搜索[大奇测试开],关注这个坚持分享测试开发干货的家伙. 上一篇总结了后端服务接口的开发,这篇我们主要来总结下前后端分离开发中的前端部分,主要是开箱即用的框架介绍和之前章节组件的梳理和部分的扩展内 ...

  2. mysql 常用见的错误处理

    一, 创建用户: 命令:CREATE USER 'username'@'host' IDENTIFIED BY 'password'; 说明:username - 你将创建的用户名, host - 指 ...

  3. springboot如何使用事物注解方式

    1.在启动类Application中添加注解@EnableTransactionManagement import tk.mybatis.spring.annotation.MapperScan; i ...

  4. Windows10 Dev - Background Execution

    The Universal Windows Platform (UWP) introduces new mechanisms, which allow the applications to perf ...

  5. 简析时序数据库 InfluxDB

    时序数据基础 时序数据特点 时序数据TimeSeries是一连串随时间推移而发生变化的相关事件. 以下图的 CPU 监控数据为例,同个 IP 的相关监控数据组成了一条时序数据,不相关数据则分布在不同的 ...

  6. Spark Ignite踩坑记录

    Ignite spark 踩坑记录 简述 ignite访问数据有两种模式: Thin Jdbc模式: Jdbc 模式和Ignite client模式: shell客户端输出问题,不能输出全列: 针对上 ...

  7. spring boot应用常用配置

    pom.xml <!--自动打包--> <plugin> <groupId>org.springframework.boot</groupId> < ...

  8. promise链式调用的应用

    then在链式调用时,会等前一个then或者函数执行完毕,返回状态,才会执行回调函数. (1)代码顺序执行,第一步调用了函数cook ,cook执行返回了一个promise,promise返回的是成功 ...

  9. 恶意软件开发——shellcode执行的几种常见方式

    一.什么是shellcode? shellcode是一小段代码,用于利用软件漏洞作为有效载荷.它之所以被称为"shellcode",是因为它通常启动一个命令shell,攻击者可以从 ...

  10. eclipse 将本地插件引用(多种方法)

    eclipse 将本地插件引用(多种方法) 因为工作原因需要使用eclipse,而接触的项目需要一个eclipse的插件才可以进行一些特殊的使用,但是因为年久用的人也少,我解压原先带有插件版本的ecl ...