php 读取网站页面源码的经典函数

Snoopy.class.php下载

include "inc/Snoopy.class.php";

        //读取网页,返回网页源文件内容

function read_url($str){

                   $snoopy = new Snoopy;

                    $snoopy->agent = "(compatible; MSIE 4.01; MSN 2.5; AOL 4.0; Windows 98)";

                   //$snoopy->agent="Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.101 Safari/537.36";

                   $snoopy->rawheaders["Pragma"] = "no-cache";

                   $snoopy->maxredirs = 2;

                   $snoopy->offsiteok = false;

                   $snoopy->expandlinks = false;

                if($snoopy->fetch($str))

                   {

                       $result=htmlspecialchars($snoopy->results);

                   } 

             if ($result=="")

             {

                  if(function_exists("curl_init"))

                      {

                         if(!function_exists("lex_curl"))

                             {

                               function lex_curl($url)

                                 {

                                     $ch = curl_init();

                                     curl_setopt ($ch, CURLOPT_URL, $url);

                                     curl_setopt ($ch, CURLOPT_RETURNTRANSFER, 1);

                                     curl_setopt ($ch, CURLOPT_CONNECTTIMEOUT, 30);

                                     curl_setopt ($ch, CURLOPT_TIMEOUT, 30);

                                     curl_setopt ($ch, CURLOPT_FOLLOWLOCATION, TRUE);

                                     curl_setopt ($ch, CURLOPT_MAXREDIRS, 2);

                                     $file_contents = curl_exec($ch);

                                     curl_close($ch);

                                      if($file_contents=="1") $file_contents="";

                                      return $file_contents;

                                  }

                              }

                           $lex_function_get="lex_curl";

                       }

                   else

                      {$lex_function_get="file_get_contents";}

              $result=@$lex_function_get($str) or die($str.'->远程网址读取失败!');

             }

    return $result;

}

php 读取网站页面源码的经典函数的更多相关文章

在线制作微信跳转浏览器下载app/打开指定页面源码
微信自动跳转外部浏览器下载app/打开指定页面源码源码说明: 适用安卓和苹果系统,支持任何网页链接.并且无论链接是否已经被微信拦截,均可实现微信内自动跳转浏览器打开. 生成的跳转链接具有极佳的防拦截 ...
selenium3+python3.6爬页面源码的代码
from selenium import webdriver import unittest,time class my_test(unittest.TestCase): def setUp(self ...
2.18 爬页面源码（page_source）
2.18 爬页面源码(page_source) 前言有时候通过元素的属性的查找页面上的某个元素,可能不太好找,这时候可以从源码中爬出想要的信息.selenium的page_source方法可以获取到页 ...
Selenium2+python自动化37-爬页面源码（page_source）
前言有时候通过元素的属性的查找页面上的某个元素,可能不太好找,这时候可以从源码中爬出想要的信息.selenium的page_source方法可以获取到页面源码. selenium的page_sour ...
Selenium2+python自动化37-爬页面源码（page_source）【转载】
前言有时候通过元素的属性的查找页面上的某个元素,可能不太好找,这时候可以从源码中爬出想要的信息.selenium的page_source方法可以获取到页面源码. selenium的page_sour ...
Python3+Selenium3+webdriver学习笔记10（元素属性、页面源码）
#!/usr/bin/env python# -*- coding:utf-8 -*-'''Selenium3+webdriver学习笔记10(元素属性.页面源码)'''from selenium i ...
selenium3 + python - page_source页面源码
前言: 有时候通过元素的属性的查找页面上的某个元素,可能不太好找,这时候可以从源码中爬出想要的信息.selenium的page_source方法可以获取到页面源码. 本次以博客园为例,先爬取页面源码, ...
UI自动化之特殊处理四（获取元素属性\爬取页面源码\常用断言）
获取元素属性\爬取页面源码\常用断言,最终目的都是为了验证我们实际结果是否等于预期结果目录 1.获取元素属性 2.爬取页面源码 3.常用断言 1.获取元素属性获取title:driver.titl ...
简洁404页面源码 | 自适应404页面HTML好看的404源码下载
description:源码源码下载源码网源码自适应源码图片页面源码页面源码下载错误页源码 php源码 html源码动漫源码演示图如下: HTML代码片段: 1 <!DOCT ...

随机推荐

Linux设置时间
设置时间为2017年5月18号9:55:15 date -s "2017-05-18 09:55:15" 修改完后执行clock -w,把系统时间写入CMOS clock -w
Centos7 下搭建SVN ＋ Apache 服务器
1. 安装httpd 安装httpd服务: $ sudo yum install httpd 检查httpd是否安装成功: $ httpd -version Server version: Apach ...
PHP微信关注自动回复文本消息。
服务器配置URL默认接受 $_GET["echostr"] 配置成功. public function GetShow(){ $token = $this->token; / ...
linux下通过sed命令直接修改文件内容
sed是实现对流的编辑.通常,我们使用sed可以实现内容的编辑后然后保存成另外的一个文件,如果正确的话,才写入到源文件.但是某些时候,我们需要直接修改文件,因为,保存文件到一个文件,然后再覆盖原文件的 ...
windows下面的java项目打成jar放到XShell终端上面进行远程调试
前言: java项目打成jar放到linux上面运行,但是linux上面没有eclipse不能进行debug,所以要在windows的eclipse中进行远程调试. 需要注意的是!!!-->在e ...
访问Nginx报错
今天新装Nginx,一切妥善后,访问虚拟机服务器的IP,结果发现响应超时这是因为防火墙的80端口没有打开,在新装的Linux上搭服务器一般会遇到这个问题,重新开放80端口即可解决: (1)firew ...
Java中Asm包有什么用？
ASM能做什么我们都知道,一般情况下,Class文件是通过javac编译器产生的,然后通过类加载器加载到虚拟机内,再通过执行引擎去执行. 现在我们可以通过ASM的API直接生成符合Java虚拟机规范 ...
Nexus3忘记admin密码时的解决办法
其实具体步骤官网上也已经说的挺清楚了-- https://support.sonatype.com/hc/en-us/articles/213467158-How-to-reset-a-forgott ...
Zabbix笔记
简单检查中的icmppingloss[<target>,<packets>,<interval>,<size>,<timeout>] 结 ...
Django添加ckeditor富文本编辑器
源码 https://github.com/django-ckeditor/django-ckeditor 通过pip安装. pip3 install django-ckeditor pip3 ins ...

php 读取网站页面源码的经典函数

php 读取网站页面源码的经典函数的更多相关文章

随机推荐

热门专题