PHP用curl抓取网站数据，仿造IP、伪造来源等，防屏蔽解决方案教程

1、伪造客户端IP地址，伪造访问referer:（一般情况下这就可以访问到数据了）

curl_setopt($curl, CURLOPT_HTTPHEADER, ['X-FORWARDED-FOR:110.85.108.185', 'CLIENT-IP:110.85.108.185']);

curl_setopt($curl, CURLOPT_REFERER, 'http://www.demo.com/test.php');

2、如是上面的还是不行，可能是别人抓到了真实IP，这时候我们就使用代理访问。

#  详细方式

curl_setopt($curl, CURLOPT_PROXY, '112.85.209.72');    //代理服务器地址

curl_setopt($curl, CURLOPT_PROXYPORT, 80);             //代理服务器端口

//curl_setopt($curl, CURLOPT_PROXYUSERPWD, ':'');      //http代理认证帐号，username:password的格式

curl_setopt($curl, CURLOPT_PROXYTYPE, CURLPROXY_HTTP); //使用http代理模式

#  简写方式

curl_setopt($curl, CURLOPT_PROXY, 'http://112.85.209.72:80');

3、还有一种就是用浏览器可以访问，用curl不行。（对方检查了useragent，如果没有就认为是非法来源等验证了）

$useragent = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 ';

$useragent.= '(KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36';

curl_setopt($curl, CURLOPT_USERAGENT, $useragent);

PHP完整Curl抓取数据函数：

/**

 * 请求接口

 * @access public

 * @param string $url 请求地址

 * @param array $data 提交参数 没有get 有post

 * @return bean|array

 */

public function send($url='')

{

    set_time_limit(0);

    $curl = curl_init();

    curl_setopt($curl, CURLOPT_URL, $url);

    curl_setopt($curl, CURLOPT_RETURNTRANSFER, 1);

    curl_setopt($curl, CURLOPT_CONNECTTIMEOUT, 10);

    curl_setopt($curl, CURLOPT_FOLLOWLOCATION, 1);

    curl_setopt($curl, CURLOPT_HTTPHEADER, ['X-FORWARDED-FOR:127.0.1.1', 'CLIENT-IP:127.0.1.1']);

    curl_setopt($curl, CURLOPT_REFERER, 'http://www.demo.com/demo.php');

    curl_setopt($curl, CURLOPT_PROXY, 'http://127.0.0.1:80');

    $useragent = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 ';

    $useragent.= '(KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36';

    curl_setopt($curl, CURLOPT_USERAGENT, $useragent);

    if(!empty($data) && is_array($data)){

        curl_setopt($curl, CURLOPT_POST, true);

        curl_setopt($curl, CURLOPT_POSTFIELDS, $data);

    }

    $html = curl_exec($curl);

    if($error=curl_errno($curl)){

        return false;

    }

    curl_close($curl);

    return $html;

}

PHP用curl抓取网站数据，仿造IP、伪造来源等，防屏蔽解决方案教程的更多相关文章

用curl抓取网站数据，仿造IP、防屏蔽终极强悍解决方式
最近在做一些抓取其它网站数据的工作,当然别人不会乖乖免费给你抓数据的,有各种防抓取的方法.不过道高一尺,魔高一丈,通过研究都是有漏洞可以钻的.下面的例子都是用PHP写的,不会用PHP来curl的孩纸先 ...
抓取网站数据不再是难事了，Fizzler（So Easy）全能搞定
首先从标题说起,为啥说抓取网站数据不再难(其实抓取网站数据有一定难度),SO EASY!!!使用Fizzler全搞定,我相信大多数人或公司应该都有抓取别人网站数据的经历,比如说我们博客园每次发表完文章 ...
利用linux curl爬取网站数据
看到一个看球网站的以下截图红色框数据,想爬取下来,通常爬取网站数据一般都会从java或者python爬取,但本人这两个都不会,只会shell脚本,于是硬着头皮试一下用shell爬取,方法很笨重,但旨在 ...
C# 抓取网站数据
项目主管说这是项目中的一个亮点(无语...), 类似于爬虫一类的东西,模拟登陆后台系统,获取需要的数据.然后就开始研究这个. 之前有一些数据抓取的经验,抓取流程无非:设置参数->服务端发送请求- ...
pythonのscrapy抓取网站数据
(1)安装Scrapy环境步骤请参考:https://blog.csdn.net/c406495762/article/details/60156205 需要注意的是,安装的时候需要根据自己的pyt ...
利用nodejs的cheerio抓取网站数据
/*引入模块*/ var http = require('http') var url = 'http://www.cnblogs.com/txxt' var cheerio = require('c ...
shell用curl抓取页面乱码，参考一下2方面（转）
1.是用curl抓取的数据是用类似gzip压缩后的数据导致的乱码.乱码:curl www.1ting.com |more乱码:curl -H "Accept-Encoding: gzip&q ...
Node.js的学习--使用cheerio抓取网页数据
打算要写一个公开课网站,缺少数据,就决定去网易公开课去抓取一些数据. 前一阵子看过一段时间的Node.js,而且Node.js也比较适合做这个事情,就打算用Node.js去抓取数据. 关键是抓取到网页 ...
爬虫抓取页面数据原理（php爬虫框架有很多）
爬虫抓取页面数据原理(php爬虫框架有很多 ) 一.总结 1.php爬虫框架有很多,包括很多傻瓜式的软件 2.照以前写过java爬虫的例子来看,真的非常简单,就是一个获取网页数据的类或者方法(这里的话 ...

随机推荐

Manthan, Codefest 19 (open for everyone, rated, Div. 1 + Div. 2)-C. Magic Grid-构造
Manthan, Codefest 19 (open for everyone, rated, Div. 1 + Div. 2)-C. Magic Grid-构造 [Problem Descripti ...
python代码规范自动优化工具Black
自动优化工具Black 在众多代码格式化工具中,Black算是比较新的一个,它***的特点是可配置项比较少,个人认为这对于新手来说是件好事,因为我们不必过多考虑如何设置Black,让 Black 自己 ...
微信小程序~模板template引用
当您的项目需要多次使用同一个布局和样式的时候,您就可以考虑使用template(模板)来减少冗余代码. 使用方式: 1.新建一个template文件夹来存放您的通用模板: 2.在文件夹里面新建一个wx ...
SD介绍
1. 介绍 MMC,MultiMediaCard,即多媒体卡,是一种非易失性存储器件,有7pin,目前已基本被SD卡代替 eMMC,Embedded Multimedia Card,内嵌式存储器,以B ...
项目Alpha冲刺（团队）-第十天冲刺
格式描述课程名称:软件工程1916|W(福州大学) 作业要求:项目Alpha冲刺(团队) 团队名称:为了交项目干杯作业目标:描述第十天冲刺的项目进展.问题困难.心得体会队员姓名与学号队员学号 ...
wordpress模板加载顺序汇总
我们要创建一个新的wordpress模板需要先了解有哪些页面模板,这些页面模板的文件是什么?它们是怎么工作的?下面ytkah汇总了一些常用的wordpress模板结构方便大家查找首页首先WordP ...
Spring框架:Controller和RestController区别
了解如何利用SpringMVC的注释创建RESTful Web服务. Spring的基于注释的MVC框架简化了创建RESTful Web服务的过程.传统的Spring MVC控制器和RESTful W ...
LOJ P10002 喷水装置题解
每日一题 day35 打卡 Analysis 先将不符合条件的区间去掉(即半径小于W,不然宽度无法符合),将符合条件的按区间存入节点中.区间的左边界是x-sqrt(r*r-W*W/4.0),要计算x轴 ...
circus docker image web 运行异常问题的解决
经过查看官方文档,因为我使用的是python 较高版本,存在兼容问题,解决方法修改基础镜像版本代码如下: FROM python:2.7-slim-stretch LABEL AUTHOR=&qu ...
Truffle - 以太坊Solidity编程语言开发框架
http://truffle.tryblockchain.org/ Truffle框架 Truffle是什么? Truffle是针对基于以太坊的Solidity语言的一套开发框架. 本身基于JavaS ...

PHP用curl抓取网站数据，仿造IP、伪造来源等，防屏蔽解决方案教程

PHP用curl抓取网站数据，仿造IP、伪造来源等，防屏蔽解决方案教程的更多相关文章

随机推荐

热门专题