PHP爬虫入门--简单的登录抓取内容

以上为背景```

----

### PHP 写爬虫 ###

  说实话我也想用Python的，毕竟人家招牌。无奈我Python还停留在看语法的阶段，实在太惭愧，鞭笞一下自己加油学习。这里用php的CURL库进行页面抓取。

  同事使用的系统需要先登录，然后有很多自定义图表。每个图表有一个`graph_id`，根据`graph_id`可以导出某段时间的csv格式报表以及对应的图形png。

#### 1. 登录cookie ####

  可能做爬虫遇到的第一关就是登录了，通常你要抓取的网页需要先验证登录用户。我们知道通常用户会话状态都是通过`SessionID`来识别，而`SessionID`通过`cookie`保存到客户端。所以当你要先登录在抓取页面的时候，先请求登录接口，获取到`cookie`保存到本地，后面抓取内容的时候每次带上这个`cookie`文件就可以了。保存`cookie`的CURL选项*`CURLOPT_COOKIEJAR`*:

    # 保存cookie的代码

    $this->cookie_file = '/tmp/cookie.curl.tmp';

    curl_setopt($ch, CURLOPT_COOKIEJAR      , $this->cookie_file);

  然后页面抓取的时候通过设置*`CURLOPT_COOKIEFILE`*带上这个cookie:

    # 设置cookie的代码

    curl_setopt($ch, CURLOPT_COOKIEFILE     , $this->cookie_file);

#### 2. 页面重定向 ####

  解决了会话session的问题，第二的头疼的就是`302`和`301`重定向了。重定向的页面response一般没有body部分，头部大概长这样:

    HTTP/1.1 302 Found

    Date: Thu, 29 Jun 2017 09:49:51 GMT

    Server: Apache/2.2.15 (CentOS)

    ...

    Location: curl_test.php?action=real_page

    Content-Length: 0

    Connection: close

    Content-Type: text/html; charset=UTF-8

  那怎么办呢？仔细观察头部信息可以发现里面包含了重定向的目标页面`Location: xxx...`。而CURL可以通过`curl_getinfo($ch, CURLINFO_HTTP_CODE)`来获取http状态码，到这里似乎就很清楚接下来该干嘛了。

        // 获取的curl结果

        $re = curl_exec($ch);

        list ($header, $body) = explode("\r\n\r\n", $re, 2);

        $http_code = curl_getinfo($ch, CURLINFO_HTTP_CODE);

        // 有的网站会检查referer地址来判断是否请求来自重定向，这里保存上次请求的url供重定向构造referer使用

        $last_url = curl_getinfo($ch, CURLINFO_EFFECTIVE_URL);

        curl_close($ch);

        if ($http_code == 301 || $http_code == 302) {

            if (preg_match('/Location:(.*?)\n/', $header, $matches)) {

                // 继续抓取目标页面

                $urlinfo = parse_url($url);

                // 这里match的url地址可能不一样，所以不一定这么简单的拼接就行

                $re_url = $urlinfo['scheme'] . '://' . $urlinfo['host'] . substr($urlinfo['path'], 0, strrpos($urlinfo['path'], '/')+1) . trim($matches[1]);

                return $this->_http_get($re_url, $last_url);

            } else {

                return FALSE;

            }

        } else if ($http_code == 200) {

            return $body;

        } else {

            echo 'Error: CURL failed.[url='.$url.']; [http code= '. $http_code.']';

            return FALSE;

        }

  有的网站会检查referer地址来判断是否请求来自重定向，通过设置curl的`CURLOPT_REFERER`参数来伪造`HTTP_REFERER`。

### 小结 ###

  以上可以说是最最基础的爬虫知识，至于正则这里就不介绍了。再往后可能就是下载内容根据Content-type判断文件类型，抓取效率问题，反爬虫策略。总之爬虫就是尽量模拟用户的行为去抓取页面，反爬虫就是尽量挑出哪些请求是爬虫哪些不是，彼此斗智斗勇。等哪天有对爬虫更深入的研究的时候再继续说吧，就到这里了。

PHP爬虫入门--简单的登录抓取内容的更多相关文章

php爬虫入门 - 登录抓取内容
PHP 写爬虫说实话我也想用Python的,毕竟人家招牌.无奈我Python还停留在看语法的阶段,实在太惭愧,鞭笞一下自己加油学习.这里用php的CURL库进行页面抓取. 同事使用的系统需要先登录, ...
Python爬虫入门教程 45-100 Charles抓取兔儿故事-下载小猪佩奇故事-手机APP爬虫部分
1. Charles抓取兔儿故事背景介绍之前已经安装了Charles,接下来我将用两篇博客简单写一下关于Charles的使用,今天抓取一下兔儿故事里面关于小猪佩奇的故事. 爬虫编写起来核心的重点是分 ...
scrapy爬虫成长日记之将抓取内容写入mysql数据库
前面小试了一下scrapy抓取博客园的博客(您可在此查看scrapy爬虫成长日记之创建工程-抽取数据-保存为json格式的数据),但是前面抓取的数据时保存为json格式的文本文件中的.这很显然不满足我 ...
Python爬虫入门教程 46-100 Charles抓取手机收音机-手机APP爬虫部分
1. 手机收音机-爬前叨叨今天选了一下,咱盘哪个APP呢,原计划是弄荔枝APP,结果发现竟然没有抓到数据,很遗憾,只能找个没那么圆润的了.搜了一下,找到一个手机收音机下载量也是不错的. 2. 爬虫 ...
爬虫学习一系列：urllib2抓取网页内容
爬虫学习一系列:urllib2抓取网页内容所谓网页抓取,就是把URL地址中指定的网络资源从网络中读取出来,保存到本地.我们平时在浏览器中通过网址浏览网页,只不过我们看到的是解析过的页面效果,而通过程 ...
python3.4学习笔记(十七) 网络爬虫使用Beautifulsoup4抓取内容
python3.4学习笔记(十七) 网络爬虫使用Beautifulsoup4抓取内容 Beautiful Soup 是用Python写的一个HTML/XML的解析器,它可以很好的处理不规范标记并生成剖 ...
iOS—网络实用技术OC篇&网络爬虫－使用java语言抓取网络数据
网络爬虫-使用java语言抓取网络数据前提:熟悉java语法(能看懂就行) 准备阶段:从网页中获取html代码实战阶段:将对应的html代码使用java语言解析出来,最后保存到plist文件上一 ...
iOS开发——网络实用技术OC篇&网络爬虫－使用java语言抓取网络数据
网络爬虫-使用java语言抓取网络数据前提:熟悉java语法(能看懂就行) 准备阶段:从网页中获取html代码实战阶段:将对应的html代码使用java语言解析出来,最后保存到plist文件上一 ...
python爬虫构建代理ip池抓取数据库的示例代码
爬虫的小伙伴,肯定经常遇到ip被封的情况,而现在网络上的代理ip免费的已经很难找了,那么现在就用python的requests库从爬取代理ip,创建一个ip代理池,以备使用. 本代码包括ip的爬取,检 ...

随机推荐

Python—numpy.argsort()
函数将数组的值从小到大排序后,并按照其相对应的索引值输出. 一维数组: >>> a = array([3,1,2]) >>> argsort(a) array([1 ...
MySQL--Basic（二）
USE db_name; CREATE DATABASE school; Use school; CREATE TABLE `StuInfo` ( `STU_ID` ) NOT NULL , `STU ...
SQL的CASE表达式用法
case 表达式从SQL-92标准开始引入,因此是不依赖于具体的数据库技术,可提高SQL代码的可移植性. case表达式注意事项: 1. 统一各个分支返回数据类型,并保证各个when字句的排他性,因为 ...
获取window状态栏和标题栏的高度
1.获取状态栏高度: decorView是window中的最顶层view,可以从window中获取到decorView,然后decorView有个getWindowVisibleDisplayFram ...
幻想乡三连A：五颜六色的幻想乡
非常直接地构造由于答案与生成树计数有关,所以一定要使用矩阵树定理,但这样就不能限制每种颜色的便使用的数量我们构造$N^2$个关于$Ans_{x,y}$的方程,枚举将红色的边拆成$x$条,将蓝色的边 ...
Linux CentOS 6.5 64位静默安装Oracle11g 云主机
本例: 通过SSH远程连接云主机,上传oracle11g安装包,在centos6.5上无图形化界面静默安装oracle11g. 涉及工具及环境: 1.本地环境windows7+ssh远程连接工具xSh ...
#define与typedef区别
1) #define是预处理指令,在编译预处理时进行简单的替换,不作正确性检查,不关含义是否正确照样带入,只有在编译已被展开的源程序时才会发现可能的错误并报错.例如: #define PI 3.141 ...
Excel用vlookup方法匹配数据
(1) VLOOKUP是一个查找函数,给定一个查找的目标,它就能从指定的查找区域中查找返回想要查找到的值.它的基本语法为: VLOOKUP(查找目标,查找范围,返回值的列数,精确OR模糊查找) ...
@JsonProperty 注解
是Jackson注解.fastjson有可以用. 作用在字段或方法上,用来对属性的序列化/反序列化,可以用来避免遗漏属性,同时提供对属性名称重命名,比如在很多场景下Java对象的属性是按照规范的驼峰书 ...
JVM类加载（3）—初始化
3.初始化在准备阶段,变量已经赋过一次系统要求的初始值,而在初始化阶段,则根据程序员通过程序制定的主观计划去初始化类变量(静态变量)和其他资源,或者从另外一个角度表达:初始化过程是执行类构造器< ...

PHP爬虫入门--简单的登录抓取内容

PHP爬虫入门--简单的登录抓取内容的更多相关文章

随机推荐

热门专题