百度的搜索引擎有反爬虫机制，我先直接用guzzle试试水。代码如下：

<?php

/**

 * Created by Benjiemin

 * Date: 2020/3/5

 * Time: 14:58

 */

require ('./vendor/autoload.php');

use QL\QueryList;

//进入网页

$jar = new \GuzzleHttp\Cookie\CookieJar;

$client = new GuzzleHttp\Client(['cookies' => true]);

$ql = $client->request('GET', 'https://www.baidu.com', [

    'cookies' => $jar

]);

if($ql->getStatusCode()!=200){

    echo '网站状态不正常';die;

}

echo  $ql->getBody();

PHP

Copy

百度直接拦截了，进了跳转页面，我试试加个浏览器头文件，再试试。

修改后的header如下：

$ql = $client->request('GET', 'https://www.baidu.com', [

    'cookies' => $jar,

    'headers' => [

    'Accept-Encoding' => 'gzip, deflate, br',

    'Accept'     => 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',

    'Accept-Language'      => 'zh-CN,zh;q=0.9,en;q=0.8',

    'Cache-Control'      => 'no-cache',

    'Connection'      => 'keep-alive',

    'User-Agent'      => 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36',

]

]);

PHP

Copy

我测试了下，网站打开了。

我们继续，输入关键词，并搜索,结果发现被安全拦截了，所以我感觉直接用GuzzleHttp搞不动，于是我继续我的神器：jaeger/querylist和jaeger/querylist-puppeteer。

安装步骤：

1.安装依赖

在这之前，要先启用php的proc_open函数，否则无法安装完整

composer install jaeger/querylist

composer install jaeger/querylist-puppeteer

2.安装nodejs

yum install nodejs

3.安装npm

4.安装@nesk/puphpeteer

npm install @nesk/puphpeteer

5.PHP启用proc_open

代码如下：

<?php

/**

 * Created by Benjiemin

 * Date: 2020/3/5

 * Time: 14:58

 */

require ('./vendor/autoload.php');

use QL\QueryList;

use QL\Ext\Chrome;

$ql = QueryList::getInstance();

// 注册插件，默认注册的方法名为: chrome

$ql->use(Chrome::class);

 $ql->chrome(function ($page,$browser) {

    $page->goto('https://www.baidu.com');

    // 这里故意设置一个很长的延长时间，让你可以看到chrome浏览器的启动

    sleep(3);

    //输入关键词

    $wd = '简庆旺博客';

    $page->type("input[id='kw']",$wd);

    sleep(1);

    //点击搜索

    $page->click("input[type='submit']");

    //等待搜索结果

    sleep(3);

    //获取结果

    $html = $page->content();

    //用jquery选择器抽取结果

    $rules = array(

        'title'=>['#content_left h3 a','text'],//标题

        'url'=>['#content_left h3 a','href'],//跳转网址

        'description'=>['div .c-abstract','text'],//描述

    );

    $ql = QueryList::html($html);

    $rt = $ql->rules($rules)->query()->getData();

    //如果有需要，可以把$rt入库，以及做其他操作

    sleep(10);

    $browser->close();

    // 返回值一定要是页面的HTML内容

    return $html;

},[

    'headless' => false, // 启动可视化Chrome浏览器,方便调试

    'devtools' => false, // 打开浏览器的开发者工具

])->find('title')->text();

PHP

Copy

$rt是我的结果集合，打印下，如下

原文在我博客：

PHP网络爬虫实践：抓取百度搜索结果，并分析数据结构

PHP网络爬虫实践：抓取百度搜索结果，并分析数据结构的更多相关文章

selenium-java web自动化测试工具抓取百度搜索结果实例
selenium-java web自动化测试工具抓取百度搜索结果实例这种方式抓百度的搜索关键字结果非常容易抓长尾关键词,根据热门关键词去抓更多内容可以用抓google,百度的这种内容容易给屏蔽,用这 ...
C#+Selenium抓取百度搜索结果前100网址
需求爬取百度搜索某个关键字对应的前一百个网址. 实现方式 VS2017 + Chrome .NET Framework + C# + Selenium(浏览器自动化测试框架) 环境准备创建控制台应 ...
java网络爬虫----------简单抓取慕课网首页数据
© 版权声明:本文为博主原创文章,转载请注明出处一.分析 1.目标:抓取慕课网首页推荐课程的名称和描述信息 2.分析:浏览器F12分析得到,推荐课程的名称都放在class="course- ...
使用python抓取百度搜索、百度新闻搜索的关键词个数
由于实验的要求,需要统计一系列的字符串通过百度搜索得到的关键词个数,于是使用python写了一个相关的脚本. 在写这个脚本的过程中遇到了很多的问题,下面会一一道来. ps:我并没有系统地学习过pyth ...
Python网络编程_抓取百度首页代码（注释详细）
1 #coding=utf-8 2 #网络编程 3 4 #客户端建立socket套接字 5 #引入socket模块 6 import socket 7 #实例化一个套接字,2个参数分别是: IPV4. ...
python爬取百度搜索结果ur汇总
写了两篇之后,我觉得关于爬虫,重点还是分析过程分析些什么呢: 1)首先明确自己要爬取的目标比如这次我们需要爬取的是使用百度搜索之后所有出来的url结果 2)分析手动进行的获取目标的过程,以便以程序 ...
Python爬虫之小试牛刀——使用Python抓取百度街景图像
之前用.Net做过一些自动化爬虫程序,听大牛们说使用python来写爬虫更便捷,按捺不住抽空试了一把,使用Python抓取百度街景影像. 这两天,武汉迎来了一个德国总理默克尔这位大人物,又刷了一把武汉 ...
Python抓取百度百科数据
前言本文整理自慕课网<Python开发简单爬虫>,将会记录爬取百度百科"python"词条相关页面的整个过程. 抓取策略确定目标:确定抓取哪个网站的哪些页面的哪部分 ...
Python爬虫实战---抓取图书馆借阅信息
Python爬虫实战---抓取图书馆借阅信息原创作品,引用请表明出处:Python爬虫实战---抓取图书馆借阅信息前段时间在图书馆借了很多书,借得多了就容易忘记每本书的应还日期,老是担心自己会违约 ...

随机推荐

The website is API（1）
Requests 自动爬取HTML页面自动网路请求提交 robots 网络爬虫排除标准 Beautiful Soup 解析HTML页面实战 Re 正则表达式详解提取页面关键信息 Scrapy*框架 ...
Automatic Setup of a Humanoid
The humanoid animation option in Unity 4 makes it possible to retarget the same animations to differ ...
WIFI模块AP和STA模式分别是什么意思
无线AP(Access Point):即无线接入点,它用于无线网络的无线交换机,也是无线网络的核心.无线AP是移动计算机用户进入有线网络的接入点,主要用于宽带家庭.大楼内部以及园区内部,可以覆盖几十米 ...
回归分析|r^2|Se|变差|多重相关系数|决定系数|多重共线性|容忍度|VIF|forward selection|backward elimination|stepwise regression procedure|best-subset approach|回归方程的置信区间|预测区间|残差分析|虚拟变量
应用统计学-回归分析拟合度使用r^2和Se来检验. 显著性检验中,对于线性model使用ANOVA,对于单独的回归系数使用t检验. 最小二乘法.贝叶斯和最大似然都可用于求回归参数,最小二乘法是最小化 ...
jsp读取后台数据乱码
jsp读取后台数据乱码,如图所示: tomcat编码格式与项目不一致,找到config/server.xml修改为UTF-8 <Connector URIEncoding="UTF-8 ...
IDEA Maven项目中添加tomcat没有无artifact选项
IntelliJ使用 ##使用IntelliJ IDEA配置web项目时,选择Edit Configration部署Tomcat的Deployment可能会出现以下情况: 导致新手部署过程中摸不着头脑 ...
numpy.ravel() 与 numpy.flatten()
两者都可实现将多维数组降位一维的功能 numpy.flatten()返回拷贝,对拷贝所做的修改不会影响原始矩阵 numpy.ravel()返回视图,会影响原始矩阵 1)ravel() In [16]: ...
C#结构体的使用
C#结构体的使用结构体:相当于是我们自己定义的一种复杂的类型. 常见简单类型:int... double float bool char string 常见复杂类型:DateTime 数组类型生活 ...
Qt 使用自带的OpenGL模块开发程序
QT中使用opengl .pro文件中添加 QT += opengl 1.使用指定版本的OpenGL如下使用opengl4.5调用方法,使用指定版本的接口,必须设备图形显示设备支持对应OpenGL版本 ...
mac osx 下浏览器开启 java
工作环境mac osx 浏览器 chrome:63.0.3239.132 (Official Build) (64-bit)firefox: 57.0.4 (64 位)safari:Version 1 ...

PHP网络爬虫实践：抓取百度搜索结果，并分析数据结构

PHP网络爬虫实践：抓取百度搜索结果，并分析数据结构

PHP网络爬虫实践：抓取百度搜索结果，并分析数据结构的更多相关文章

随机推荐

热门专题