关于python爬取异步ajax数据的一些见解

我们在利用python进行爬取数据的时候，一定会遇到这样的情况，在浏览器中打开能开到所有数据，但是利用requests去爬取源码得到的却是没有数据的页面框架。

出现这样情况，是因为别人网页使用了ajax异步加载，你的requests得到的只是页面框架而已。

遇到这样的情况有几种方法可以解决：

　　1、分析（f12）network中的响应，从而获得ajax的请求接口，在通过这些接口去获得数据。

　　2、使用selenium这个网页自动化测试工具，去获得源码。因为这个工具是等到页面加载完成采取获取的整个页面的代码，所以理论上是可以获得页面完整数据的。

我自己测试过一个页面，也是获取了完整数据的。有需要的朋友可以去自己测试。

下面，我们针对第二种方法，做一个实验：本地新建一个json.html前端文件和json.php后端脚本。web服务器我们使用apache（集成环境xampp）。

json.php

<?php

    header('Access-Control-Allow-Origin:*'); //代表允许任何网址请求

    $arr = array(

        'testarr' => array(

            'name' => 'panchao',

            'age' => 18,

            'tel' => '15928838350',

            'addr' => 'test'

        )

    );

    echo json_encode($arr);

?>

json.html

<div id='test'>

test

</div>

<script src="https://cdn.bootcss.com/jquery/3.4.1/jquery.min.js"></script>

<script>

    function easyAjax(requestUrl){

        $.ajax({

            url: requestUrl,

            type: "GET",

            dataType: "json",

            success: function(msg){

            var a = "<span>"+msg.testarr.name+"</span>";

            //动态的向页面中加入html元素

            $("#test").append(a);

            },

            error: function(XMLHttpRequest, textStatus, errorThrown) {

            alert(XMLHttpRequest.status);

            alert(XMLHttpRequest.readyState);

            alert(textStatus);

            }

        });

    }

    easyAjax("http://localhost:8080/json/json.php")

</script>

然后我们分别用python的request和selenium（webdriver.Chrome）来做实验。

request

import requests

r = requests.get("http://localhost:8080/json/json.html")

r.encoding = 'utf-8'

print(r.text)

selenium（webdriver.Chrome）至于selenium怎么使用我前面的文章中有提到

from selenium import webdriver

from selenium.webdriver.chrome.options import Options

chrome_options = Options()

chrome_options.add_argument("--headless")

driver = webdriver.Chrome(executable_path=(r'C:\Users\0923\AppData\Local\Google\Chrome\Application\chromedriver.exe'), options=chrome_options)

base_url = "http://localhost:8080/json/json.html"

driver.get(base_url)

print(driver.page_source)

我们来看结果：

第一种，利用python request请求的方法得到的页面数据为：

<div id='test'>

test

</div>

<script src="https://cdn.bootcss.com/jquery/3.4.1/jquery.min.js"></script>

<script>

    function easyAjax(requestUrl){

    $.ajax({

    url: requestUrl,

    type: "GET",

    //async : false,

    dataType: "json", 

    success: function(msg){

    var a = "<span>"+msg.testarr.name+"</span>";

    console.log(msg);

    $("#test").append(a);

    },

    error: function(XMLHttpRequest, textStatus, errorThrown) {

    alert(XMLHttpRequest.status);

    alert(XMLHttpRequest.readyState);

    alert(textStatus);

    }

    });

    }

    easyAjax("http://localhost:8080/json/json.php")

</script>

第二种，利用selenium（webdriver.Chrome）方法得到的页面数据为：

<html xmlns="http://www.w3.org/1999/xhtml"><head></head><body><div id="test">

test

<span>panchao</span></div>

<script src="https://cdn.bootcss.com/jquery/3.4.1/jquery.min.js"></script>

<script>

    function easyAjax(requestUrl){

    $.ajax({

    url: requestUrl,

    type: "GET",

    //async : false,

    dataType: "json", 

    success: function(msg){

    var a = "&lt;span&gt;"+msg.testarr.name+"&lt;/span&gt;";

    console.log(msg);

    $("#test").append(a);

    },

    error: function(XMLHttpRequest, textStatus, errorThrown) {

    alert(XMLHttpRequest.status);

    alert(XMLHttpRequest.readyState);

    alert(textStatus);

    }

    });

    }

    easyAjax("http://localhost:8080/json/json.php")

</script></body></html>

我们可以看到以上两种结果，最主要的差异就是第二种方法（selenium（webdriver.Chrome））得到的web代码中包含了ajax异步加载的数据。

<div id="test">

test

<span>panchao</span></div>

而第一种方法（python request）得到的web代码中没有包含ajax异步加载的数据。

<div id='test'>

test

</div>

根据以上结论，证明利用selenium（webdriver.Chrome）来获取页面数据，是可以获取到javascript脚本加载的数据的。

不知道大家有没有注意到利用selenium（webdriver.Chrome）来获取页面数据的方法还自动的给我们不全了html的标签

希望可以帮助到有需要的人。

关于python爬取异步ajax数据的一些见解的更多相关文章

利用Python爬取朋友圈数据，爬到你开始怀疑人生
人生最难的事是自我认知,用Python爬取朋友圈数据,让我们重新审视自己,审视我们周围的圈子. 文:朱元禄(@数据分析-jacky) 哲学的两大问题:1.我是谁?2.我们从哪里来? 本文 jacky试 ...
Python爬取招聘网站数据，给学习、求职一点参考
1.项目背景随着科技的飞速发展,数据呈现爆发式的增长,任何人都摆脱不了与数据打交道,社会对于“数据”方面的人才需求也在不断增大.因此了解当下企业究竟需要招聘什么样的人才?需要什么样的技能?不管是对于 ...
python爬取股票最新数据并用excel绘制树状图
大家好,最近大A的白马股们简直跌妈不认,作为重仓了抱团白马股基金的养鸡少年,每日那是一个以泪洗面啊. 不过从金融界最近一个交易日的大盘云图来看,其实很多中小股还是红色滴,绿的都是白马股们. 以下截图 ...
如何使用python爬取网页动态数据
我们在使用python爬取网页数据的时候,会遇到页面的数据是通过js脚本动态加载的情况,这时候我们就得模拟接口请求信息,根据接口返回结果来获取我们想要的数据. 以某电影网站为例:我们要获取到电影名称以 ...
Python 爬取异步加载的数据
在我们的工作中,可能会遇到这样的情况:我们需要爬取的数据是通过ajax异步加载的,这样的话通过requests得到的只是一个静态页面,而我们需要的是ajax动态加载的数据! 那我们应该怎么办呢??? ...
python爬取拉勾网职位数据
今天写的这篇文章是关于python爬虫简单的一个使用,选取的爬取对象是著名的招聘网站--拉钩网,由于和大家的职业息息相关,所以爬取拉钩的数据进行分析,对于职业规划和求职时的信息提供有很大的帮助. 完成 ...
python 爬取网页简单数据---以及详细解释用法
一.准备工作(找到所需网站,获取请求头,并用到请求头) 找到所需爬取的网站(这里举拉勾网的一些静态数据的获取)----------- https://www.lagou.com/zhaopin/Pyt ...
python爬取动态网页数据，详解
原理:动态网页,即用js代码实现动态加载数据,就是可以根据用户的行为,自动访问服务器请求数据,重点就是:请求数据,那么怎么用python获取这个数据了? 浏览器请求数据方式:浏览器向服务器的api(例 ...
python爬取招聘网站数据
# -*- coding: utf-8 -*- # 爬虫分析 from bs4 import BeautifulSoup from lxml import etree from selenium im ...

随机推荐

Spark如何与深度学习框架协作，处理非结构化数据
随着大数据和AI业务的不断融合,大数据分析和处理过程中,通过深度学习技术对非结构化数据(如图片.音频.文本)进行大数据处理的业务场景越来越多.本文会介绍Spark如何与深度学习框架进行协同工作,在大数 ...
Linux 半连接队列,全连接队列
socket 中 listen api中参数backlog指定的是全队列大小 accept api是从全队列中获取, 没有就阻塞了, 直到有新连接进来. listen中指定的值大小,有一个最大上限, ...
CRC16冗余循环检测计算器-好用。modbus RTU
开始使用 http://cht.nahua.com.tw/index.php?url=http://cht.nahua.com.tw/software/crc16/&key=Modbus,%2 ...
【转】Windows下PATH等环境变量详解
[转]“肖凡的专栏” 博客,请务必保留此出处http://legend2011.blog.51cto.com/3018495/553255 在学习JAVA的过程中,涉及到多个环境变量(environm ...
Eureka心跳健康检查机制和Spring boot admin 节点状态一直为DOWN的排查（忽略某一个节点的健康检查）
https://www.jdon.com/springcloud/eureka-health-monitoring.html 运行阶段执行健康检查的目的是为了从Eureka服务器注册表中识别并删除不可 ...
Spring IoC 自定义标签解析
前言本系列全部基于 Spring 5.2.2.BUILD-SNAPSHOT 版本.因为 Spring 整个体系太过于庞大,所以只会进行关键部分的源码解析. 本篇文章主要介绍 Spring IoC 容 ...
Python 简明教程 --- 7，Python 字符串
微信公众号:码农充电站pro 个人主页:https://codeshellme.github.io 过早的优化代码是罪恶之源. -- Donald Knuth 目录无论哪种编程语言,字符串处理都是最 ...
代码静态测试（java）
工欲善其事,必先利其器环境 jdk1.8 IntelliJ IDEA 1.静态代码检查 1.1工具阿里代码规范检测工具安装教程:阿里代码规范检查工具 1.2规范等级在 Snoar 中对代码规则 ...
入门大数据---Hive的搭建
本博客主要介绍Hive和MySql的搭建: 学习视频一天就讲完了,我看完了自己搭建MySql遇到了一堆坑,然后花了快两天才解决完,终于把MySql搭建好了.然后又去搭建Hive,又遇到了很多坑,就这 ...
xxl-job搭建、部署、SpringBoot集成xxl-job
一.搭建xxl-job 1.下载xxl-job代码码云地址:https://gitee.com/xuxueli0323/xxl-job gitHub地址:https://github.com/xux ...

关于python爬取异步ajax数据的一些见解

关于python爬取异步ajax数据的一些见解的更多相关文章

随机推荐

热门专题