AJAX学习

AJAX=Asynchronous JavaScript and XML（异步的 JavaScript 和 XML）。通俗来说，AJAX是一种无需加载整个网页的情况下，通过在后台与服务器进行少量数据交换，更新部分网页的技术，用于创建快速动态网页的技术。

向服务器发送请求与服务器的响应

发送请求可以利用XMLHttpRequest对象的open()和send()方法。

方法	描述
open(method,url,async)	规定请求的类型、URL 以及是否异步处理请求。method：请求的类型；GET 或 POST；url：文件在服务器上的位置；async：true（异步）或 false（同步）
send(string)	将请求发送到服务器。string：仅用于 POST 请求

服务器的响应需要使用XMLHttpRequest对象的responseText或responseXML属性。

属性	描述
responseText	获得字符串形式的响应数据。
responseXML	获得 XML 形式的响应数据。

下面有一段简单的代码:

<html>

<head>

<script type="text/javascript">

function loadXMLDoc()

{

var xmlhttp;

if (window.XMLHttpRequest)

  {

  xmlhttp=new XMLHttpRequest();

  }

xmlhttp.onreadystatechange=function()

  {

  if (xmlhttp.readyState==4 && xmlhttp.status==200)

    {

    document.getElementById("myDiv").innerHTML=xmlhttp.responseText;

    }

if(xmlhttp.status==404)

{

document.write("The file doesn't exist.");

}

  }

xmlhttp.open("POST","/ajax/demo.asp",true);

xmlhttp.setRequestHeader("Content-type","application/x-www-form-urlencoded");

xmlhttp.send("fname=Bill&lname=Gates");

}

</script>

</head>

<body>

<h2>我的一个测试案例</h2>

<button type="button" onclick="loadXMLDoc()">发出请求</button>

<div id="myDiv"></div>

</body>

</html>

可以在w3wschool测试网站看到相应的用法。

代码中有xmlhttp.onreadystatechange=function()，其中的onreadystatechange是一个事件，意思为当readyState发生改变时，onreadystatechange事件会自动触发。下面是XMLHttpRequest对象的三个重要的属性:

属性	描述
onreadystatechange	存储函数（或函数名），每当 readyState 属性改变时，就会调用该函数。
readyState	存有 XMLHttpRequest 的状态。从 0 到 4 发生变化。0: 请求未初始化；1: 服务器连接已建立；2: 请求已接收；3: 请求处理中；4: 请求已完成，且响应已就绪
status	200: "OK"；404: 未找到页面

网络爬虫相关

python角度分析AJAX

下面我们从python爬虫的角度对AJAX进行思考，可以分为发送请求->解析内容->渲染网页三个步骤。其中发送请求，是使用javascript的代码进行实现，新建了XMLHttpRequest对象，然后利用onreadystatechange属性设置了监听，然后再用open()和send()方法发送请求，而我们在python中是请求后直接可以得到响应结果。解析内容是在发送请求并收到服务器的响应后，onreadystatechange事件又再一次被触发，此时利用xmlhttp的responseText属性就可以获取响应的内容。类似于 Python 中利用 Requests向服务器发起了一个请求，然后得到响应的过程。那么返回内容可能是 HTML，可能是 Json，接下来只需要在方法中用 JavaScript 进一步处理即可。最后一个步骤是渲染网页，我们都知道javascript可以更改网页内容，而代码中document.getElementById().innerHTM这样的操作就是对某个元素内的源代码进行更改，这样网页显示的内容就发生了改变；这是对Document网页文档进行了操作，即DOM操作。在python中我们同样的也是利用beautifulsoup库解析了网页后，查找其中的节点然后进行提取，AJAX只不过在对应的节点处更改为服务器返回的内容，这样原网页的代码量很少，但是渲染的时候是通过服务器的响应进行渲染的。

AJAX分析

首先我们在浏览器中进入F12开发者模式，进入存储并刷新一个页面(这里以用FireFox打开微博为例)，会出现很多请求，这实际上就是在页面加载过程中浏览器与服务器之间发送 Request 和接收 Response 的所有记录。

而AJAX请求类型为xhr，可以看到有下面3条请求，我们随便点进去一个进行查看:

而我们所有请求的第一个则是网页的源代码，基本上只是写出了节点，没有渲染的代码。当我们加载新内容的时候，会出现新的AJAX请求，比如笔者这里提供三个请求地址:

https://m.weibo.cn/api/container/getIndex?type=uid&value=2145291155&containerid=1005052145291155

https://m.weibo.cn/api/container/getIndex?type=uid&value=2145291155&containerid=1076032145291155

https://m.weibo.cn/api/container/getIndex?type=uid&value=2145291155&containerid=1076032145291155&page=2

每次更新都会有新的请求。所以我们需要利用python来实现AJAX请求的模拟，从而实现数据的抓取。

Python提取AJAX数据

首先分析一下上面笔者列出的三个请求地址，发现地址都包含有type、value、containerid与page，前两个地址加上page=1也是可以请求的，浏览器自动省略了而已。观察一下这些请求，发现它们的 type、value、containerid 始终如一。type 始终为 uid，value的值就是页面的链接中的数字，其实这就是用户的 id，另外还有一个containerid，经过观察发现它就是 107603 然后加上用户id。所以改变的值就是 page，很明显这个参数就是用来控制分页的，page=1 代表第一页，page=2 代表第二页，以此类推。

那么我们只需要以这些参数作为请求参数请求然后抓取json数据就行了。

Python网络爬虫(三)的更多相关文章

【Python网络爬虫三】爬去网页新闻
学弟又一个自然语言处理的项目,需要在网上爬一些文章,然后进行分词,刚好牛客这周的是从一个html中找到正文,就实践了一下.写了一个爬门户网站新闻的程序需求: 从门户网站爬取新闻,将新闻标题,作者,时 ...
【Python网络爬虫三】爬取网页新闻
学弟又一个自然语言处理的项目,需要在网上爬一些文章,然后进行分词,刚好牛客这周的是从一个html中找到正文,就实践了一下.写了一个爬门户网站新闻的程序需求: 从门户网站爬取新闻,将新闻标题,作者,时 ...
python网络爬虫之解析网页的BeautifulSoup(爬取电影图片)[三]
目录前言一.BeautifulSoup的基本语法二.爬取网页图片扩展学习后记前言本章同样是解析一个网页的结构信息在上章内容中(python网络爬虫之解析网页的正则表达式(爬取4k动漫图 ...
第三次作业-MOOC学习笔记：Python网络爬虫与信息提取
1.注册中国大学MOOC 2.选择北京理工大学嵩天老师的<Python网络爬虫与信息提取>MOOC课程 3.学习完成第0周至第4周的课程内容,并完成各周作业第一周 Requests库的爬 ...
python网络爬虫之解析网页的正则表达式(爬取4k动漫图片)[三]
前言 hello,大家好本章可是一个重中之重,因为我们今天是要爬取一个图片而不是一个网页或是一个json 所以我们也就不用用到selenium模块了,当然有兴趣的同学也一样可以使用selenium去 ...
第三次作业-Python网络爬虫与信息提取
1.注册中国大学MOOC 2.选择北京理工大学嵩天老师的<Python网络爬虫与信息提取>MOOC课程 3.学习完成第0周至第4周的课程内容,并完成各周作业过程. 5.写一篇不少于100 ...
Python网络爬虫
http://blog.csdn.net/pi9nc/article/details/9734437 一.网络爬虫的定义网络爬虫,即Web Spider,是一个很形象的名字. 把互联网比喻成一个蜘蛛 ...
Python网络爬虫笔记（五）：下载、分析京东P20销售数据
(一) 分析网页下载下面这个链接的销售数据 https://item.jd.com/6733026.html#comment 1. 翻页的时候,谷歌F12的Network页签可以看到下面 ...
如何利用Python网络爬虫抓取微信朋友圈的动态（上）
今天小编给大家分享一下如何利用Python网络爬虫抓取微信朋友圈的动态信息,实际上如果单独的去爬取朋友圈的话,难度会非常大,因为微信没有提供向网易云音乐这样的API接口,所以很容易找不到门.不过不要慌 ...

随机推荐

FFMPEG（一）从V4L2捕获摄像头数据
系列相关博文: FFMPEG(一) 从V4L2捕获摄像头数据 FFMPEG(二) v4l2 数据格式装换 FFMPEG(三) v4l2 数据编码H264 最近在学习FFMPEG,发现网上的很多例子都是 ...
2017.10.2北京清北综合强化班DAY2
a[问题描述]你是能看到第一题的 friends呢. —— hja世界上没有什么比卖的这贵弹丸三还令人绝 ...
BZOJ1217：[HNOI2003]消防局的设立
我对贪心的理解:https://www.cnblogs.com/AKMer/p/9776293.html 题目传送门:https://www.lydsy.com/JudgeOnline/problem ...
【转】 Pro Android学习笔记（七五）：HTTP服务（9）：DownloadManager
目录(?)[-] 小例子保存在哪里下载文件信息设置和读取查看下载状态和取消下载文章转载只能用于非商业性质,且不能带有虚拟货币.积分.注册等附加条件,转载须注明出处:http://blog.csd ...
调试opencv调用摄像头程序时碰到的问题
昨天晚上想把opencv学习笔记整理一下,当跑opencv调用摄像头的程序的时候老是出现Assertion failed (size.width>0 && size.height ...
.net 缓存之文件缓存依赖
CaCheHelp 类中代码如下: #region 根据键从缓存中读取保持的数据 /// <summary> /// 根据键从缓存中读取保持的数据 /// </summary> ...
MySql中的视图的概念及应用
视图的基本概念视图是从一个或几个基本表(或者视图)导出的表.它与基本表不同,是一个虚表. 数据库只存放视图的定义,而不存放视图对应的数据,这些数据仍存放在原来的基本表中.所以基本表中的数据发生变化, ...
Angular08 依赖注入
1 angular应用中依赖注入的工作原理技巧01:在模块级别进行注册时所有在应用级别的组件都可以使用,因为主模块会导入其他模块,所以在模块中注入就相当于在主模块进行注入操作:懒加载的模块除外技巧 ...
struts2的package和result的标签的属性
package的属性 1.name: 配置package元素时必须指定name属性,这是引用该包的唯一标识. 2.extends: 可选属性,指定该包继承的父包,子包可以从一个或多个父包中继承到拦截器 ...
301ReidrectPages中重复记录导致的500 server error
在Umbraco平台开发一个系统时,遇到一个问题,报错500 server error, system is currently unable to handle this request. 按下F1 ...

Python网络爬虫(三)