python爬取动态网页数据，详解

原理：动态网页，即用js代码实现动态加载数据，就是可以根据用户的行为，自动访问服务器请求数据，重点就是：请求数据，那么怎么用python获取这个数据了？

浏览器请求数据方式：浏览器向服务器的api（例如这样的字符串：http://api.qingyunke.com/api.php?key=free&appid=0&msg=关键词）发送请求，服务器返回json，然后解析该json，就得到请求数据了

同理：用Python向api发送请求，获得json，解析json，得到数据

即关键在于得到api

api获取：

　　1.用浏览器打开目标网页eg：https://www.zhihu.com/topic/19561718/top-answers

将鼠标放在上图图示位置，将显示该用户的一些信息，这些信息就是动态加载出来的。当鼠标放在该位置时，浏览器向服务器api发出请求，得到json，再解析便得到下图所示数据

在该网页反键选择检查源代码，按图示点开选项：

然后将鼠标移动到网页界面用户上（箭头位置），会发现右边多出两个请求信息，如图：

点击下面一个，红色方框内的链接，就是要找的api接口

直接用浏览器打开该api即可看到json，如下图

下面用python代码请求该api并解析

import requests
import json
#api
url='https://www.zhihu.com/api/v4/members/wisphilo?include=allow_message%2Cis_followed%2Cis_following%2Cis_org%2Cis_blocking%2Cemployments%2Canswer_count%2Cfollower_count%2Carticles_count%2Cgender%2Cbadge%5B%3F(type%3Dbest_answerer)%5D.topics'

#header的目的是模拟请求，因为该api设置了反爬取
header={
	'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36'
}

doc=requests.get(url,headers=header)#发起请求
doc.encoding='utf-8'#设置编码为utf-8

data=json.loads(doc.text)#将json字符串转为json

#根据位置查找数据
print('用户名：',data.get('name'))
print('个人描述：',data.get('headline'))
print('职务：'+data.get('employments')[0].get('job').get('name'))
print('回答：',data.get('answer_count'))
print('文章：',data.get('articles_count'))
print('关注者：',data.get('follower_count'))

　　另外查找数据最好用在线json格式化再查找，不然很难看出自己要的数据在哪eg：

一般网页的api都有规律可寻，用for循环控制变换字符即可实现自动爬取

上述代码运行结果：

和该界面对照

以上

python爬取动态网页数据，详解的更多相关文章

Python爬虫：爬取喜马拉雅音频数据详解
前言喜马拉雅是专业的音频分享平台,汇集了有声小说,有声读物,有声书,FM电台,儿童睡前故事,相声小品,鬼故事等数亿条音频,我最喜欢听民间故事和德云社相声集,你呢? 今天带大家爬取喜马拉雅音频数据,一 ...
利用selenium并使用gevent爬取动态网页数据
首先要下载相应的库 gevent协程库:pip install gevent selenium模拟浏览器访问库:pip install selenium selenium库相应驱动配置 https: ...
python爬取动态网页2，从JavaScript文件读取内容
import requests import json head = {"user-agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) ...
Python：将爬取的网页数据写入Excel文件中
Python:将爬取的网页数据写入Excel文件中通过网络爬虫爬取信息后,我们一般是将内容存入txt文件或者数据库中,也可以写入Excel文件中,这里介绍关于使用Excel文件保存爬取到的网页数据的 ...
Python爬虫之爬取淘女郎照片示例详解
这篇文章主要介绍了Python爬虫之爬取淘女郎照片示例详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧本篇目标抓取淘宝MM ...
selenium抓取动态网页数据
1.selenium抓取动态网页数据基础介绍 1.1 什么是AJAX AJAX(Asynchronouse JavaScript And XML:异步JavaScript和XML)通过在后台与服务器进 ...
R语言爬取动态网页之环境准备
在R实现pm2.5地图数据展示文章中,使用rvest包实现了静态页面的数据抓取,然而rvest只能抓取静态网页,而诸如ajax异步加载的动态网页结构无能为力.在R语言中,爬取这类网页可以使用RSele ...
python爬取某个网页的图片-如百度贴吧
python爬取某个网页的图片-如百度贴吧作者:vpoet mail:vpoet_sir@163.com 注:随意copy,不用告诉我 #coding:utf-8 import urllib imp ...
Python 爬取单个网页所需要加载的地址和CSS、JS文件地址
Python 爬取单个网页所需要加载的URL地址和CSS.JS文件地址通过学习Python爬虫,知道根据正式表达式匹配查找到所需要的内容(标题.图片.文章等等).而我从测试的角度去使用Python爬 ...

随机推荐

Linux下创建Oracle19C的数据库实例
接上一篇博客,安装 Oracle19chttps://www.cnblogs.com/xuzhaoyang/p/11264557.html 切换到root用户下,切换目录到db_1,执行,遇到选择路径 ...
线性DP详解
顾名思义,线性DP就是在一条线上进行DP,这里举一些典型的例子. LIS问题(最长上升子序列问题) 题目给定一个长度为N的序列A,求最长的数值单调递增的子序列的长度. 上升子序列B可表示为B={Ak ...
python三大器之装饰器的练习
装饰器加载顺序从下至上执行顺序从上至下 ''' 多层装饰器 ''' def deco1(func): #func=deco2 def wrapper1(*args, **kwargs): '''t ...
Linux 总结篇
1. sudo -i update upgrade install 包名 (openjdk-8-jdk) autoremove 自动删除不需要的包(remove卸载) sudo apt-get 2. ...
使用PHP开发HR系统（5）
本节讲述如何拆分页面以及使用jquery和ajax实现局部刷新. =================================================================== ...
最简单的centos上安装Nginx办法
基本几个简单命令就能搞定由于yum源中没有我们想要的nginx,那么我们就需要创建一个“/etc/yum.repos.d/nginx.repo”的文件,其实就是新增一个yum源. vi /etc/y ...
[高清] Excel函数速记手册
------ 郑重声明 --------- 资源来自网络,纯粹共享交流, 如果喜欢,请您务必支持正版!! --------------------------------------------- 下 ...
Hadoop2-认识Hadoop大数据处理架构-单机部署
一.Hadoop原理介绍 1.请参考原理篇:Hadoop1-认识Hadoop大数据处理架构二.centos7单机部署hadoop 前期准备 1.创建用户 [root@web3 ~]# useradd ...
lombok工具插件安装（idea、eclipse）
https://blog.csdn.net/Y_hahaha/article/details/89186284 缘由,项目在IDEA下@Data.@Builder注解不起作用.发现是lombok这 ...
bat计算指定文件MD5并输出txt
@echo off set Name1=*.ADS set Name2=GM_RSSPI* set Name3=equipment* set Name4=protocols* REM 设置输出文件名 ...

python爬取动态网页数据，详解

python爬取动态网页数据，详解的更多相关文章

随机推荐

热门专题