如何使用python爬取网页动态数据

我们在使用python爬取网页数据的时候，会遇到页面的数据是通过js脚本动态加载的情况，这时候我们就得模拟接口请求信息，根据接口返回结果来获取我们想要的数据。

以某电影网站为例：我们要获取到电影名称以及对应的评分

首先我们通过开发者模式，找到请求该页面的接口信息

另外，为了能模拟浏览器访问接口信息，我们需要获取到请求头部信息

获取到以上信息，我们就可以通过python的requests库来模拟访问接口啦

1、导入requests库

import requests

2、定义请求参数信息

url = "https://movie.douban.com/j/search_subjects"
header = {
          "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:82.0) Gecko/20100101 Firefox/82.0",
          }
param = {"type": "movie", "tag": "最新", "sort": "recommend", "page_limit": "20", "page_start": "0"}

3、获取请求的json对象

ret = requests.get(url, params=param, headers=header)
js = ret.json()
print(js)

4、根据翻页信息，我们知道"page_start"这个参数是每20递增一次的，可以通过定义变量使用for 循环来自动获取下一页信息，我们可以对以上代码进行优化。另外，为了防止请求过快，被当成恶意攻击，我们可以导入time模块，每次请求间隔2-3s

count = 0

for i in range(3):

　　param = {"type": "movie", "tag": "最新", "sort": "recommend", "page_limit": "20", "page_start": count}

　　time.sleep(random.uniform(2, 3))

　　ret = requests.get(url, params=param, headers=header)

　　js = ret.json()

　　for info in js["subjects"]:
　　　　rate, title = info["rate"], info["title"]
　　　　print(f"《{title}》的评分是：{rate}")

　　count += 20

这样我们就获取到想要的数据，不用挨个copy啦。我们可以把获取的数据写入到文件里永久保存，并进行整理。下次再分享

如何使用python爬取网页动态数据的更多相关文章

python 爬取网页简单数据---以及详细解释用法
一.准备工作(找到所需网站,获取请求头,并用到请求头) 找到所需爬取的网站(这里举拉勾网的一些静态数据的获取)----------- https://www.lagou.com/zhaopin/Pyt ...
python爬取网页的通用代码框架
python爬取网页的通用代码框架: def getHTMLText(url):#参数code缺省值为‘utf-8’(编码方式) try: r=requests.get(url,timeout=30) ...
Python爬取网页信息
Python爬取网页信息的步骤以爬取英文名字网站(https://nameberry.com/)中每个名字的评论内容,包括英文名,用户名,评论的时间和评论的内容为例. 1.确认网址在浏览器中输入初 ...
利用Python爬取朋友圈数据，爬到你开始怀疑人生
人生最难的事是自我认知,用Python爬取朋友圈数据,让我们重新审视自己,审视我们周围的圈子. 文:朱元禄(@数据分析-jacky) 哲学的两大问题:1.我是谁?2.我们从哪里来? 本文 jacky试 ...
Python爬取招聘网站数据，给学习、求职一点参考
1.项目背景随着科技的飞速发展,数据呈现爆发式的增长,任何人都摆脱不了与数据打交道,社会对于“数据”方面的人才需求也在不断增大.因此了解当下企业究竟需要招聘什么样的人才?需要什么样的技能?不管是对于 ...
python爬取股票最新数据并用excel绘制树状图
大家好,最近大A的白马股们简直跌妈不认,作为重仓了抱团白马股基金的养鸡少年,每日那是一个以泪洗面啊. 不过从金融界最近一个交易日的大盘云图来看,其实很多中小股还是红色滴,绿的都是白马股们. 以下截图 ...
使用 Python 爬取网页数据
1. 使用 urllib.request 获取网页 urllib 是 Python 內建的 HTTP 库, 使用 urllib 可以只需要很简单的步骤就能高效采集数据; 配合 Beautiful 等 ...
python+selenium+PhantomJS爬取网页动态加载内容
一般我们使用python的第三方库requests及框架scrapy来爬取网上的资源,但是设计javascript渲染的页面却不能抓取,此时,我们使用web自动化测试化工具Selenium+无界面浏览 ...
关于python爬取异步ajax数据的一些见解
我们在利用python进行爬取数据的时候,一定会遇到这样的情况,在浏览器中打开能开到所有数据,但是利用requests去爬取源码得到的却是没有数据的页面框架. 出现这样情况,是因为别人网页使用了aja ...

随机推荐

前n项余数个数和
一:O(n) 计算贡献:前n项中,能被i(1~n)整除的数的个数为(n/i)个,,也就是 i 给前n项中(n/i)个数做了余数 #include<iostream> using names ...
poj2001 Shortest Prefixes (trie树)
Description A prefix of a string is a substring starting at the beginning of the given string. The p ...
Codeforces Educational Rounds 85 A~C
A:Level Statistics 题意:统计n个游戏数据,p代表游玩次数,c代表通关次数,每次游玩都不一定通关,求这些数据是否合法题解:1.游玩次数不能小于通关次数 2.游玩次数和通关次数必 ...
qmh的测试1
题目:传送门首先输入一个n,之后输入n个数a(1<=a<=1e7),对这n个数排序后,你需要找到所有的它们连续的长度.把这些连续的长度排序后输出输入输入: 8 1 5 2 7 4 5 ...
记录一些Python中不常用但非常好用的函数
zfill(): 方法返回指定长度的字符串,原字符串右对齐,前面填充0. print('Helloworld'.zfill(50))0000000000000000000000000000000000 ...
ES中文分词器安装以及自定义配置
之前我们创建索引,查询数据,都是使用的默认的分词器,分词效果不太理想,会把text的字段分成一个一个汉字,然后搜索的时候也会把搜索的句子进行分词,所以这里就需要更加智能的分词器IK分词器了. ik分词 ...
Python——处理CSV、PDF文件
一.CSV文件处理 (1)读取 import csv filename = "E:/GitHub/Python-Learning/LIVE_PYTHON/2018-06-05/学位英语成绩合 ...
C - C工程编译那些事【configure-make || cmake-make】
一.cofigure是怎么生成的,我们又是怎么使用的 configure和make install背后的故事: https://azyet.github.io/2015/06/20/configure ...
codeforces 1059C. Sequence Transformation【构造】
题目:戳这里题意:有1,2,3...n这n个数,求一次这些数的gcd,删去一个数,直到剩下一个数为止.输出这n个gcd的最大字典序. 解题思路:一开始的gcd肯定是1,要让字典序最大,我们可以想到下 ...
一个C++源文件从文本到可执行文件经历的过程
一个C++源文件从文本到可执行文件经历的过程以Hello World为例进行说明首先我们编写一个cpp源程序 test.cpp #include <iostream> using na ...

如何使用python爬取网页动态数据

如何使用python爬取网页动态数据的更多相关文章

随机推荐

热门专题