写在前面

今天咱们抓取一下网易云课堂的课程数据，这个网站的数据量并不是很大，我们只需要使用requests就可以快速的抓取到这部分数据了。

你第一步要做的是打开全部课程的地址，找出爬虫规律，

我简单的看了一下，页面数据是基于

https://study.163.com/p/search/studycourse.json 这个地址进行异步加载的。你自己尝试的时候需要借助开发者工具

进行多次尝试，抓取到这个地址的数据为准。

还有一个地方需要注意，这次是post提交方式，并且提交数据是payload类型的，这个原因导致我们的代码和以前的略微有一些不同的地方。

提取post关键字，看一下各个参数的意思，如果你爬取的网站足够多，那么训练出来的敏感度能够快速的分析这些参数

{"pageIndex":55, # 页码

"pageSize":50,  # 每页数据大小

"relativeOffset":2700,

"frontCategoryId":-1,

"searchTimeType":-1,

"orderType":50,

"priceType":-1,

"activityId":0,

"keyword":""   # 搜索相关

}

好了，可以开始编写代码了，核心的代码就是通过requests模块发送post请求

def get_json(index):

    print(f"正在抓取{index}页数据")

    payload = {"pageIndex":index,

            "pageSize":50,

            "relativeOffset":50,

            "frontCategoryId":-1,

            "searchTimeType":-1,

            "orderType":50,

            "priceType":-1,

            "activityId":0,

            "keyword":""

    }

    headers = {"Accept":"application/json",

               "Host":"study.163.com",

               "Origin":"https://study.163.com",

               "Content-Type":"application/json",

               "Referer":"https://study.163.com/courses",

               "User-Agent":"自己去找个浏览器UA"

    }

    try:

    	# 请注意这个地方发送的是post请求

    	# CSDN 博客 梦想橡皮擦

        res = requests.post("https://study.163.com/p/search/studycourse.json",json=payload,headers=headers)

        content_json = res.json()

        if content_json and content_json["code"] == 0:

            data = get_content(content_json)  # 获取正确的数据

			############################################

            if len(data) > 0:

                save_mongo(data)   # 保存数据

           	############################################

    except Exception as e:

        print("出现BUG了")

        print(e)

    finally:

        time.sleep(1)

        index+=1

        get_json(index)

def get_content(content_json):

    if "result" in content_json:

        return content_json["result"]["list"]

因为获取到的数据是json类型的，所以，数据可以快速的保存到mongodb里面，保存数据的代码我依旧留空，希望你自己可以完善。

通过很短的时间，我们就捕获到了3000门课程

好了，需要代码和数据，请评论留下我能联系你的方式即可。

Python爬虫入门教程 21-100 网易云课堂课程数据抓取的更多相关文章

Python爬虫入门教程 39-100 天津市科技计划项目成果库数据抓取 scrapy
爬前叨叨缘由今天本来没有打算抓取这个网站的,无意中看到某个微信群有人问了一嘴这个网站,想看一下有什么特别复杂的地方,一顿操作下来,发现这个网站除了卡慢,经常自己宕机以外,好像还真没有什么特殊的.. ...
Python爬虫入门教程 33-100 《海王》评论数据抓取 scrapy
1. 海王评论数据爬取前分析海王上映了,然后口碑炸了,对咱来说,多了一个可爬可分析的电影,美哉~ 摘录一个评论零点场刚看完,温导的电影一直很不错,无论是速7,电锯惊魂还是招魂都很棒.打斗和音效方面 ...
Python爬虫入门教程 19-100 51CTO学院IT技术课程抓取
写在前面从今天开始的几篇文章,我将就国内目前比较主流的一些在线学习平台数据进行抓取,如果时间充足的情况下,会对他们进行一些简单的分析,好了,平台大概有51CTO学院,CSDN学院,网易云课堂,慕课网 ...
Python爬虫入门教程 20-100 慕课网免费课程抓取
写在前面美好的一天又开始了,今天咱继续爬取IT在线教育类网站,慕课网,这个平台的数据量并不是很多,所以爬取起来还是比较简单的准备爬取打开我们要爬取的页面,寻找分页点和查看是否是异步加载的数据. ...
Python爬虫入门教程 34-100 掘金网全站用户爬虫 scrapy
爬前叨叨已经编写了33篇爬虫文章了,如果你按着一个个的实现,你的爬虫技术已经入门,从今天开始慢慢的就要写一些有分析价值的数据了,今天我选了一个<掘金网>,我们去爬取一下他的全站用户数据. ...
Python爬虫入门教程 11-100 行行网电子书多线程爬取
行行网电子书多线程爬取-写在前面最近想找几本电子书看看,就翻啊翻,然后呢,找到了一个叫做周读的网站 ,网站特别好,简单清爽,书籍很多,而且打开都是百度网盘可以直接下载,更新速度也还可以,于是乎, ...
Python爬虫入门教程 13-100 斗图啦表情包多线程爬取
斗图啦表情包多线程爬取-写在前面今天在CSDN博客,发现好多人写爬虫都在爬取一个叫做斗图啦的网站,里面很多表情包,然后瞅了瞅,各种实现方式都有,今天我给你实现一个多线程版本的.关键技术点 aioht ...
Python爬虫入门教程 48-100 使用mitmdump抓取手机惠农APP-手机APP爬虫部分
1. 爬取前的分析 mitmdump是mitmproxy的命令行接口,比Fiddler.Charles等工具方便的地方是它可以对接Python脚本. 有了它我们可以不用手动截获和分析HTTP请求和响应 ...
Python爬虫入门教程 43-100 百思不得姐APP数据-手机APP爬虫部分
1. Python爬虫入门教程爬取背景 2019年1月10日深夜,打开了百思不得姐APP,想了一下是否可以爬呢?不自觉的安装到了夜神模拟器里面.这个APP还是比较有名和有意思的. 下面是百思不得姐的 ...

随机推荐

组合数论莫比乌斯反演 hdu1695
题解:https://blog.csdn.net/lixuepeng_001/article/details/50577932 题意:给定范围1-b和1-d求(i,j)=k的数对的数量 #includ ...
MongoDB with D3.js
MongoDB with D3.js I consider interactive data visualization to be the critical tool for exploration ...
json格式new Date()的一个小坑
见图:JSON.stringify( new Date(Date.parse('xxxx-xx-xx'))) 若是传的日期,在10号前,要进行转换.
C语言柔性数组讲解
#include<stdio.h> typedef struct _SoftArray{ int len; int array[]; }SoftArray; int main() { ; ...
【2019雅礼集训】【可持久化线段树】【模型转化】D1T2Permutation
目录题意输入格式输出格式思路代码题意给定一个长度为n的序列A[],你需要确定一个长度为n的排列P[],定义当前排列的值为: \[\sum_{i=1}^{n}{A[i]P[i]}\] 现在 ...
DWM1000 帧过滤代码实现
帧过滤功能可以在同一个环境内组建多个网络而不干扰(非频段不同),可以通过PANID(网络ID)区分不同网络,不同网络中的模块无法直接通信, 再之,利用短地址,网络中可以同时有多个模块发送信息,而接收端 ...
asp.net 跨域请求
微软官方文档 https://docs.microsoft.com/zh-cn/aspnet/core/security/cors?view=aspnetcore-2.2
vue 源码学习二实例初始化和挂载过程
vue 入口从vue的构建过程可以知道,web环境下,入口文件在 src/platforms/web/entry-runtime-with-compiler.js(以Runtime + Compil ...
PHP实现微信模板消息发送给指定用户
使用公众号的模板消息功能,必须是认证过的服务号,需要发送微信号的openid,同一微信号在不同公众号下的openid是不同的,在公众号下是唯一的,获取不到微信号进入公众平台功能->模板消息 ...
List集合和JSON互转工具类
public class JsonListUtil { /** * List<T> 转 json 保存到数据库 */ public static <T> String list ...

Python爬虫入门教程 21-100 网易云课堂课程数据抓取

写在前面

Python爬虫入门教程 21-100 网易云课堂课程数据抓取的更多相关文章

随机推荐

热门专题