Python爬虫入门教程 22-100 CSDN学院课程数据抓取

1. CSDN学院课程数据-写在前面

今天又要抓取一个网站了，选择恐惧症使得我不知道该拿谁下手，找来找去，算了，还是抓取CSDN学院吧，CSDN学院的网站为 https://edu.csdn.net/courses 我看了一下这个网址，课程数量也不是很多，大概有 6000+ 门课程，数据量不大，用单线程其实就能很快的爬取完毕，不过为了秒爬，我还是选用了一个异步数据操作。

2. CSDN学院课程数据-分析页码

还是需要好好的分析一下页码规律

https://edu.csdn.net/courses/p2

https://edu.csdn.net/courses/p3

https://edu.csdn.net/courses/p4

... ...

https://edu.csdn.net/courses/p271

页码还是非常有规律的，直接编写代码就可以快速的爬取下来。出于人文关怀，我还是把协程数限制在3，要不顺发271个请求还是有点攻击的性质了。这样不好，不符合我们的精神。

import asyncio

import aiohttp

from lxml import etree

sema = asyncio.Semaphore(3)

async def get_html(url):

    headers = {

        "user-agent": "自己找个UA即可"

    }

	'''

	本文来自 梦想橡皮擦 的博客

	地址为：  https://blog.csdn.net/hihell

	可以任意转载，但是希望给我留个版权。

	'''

    print("正在操作{}".format(url))

    async with aiohttp.ClientSession() as s:

        try:

            async with s.get(url, headers=headers, timeout=3) as res:

                if res.status==200:

                    html = await res.text()

                    html = etree.HTML(html)

                    get_content(html)  # 解析网页

                    print("数据{}插入完毕".format(url))

        except Exception as e:

            print(e)

            print(html)

            time.sleep(1)

            print("休息一下")

            await get_html(url)

async def x_get_html(url):

    with(await sema):

        await get_html(url)

if __name__ == '__main__':

    url_format = "https://edu.csdn.net/courses/p{}"

    urls = [url_format.format(index) for index in range(1, 272)]

    loop = asyncio.get_event_loop()

    tasks = [x_get_html(url) for url in urls]

    request = loop.run_until_complete(asyncio.wait(tasks))

3. CSDN学院课程数据-解析网页函数

网页下载到了之后，需要进行二次处理，然后才可以把他放入到mongodb中，我们只需要使用lxml库即可

def get_content(html):

    course_item = html.xpath("//div[@class='course_item']")

    data = []

    for item in course_item:

        link = item.xpath("./a/@href")[0]  # 获取课程详情的链接，方便我们后面抓取

        tags = item.xpath(".//div[@class='titleInfor']/span[@class='tags']/text()")  # 获取标签

        title = item.xpath(".//div[@class='titleInfor']/span[@class='title']/text()")[0]  # 获取标题

        num = item.xpath(".//p[@class='subinfo']/span/text()")[0]  # 学习人数

        subinfo = item.xpath(".//p[@class='subinfo']/text()")[1].strip() #  作者

        price = item.xpath(".//p[contains(@class,'priceinfo')]/i/text()")[0].strip()  # 作者

        data.append({

            "title":title,

            "link":link,

            "tags":tags,

            "num":num,

            "subinfo":subinfo,

            "price":price

        })

    collection.insert_many(data)

4. CSDN学院课程数据-数据存储

数据保存到mongodb中，完成。

没有特别突出的地方，简单易操作。

Python爬虫入门教程 22-100 CSDN学院课程数据抓取的更多相关文章

Python爬虫入门教程 21-100 网易云课堂课程数据抓取
写在前面今天咱们抓取一下网易云课堂的课程数据,这个网站的数据量并不是很大,我们只需要使用requests就可以快速的抓取到这部分数据了. 你第一步要做的是打开全部课程的地址,找出爬虫规律, 地址如下 ...
Python爬虫入门教程 23-100 石家庄链家租房数据抓取
1. 写在前面作为一个活跃在京津冀地区的开发者,要闲着没事就看看石家庄这个国际化大都市的一些数据,这篇博客爬取了链家网的租房信息,爬取到的数据在后面的博客中可以作为一些数据分析的素材. 我们需要爬取 ...
Python爬虫入门教程 15-100 石家庄政民互动数据爬取
石家庄政民互动数据爬取-写在前面今天,咱抓取一个网站,这个网站呢,涉及的内容就是网友留言和回复,特别简单,但是网站是gov的.网址为 http://www.sjz.gov.cn/col/14900 ...
Python爬虫入门教程 18-100 煎蛋网XXOO图片抓取
写在前面很高兴我这系列的文章写道第18篇了,今天写一个爬虫爱好者特别喜欢的网站煎蛋网http://jandan.net/ooxx,这个网站其实还是有点意思的,网站很多人写了N多的教程了,各种方式的都 ...
Python爬虫入门教程 20-100 慕课网免费课程抓取
写在前面美好的一天又开始了,今天咱继续爬取IT在线教育类网站,慕课网,这个平台的数据量并不是很多,所以爬取起来还是比较简单的准备爬取打开我们要爬取的页面,寻找分页点和查看是否是异步加载的数据. ...
Python爬虫入门教程第七讲：蜂鸟网图片爬取之二
蜂鸟网图片--简介今天玩点新鲜的,使用一个新库 aiohttp ,利用它提高咱爬虫的爬取速度. 安装模块常规套路 pip install aiohttp 运行之后等待,安装完毕,想要深造,那么官方文 ...
Python爬虫：新浪新闻详情页的数据抓取（函数版）
上一篇文章<Python爬虫:抓取新浪新闻数据>详细解说了如何抓取新浪新闻详情页的相关数据,但代码的构建不利于后续扩展,每次抓取新的详情页时都需要重新写一遍,因此,我们需要将其整理成函数, ...
Python爬虫入门教程 48-100 使用mitmdump抓取手机惠农APP-手机APP爬虫部分
1. 爬取前的分析 mitmdump是mitmproxy的命令行接口,比Fiddler.Charles等工具方便的地方是它可以对接Python脚本. 有了它我们可以不用手动截获和分析HTTP请求和响应 ...
Python爬虫入门教程 43-100 百思不得姐APP数据-手机APP爬虫部分
1. Python爬虫入门教程爬取背景 2019年1月10日深夜,打开了百思不得姐APP,想了一下是否可以爬呢?不自觉的安装到了夜神模拟器里面.这个APP还是比较有名和有意思的. 下面是百思不得姐的 ...

随机推荐

Linux学习之shell
通配符 *:表示从它所在位置开始到某个符合条件的结束符之间的任何字符 ?:表示它所在位置上的任何可能的单个字符 []:表示[]中所包含字符的任何一个特殊键 ctrl+c #停止当前程序执行 ctr ...
idea+scala sdk + scala插件
0X01 前言我的主语言是python,说起java,想起了大二(三年前)上课时教过,课程设计的时候曾经做过个俄罗斯方块,后面其他设计copy代码读懂代码(再后面的课设就用python了). 本次涉 ...
（二）stm32f103~~GPIO基本操作二（按键）
GPIO基本配置之按键输入操作(通过按键控制小灯的翻转) KEY0 对用端口PE4,KEY1 对用端口PE3,这两个按键是一段接地,另一端接单片机.KEYWKUP 对用端口PA0,这个按键是一段接高电 ...
“Hello, my first blog”------第一篇博客的仪式感
本人在校大学生一枚,开通博客,主要是想记录自己的学习过程,分享自己的学习经历.记得大一的时候,很多不懂的操作和知识,都是在博客上找到了相应的解决办法.但比较讽刺的是,很多时候,曾经解决了的问题,当再次 ...
webpack4 打包报错 :regeneratorRuntime is not defined
使用async函数,在webpack打包时报错 babel-polyfill is required. You must also install it in order to get async/a ...
第k个素因子只有3 5 7 的数
题目描述有一些数的素因子只有3.5.7,请设计一个算法,找出其中的第k个数. 给定一个数int k,请返回第k个数.保证k小于等于100. 测试样例: 3 返回:7 int findKth(int ...
编程菜鸟的日记-初学尝试编程-C++ Primer Plus 第6章编程练习6
#include <iostream> #include <string> using namespace std; const int MSIZE=100; struct j ...
h5软键盘挡住输入框问题解决（android）
问题移动端浏览器中的表单在部分android机型上测试,点击靠下的输入框时会遇到弹出的软键盘挡住输入框问题 ios可自身弹起(ios自身的调整偶尔也会出问题,例如第三方键盘会遮挡,原因是第三方输入法 ...
vue-cli跳转到新页面的顶部
我这里有两种方法都是可以用的 1,利用vue-router的默认模式hash,可以记录上一页的位置,如果需要点话,如果没有记录,在进入新页面的时候是返回到新页面的最顶部的 scrollBehavior ...
SpringCloud 在Feign上使用Hystrix（断路由）
SpringCloud 在Feign上使用Hystrix(断路由) 第一步:由于Feign的起步依赖中已经引入了Hystrix的依赖,所以只需要开启Hystrix的功能,在properties文件中 ...