中国大学MOOC网上有着特别完善的课程信息,我觉得这是一份可以让我们充分利用的资源 那么,接下来的问题就是我们该如何爬取这里的资源 选择其中的计算机课程进行尝试 import requests from bs4 import BeautifulSoup import io import sys sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='gb18030') r=requests.get('https://www.icours…
版权声明:本文为博主原创文章,转载 请注明出处: https://blog.csdn.net/sc2079/article/details/82016583 10月18日更:MOOC课程信息D3.js动态可视化 9月2日更:中国大学MOOC课程信息之数据分析可视化二 9月1日更:关于MOOC的课程信息数据分析,参看:中国大学MOOC课程信息之数据分析可视化一 写在前面 暑假没事玩玩爬虫,看到中国大学MOOC便想爬取它所有课程信息.无奈,它不是静态网页,课程数据都是动态加载的.而爬取动态页面目前来…
第一次学习Node.js爬虫,所以这时一个简单的爬虫,Node.js的好处就是可以并发的执行 这个爬虫主要就是获取慕课网的课程信息,并把获得的信息存储到一个文件中,其中要用到cheerio库,它可以让我们方便的操作HTML,就像是用jQ一样 开始前,记得 npm install cheerio 为了能够并发的进行爬取,用到了Promise对象 //接受一个url爬取整个网页,返回一个Promise对象 function getPageAsync(url){ return new Promise(…
# -*- coding: utf-8 -*- # scrapy爬取极客学院全部课程 import scrapy from pyquery import PyQuery as pq from jike.items import JikeItem class JikespiderSpider(scrapy.Spider): name = "jikespider" allowed_domains = ["www.jikexueyuan.com"] base_url =…
版权声明:本文为博主原创文章,转载 请注明出处:https://blog.csdn.net/sc2079/article/details/82318571 - 写在前面 本篇博客继续对中国大学MOOC课程信息进行数据分析,主要是利用pyecharts针对MOOC上开课的大学信息的分析. 前两次博客内容: 1. 中国大学MOOC课程信息爬取与数据存储 2. 中国大学MOOC课程信息之数据分析可视化一 - 环境配置安装 运行环境:Python3.6.Spyder 依赖的模块:pyecharts以及一…
版权声明:本文为博主原创文章,转载 请注明出处:https://blog.csdn.net/sc2079/article/details/82263391 9月2日更:中国大学MOOC课程信息之数据分析可视化二 写在前面 上一篇我的博客:中国大学MOOC课程信息爬取与数据存储于8月24日爬取并存储了中国大学MOOC的各个学科的课程信息.如下: 今天我就来简单做一哈MOOC课程信息的数据分析及可视化. PS:初入茅庐,参考了网上很多大佬的文章,特别感谢! Python数据可视化-seaborn 6…
1.python案例:爬取电影天堂中所有电视剧信息 #!/usr/bin/env python3 # -*- coding: UTF-8 -*- '''================================================= @Project -> File :pywork -> day10_test04 @IDE :PyCharm @Author :xwl @Date :2019/10/10 14:35 @Desc : =======================…
爬取豆瓣网图书TOP250的信息,需要爬取的信息包括:书名.书本的链接.作者.出版社和出版时间.书本的价格.评分和评价,并把爬取到的数据存储到本地文件中. 参考网址:https://book.douban.com/top250 注意:使用正则表达式时,不要在Elements选项卡中直接查看源代码,因为那的源码可能经过Javascript渲染而与原始请求不同,而是需要从Network选项卡中查看源码. import re import json import time import request…
使用xpath爬取酷狗TOP500的歌曲信息, 将排名.歌手名.歌曲名.歌曲时长,提取的结果以文件形式保存下来.参考网址:http://www.kugou.com/yy/rank/home/1-8888.html 大概步骤:谷歌F12打开开发者工具-->在Elements找到想爬取的信息-->右键Copy XPath(或是根据Network里Response的代码手动写出Xpath路径)-->对比这类信息的xpath,再定位并提取这类信息 注意:我们获取的Network里Response…
(一)Python进阶练习 正所谓要将知识进行实践,才会真正的掌握 于是就练习了几道题:求素数,求奇数,求九九乘法表,字符串练习 import re #求素数 i=1; flag=0 while(i<=100): flag=0 j=2; while(j<i): if(i%j==0): flag=1 break; j=j+1 if(flag==0): print(i,end=' ') i=i+1 #求奇数 for i in range(1,101): if(i%2==1): print(i,en…