基于requests实现极客学院课程爬虫
背景
本文主要是为了完成极客学院课程《Python 单线程爬虫》中讲师布置的实战作业。
开发环境
操作系统:windows 10
Python :Python 2.7
IDE:PyCharm 4.5.3
安装requests
在CMD命令提示窗口敲以下一行命令即可安装。
pip install requests
实现代码
# coding=utf-8
__author__ = 'scaleworld'
import requests
import re
import sys reload(sys)
sys.setdefaultencoding("utf-8") class Spider:
def __init__(self):
print '开始爬取极客学院课程信息。。。' # 获取源代码
def getSource(self, url):
html = requests.get(url)
return html.text # 获取每个课程块信息
def getLessons(self, source):
lessons = re.findall('deg="0" >(.*?)</li>', source, re.S)
return lessons # 获取课程信息,如课程名称、课程介绍、课程时间、课程等级、学习人数
def getLessonInfo(self, lesson):
info = {}
info['title'] = re.search('<h2 class="lesson-info-h2"><a(.*?)>(.*?)</a></h2>', lesson, re.S).group(2).strip()
info['desc'] = re.search('<p style="height: 0px; opacity: 0; display: none;">(.*?)</p>', lesson, re.S).group(
1).strip()
timeandlevel = re.findall('<em>(.*?)</em>', lesson, re.S)
info['time'] = timeandlevel[0].strip().replace("\n", "").replace(" ", "")
info['level'] = timeandlevel[1].strip()
info['learnNumber'] = re.search('"learn-number">(.*?)</em>', lesson, re.S).group(1).strip()
return info # 保存课程信息到文件LessionInfos.txt
def saveLessionInfos(self, lessonInfos):
# 'w':只写,会覆盖之前写入的内容
# 也可以用'a':追加到文件末尾
# 如果文件不存在,则自动创建文件
f = open('LessionInfos.txt', 'w')
i = 0
for each in lessonInfos:
i += 1
f.writelines('第' + str(i) + '个课程:\n')
f.writelines('title:' + each['title'] + '\n')
f.writelines('desc:' + each['desc'] + '\n')
f.writelines('time:' + each['time'] + '\n')
f.writelines('level:' + each['level'] + '\n')
f.writelines('learnNumber:' + each['learnNumber'] + '\n\n')
f.close() if __name__ == '__main__':
# 定义课程信息数组
lessonInfos = []
# 课程信息页面url
url = 'http://www.jikexueyuan.com/course/'
# 实例化爬虫
spider = Spider()
# 取[1,21)及1到20页的课程信息
for i in range(1, 21):
# 构建分页URL
pageUrl = url + '?pageNum=' + str(i)
print '正在处理页面:' + pageUrl
source = spider.getSource(pageUrl)
lessons = spider.getLessons(source)
for lesson in lessons:
lessonInfo = spider.getLessonInfo(lesson)
lessonInfos.append(lessonInfo)
# print 'title:'+lessonInfo.get('title')
# print 'desc:'+lessonInfo.get('desc')
# print 'time:'+lessonInfo.get('time')
# print 'level:'+lessonInfo.get('level')
# print 'learnNumber:'+lessonInfo.get('learnNumber')
print '已处理' + str(lessons.__len__()) + '个课程信息。'
print '极客学院课程信息爬取完毕,正在保存课程信息。。。'
spider.saveLessionInfos(lessonInfos)
print '极客学院课程信息保存完毕。'
抓取结果示例
第1个课程:
title:WordPress 主题模板文件
desc:本课程主要介绍构成 WordPress 主题的模板文件,模板文件的引用和模板文件的层次体系。
time:3课时36分钟
level:中级
learnNumber:2215人学习
第2个课程:
title:Android 开发规范
desc:本课程主要为大家讲解在 Android 开发中搭建项目时,整体的设计架构风格和规范以及基础架构、代码命名和编写规范等等。
time:3课时41分钟
level:初级
learnNumber:2874人学习
……
结语
极客学院是个非常好的学习网站,大家可以点此链接获取免费的30天VIP福利。
基于requests实现极客学院课程爬虫的更多相关文章
- python scrapy版 极客学院爬虫V2
python scrapy版 极客学院爬虫V2 1 基本技术 使用scrapy 2 这个爬虫的难点是 Request中的headers和cookies 尝试过好多次才成功(模拟登录),否则只能抓免费课 ...
- python极客学院爬虫V1
定向爬取极客学院视频,原本只有年费VIP只能下载,经过分析,只要找个免费体验VIP即可爬取所有视频 涉及的基本技术:python xpath 正则 com+ 通过python调用迅雷从组件,实现自动创 ...
- 【极客学院出品】Cocos2d-X系列课程之九-BOX2D物理引擎
Cocos2d-x 是时下最热门的手游引擎,在国内和国外手机游戏开发使用的份额各自是70%和25%,在App Store的top10中,有7个是用它开发的. 本节课程为Cocos2d-x系列课程之九, ...
- scrapy爬取极客学院全部课程
# -*- coding: utf-8 -*- # scrapy爬取极客学院全部课程 import scrapy from pyquery import PyQuery as pq from jike ...
- maven介绍 极客学院
来自极客学院 Apache Maven 是一套软件工程管理和整合工具.基于工程对象模型(POM)的概念,通过一个中央信息管理模块,Maven 能够管理项目的构建.报告和文档. Maven - 概述 M ...
- 极客学院年VIP卡原价260的F码,200出售
F码是中国最大的IT职业在线教育平台——极客学院推出的VIP时间兑换码,凭此可在极客学院官网兑换年VIP,畅享平台上所有IT技术课程. 购买请点击 http://www.bejson.com/othe ...
- "做中学"之“极客时间”课程学习指导
目录 "做中学"之"极客时间"课程学习指导 所有课程都可以选的课程 Java程序设计 移动平台开发 网络攻防实践 信息安全系统设计基础 信息安全专业导论 极客时 ...
- 【极客学院-idea教程】
极客学院idea教程: http://whudoc.qiniudn.com/2016/IntelliJ-IDEA-Tutorial/index.html
- 极客学院免费VIP
[手快福利]用我的链接注册极客学院,你我都能免费得30天VIP!6500+编程开发视频教程随便学,还能下载资料和源码 http://e.jikexueyuan.com/invite/index.htm ...
随机推荐
- a版本冲刺第二天
队名:Aruba 队员: 黄辉昌 李陈辉 林炳锋 鄢继仁 张秀锋 章 鼎 学号 昨天完成的任务 今天做的任务 明天要做的任务 困难点 体会 408 学习测试文档的编写 看了构建之法的第二章和十三 ...
- Kakfa重连测试
在Kafak已启动的情况下: 发送端首次连接大概耗时400毫秒.后续消息发送都在1毫秒以下. 接收端首次连接大概耗时400-7000毫秒.后续消息接收都在1毫秒以下.(具体时间与topic中存留的消息 ...
- Node.js入门笔记(3):全局对象(2)
buffer 用于更好操作二进制数据,他是一个全局变量.类似数组. var a=new Buffer(); buffer类的三种实现 第一种创建方式 new Buffer(size);size[Num ...
- CPU
多核处理器 http://baike.baidu.com/link?url=6LwImqyaZqI15gVqcGstOA5S73g-Gj2hakrCbFGc_Jh1NIPPZLkahpuI5OSLoi ...
- PG 函数的易变性(Function Volatility Categories)
此概念的接触是在做分区表的时候碰到的,分区表按时间字段分区,在查询时当where条件中时间为now()或者current_time()等时是无法查询的,即使进行格式转换也不行,只有是时间格式如‘201 ...
- js闭包的作用域以及闭包案列的介绍:
转载▼ 标签: it js闭包的作用域以及闭包案列的介绍: 首先我们根据前面的介绍来分析js闭包有什么作用,他会给我们编程带来什么好处? 闭包是为了更方便我们在处理js函数的时候会遇到以下的几 ...
- C# *= 运算顺序
a *= a + b *c; 不管等号右边有没有括号,总是先算右边: 即等价于 a = a *(a + b*c); using System; using System.Collections.Gen ...
- CF#138 div 1 A. Bracket Sequence
[#138 div 1 A. Bracket Sequence] [原题] A. Bracket Sequence time limit per test 2 seconds memory limit ...
- PHP文件上传至另一台服务器
PHP程序上传文件时,想指定上传到另一台服务器. move_uploaded_file这个方法第二个参数指定的存放路径需要和php程序文件一个服务器,没办法指定其他服务器的地址,本人才疏学浅,哪位大哥 ...
- 我爱模仿app之格瓦拉客户端
最近有很多人问我,这个效果该怎么实现,那个功能该怎么实现.所以我准备开个专题,找一些app模仿,写一些示例代码,以供大家参考. 第一个下手的就是格瓦拉,没用过的可以下载看看,效果做的还是可以的,专场, ...