Python爬虫，爬取实验楼全部课程

目的：

使用requests库以及xpath解析进行实验楼所有课程，存入MySQL数据库中。

准备工作：

首先安装，requests库，lxml库，以及peewee库。在命令行模式，使用以下命令。

pip install requests

pip install lxml

pip install peewee

　　然后，就可以打开编辑器编写代码了。

代码:

 # 引入所需要的库

 import time

 import requests

 from peewee import *

 from lxml import etree

 # 这个程序要倒着看

 # 这个是连接数据库的，名字和密码根据自己情况修改

 db = MySQLDatabase('shiyanlou', user='root', passwd='xxxxxx')

 class Course(Model):

     title = CharField()

     teacher = CharField()

     teacher_courses = IntegerField()

     tag = CharField()

     study_num = IntegerField()

     content = CharField()

     class Meta:

         database = db

 Course.create_table()

 def parse_content(url, title, tag, study_num):

     print('课程地址：' + url)

     res = requests.get(url)

     xml = etree.HTML(res.text)

     # 获取页面里的简介

     try:

         content = xml.xpath('//meta[@name="description"]/@content')[0]

     except Exception as e:

         content = '无'

     # 获取老师名字

     try:

         teacher = xml.xpath(

             '//div[@class="sidebox mooc-teacher"]//div[@class="mooc-info"]/div[@class="name"]/strong/text()')[0]

     except Exception as e:

         teacher = '匿名'

     # 获取老师发表课程数目

     try:

         teacher_courses = xml.xpath(

             '//div[@class="sidebox mooc-teacher"]//div[@class="mooc-info"]/div[@class="courses"]/strong/text()')[0]

     except Exception as e:

         teacher_courses = '未知'

     # 存入数据库

     try:

         course = Course(title=title, teacher=teacher,

                         teacher_courses=int(teacher_courses), tag=tag, study_num=int(study_num), content=content)

         course.save()

     except Exception as e:

         print('一条数据存取失败')

 def get_course_link(url):

     # 获取每一页的信息，传给下一个函数

     response = requests.get(url)

     xml = etree.HTML(response.text)

     # contains()是包含的意思

     courses = xml.xpath(

         '//div[contains(@class, "col-md-3") and contains(@class, "col-sm-6") and contains(@class, "course")]')

     for course in courses:

         try:

             url = 'https://www.shiyanlou.com' + course.xpath('.//a/@href')[0]

         except Exception as e:

             print('一个课程页面未获得')

             continue

         title = course.xpath('.//div[@class="course-name"]/text()')[0]

         study_people = course.xpath(

             './/span[@class="course-per-num pull-left"]/text()')[1].strip()

         # study_people = int(study_people)

         try:

             tag = course.xpath(

                 './/span[@class="course-money pull-right"]/text()')[0]

         except Exception as e:

             tag = "普通"

         parse_content(url=url, title=title, tag=tag, study_num=study_people)

         # time.sleep(0.5)

 def main():

     # 通过requests库的get获得目标地址的返回信息，类型为Response

     response = requests.get('https://www.shiyanlou.com/courses/')

     # 将返回信息的文本转化为xml树，可以通过xpath来进行查询

     xml = etree.HTML(response.text)

     # 由分析网页源代码可以总结，url分页模式，只有最后的数字不一样

     course_link = 'https://www.shiyanlou.com/courses/?category=all&course_type=all&fee=all&tag=all&page={}'

     # 这里获得最大页数就可以了,xpath()函数里的便是寻找路径了

     # //会在全文来进行查找，//ul则是查找全文的ul标签，//ul[@class="pagination"]会仅查找有class属性，

     # 且为"pagination"的标签，之后/li是查找当前的ul标签下的li标签（仅取一层),取查询到的列表倒数第二个标签

     # 为li[last()-1],/a/text()查询a标签里的文本内容

     page = xml.xpath('//ul[@class="pagination"]/li[last()-1]/a/text()')

     if len(page) != 1:

         print('爬取最大页数时发生错误！！')

         return None

     # page原是一个列表，这里取出它的元素，并转化为Int型

     page = int(page[0])

     # 将每一页的url传给get_course_link函数进行处理

     for i in range(1, page + 1):

         # 填入course_link,获取完整url

         url = course_link.format(i)

         print('页面地址：' + url)

         # 调用另一个函数

         get_course_link(url)

 if __name__ == '__main__':

     # 调用main函数

     main()

 # [Finished in 218.5s]

Python爬虫，爬取实验楼全部课程的更多相关文章

python爬虫—爬取英文名以及正则表达式的介绍
python爬虫—爬取英文名以及正则表达式的介绍爬取英文名: 一. 爬虫模块详细设计 (1)整体思路对于本次爬取英文名数据的爬虫实现,我的思路是先将A-Z所有英文名的连接爬取出来,保存在一个cs ...
Python爬虫 - 爬取百度html代码前200行
Python爬虫 - 爬取百度html代码前200行 - 改进版, 增加了对字符串的.strip()处理源代码如下: # 改进版, 增加了 .strip()方法的使用 # coding=utf-8 ...
用Python爬虫爬取广州大学教务系统的成绩（内网访问）
用Python爬虫爬取广州大学教务系统的成绩(内网访问) 在进行爬取前,首先要了解: 1.什么是CSS选择器? 每一条css样式定义由两部分组成,形式如下: [code] 选择器{样式} [/code ...
使用Python爬虫爬取网络美女图片
代码地址如下:http://www.demodashi.com/demo/13500.html 准备工作安装python3.6 略安装requests库(用于请求静态页面) pip install ...
Python爬虫|爬取喜马拉雅音频
"GOOD Python爬虫|爬取喜马拉雅音频喜马拉雅是知名的专业的音频分享平台,用户规模突破4.8亿,汇集了有声小说,有声读物,儿童睡前故事,相声小品等数亿条音频,成为国内发展最快.规模 ...
python爬虫爬取内容中，-xa0，-u3000的含义
python爬虫爬取内容中,-xa0,-u3000的含义 - CSDN博客 https://blog.csdn.net/aiwuzhi12/article/details/54866310
Python爬虫爬取全书网小说，程序源码+程序详细分析
Python爬虫爬取全书网小说教程第一步:打开谷歌浏览器,搜索全书网,然后再点击你想下载的小说,进入图一页面后点击F12选择Network,如果没有内容按F5刷新一下点击Network之后出现如下 ...
一个简单的python爬虫,爬取知乎
一个简单的python爬虫,爬取知乎主要实现爬取一个收藏夹里所有问题答案下的图片文字信息暂未收录,可自行实现,比图片更简单具体代码里有详细注释,请自行阅读项目源码: # -*- cod ...
python爬虫-爬取百度图片
python爬虫-爬取百度图片(转) #!/usr/bin/python# coding=utf-8# 作者 :Y0010026# 创建时间 :2018/12/16 16:16# 文件 :spider ...
python爬虫---爬取王者荣耀全部皮肤图片
代码: import requests json_headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win ...

随机推荐

NET Core 2.1 Preview 1
NET Core 2.1 Preview 1 [翻译] .NET Core 2.1 Preview 1 发布原文: Announcing .NET Core 2.1 Preview 1 今天,我们宣 ...
Linux上常用命令整理（二）—— paste
上一篇整理了cat指令的几个基本常见用法,这次整理一下paste指令的基本用法. cat paste cut grep paste paste可以简单的理解为把两个文件的内容按列合并,与cat命令直接 ...
Spring Boot Admin 监控中心
Spring Boot Admin 监控中心 Spring Boot Admin用来收集微服务系统的健康状态.会话数量.并发数.服务资源.延迟等度量信息服务端建立spring-cloud-admi ...
微信支付(java版本)_统一下单
最近工作接触到微信支付,刚开始解决微信支付很神秘,接触之后发现并没有那么神秘,就是有很多坑,在开发的时候需要注意,整理出来: 1.准备工作首先需要登录微信支付公众平台阅读接口文档,地址:https: ...
cas实现单点登录原理
1.基于Cookie的单点登录的回顾基于Cookie的单点登录核心原理: 将用户名密码加密之后存于Cookie中,之后访问网站时在过滤器(filter)中校验用户权限,如果没有权限则从 ...
编写Servlet，验证用户登录，如果用户名与密码都为“admin”则验证通过，跳转欢迎页面，否则弹出提示信息“用户名或密码错误，请重新输入！”，点击“确定”后跳转至登录页面
java代码:(Test1) package com.test; import java.io.IOException; import java.io.PrintWriter; import java ...
[20190618]日常学习记录(二)-flex属性及vue实战
早上在看flex属性,总结一下它的优缺点为什么使用flex, 她和浮动相比,代码更少.浮动要考虑左浮动右浮动,有时还要去清除浮动.flex一行代码就搞定了. 她更灵活,实现平均分配,根据内容大小分配 ...
Beginning Python Chapter 3 Notes
变量(variable)是储存数据的实体,在Python中也被称为"名称"(name). 1.Python"名称"基本命名法则 1.1) "名称&qu ...
BZOJ 2851: 极限满月虚树 or 树链的并
2851: 极限满月 Time Limit: 20 Sec Memory Limit: 512 MBSubmit: 170 Solved: 82[Submit][Status][Discuss] ...
MVC的验证码
后台: /// <summary> /// 创建验证码的图片 /// </summary> /// <param name="validateCode" ...

Python爬虫，爬取实验楼全部课程

目的：

准备工作：

代码:

Python爬虫，爬取实验楼全部课程的更多相关文章

随机推荐

热门专题