python爬虫：爬取猫眼TOP100榜的100部高分经典电影

1、问题描述：

爬取猫眼TOP100榜的100部高分经典电影，并将数据存储到CSV文件中

2、思路分析:

(1)目标网址：http://maoyan.com/board/4

(2)代码结构：

(3) init(self)初始化函数

· hearders用到了fake_useragent库，用来随机生成请求头。

· datas空列表，用于保存爬取的数据。

def __init__(self,url):

    self.headers = {"User-Agent": UserAgent().random}

    self.url = url

    self.datas = list()

(4) getPage()函数

猫眼Top100榜总共有10页电影，每页的链接基本一样，只有最后一个数字在变化http://maoyan.com/board/4?offset=10，所以可以通过for循环来访问10页的电影。

# 通过for循环，获取10页的电影信息的源码

def getPage(self):

    for i in range(0,10):

        url = self.url + "?offset={0}".format(i*10)

        response = requests.get(url, headers = self.headers)

        if response.status_code == 200:

            self.parsePage(response.text)

        else:

            return None

(5)parsePage()函数

每页都有10部高分经典电影，通过BeautifulSoup获取每页10部电影的详细信息：名字、主演、上映时间、评分。

# 通过BeautifulSoup获取每页10部电影的详细信息

def parsePage(self, html):

    soup = BeautifulSoup(html, "html.parser")

    details = soup.find_all("dd")

    for dd in details:

        data = {}

        data["index"] = dd.find("i").text

        data["name"] = dd.find("p", class_ = "name").text

        data["star"] = dd.find("p", class_="star").text.strip()[3:]

        data["time"] = dd.find("p", class_="releasetime").text.strip()[5:]

        data["score"] = dd.find("p", class_="score").text

        self.datas.append(data)

(6)savaData()函数

通过DataFrame()，把Top100的电影存储到CSV文件中。

它默认的是按照列名的字典顺序排序的。想要自定义列的顺序，可以加columns字段

# 通过DataFrame，把Top100的电影存储到CSV文件中

def saveData(self):

    self.getPage()

    data = pd.DataFrame(self.datas)

    columns = ["index", "name", "star", "time", "score"]

    data.to_csv(".\maoyanTop100.csv", index=False, columns=columns)

3、效果展示

4、完整代码：

# -* conding: utf-8 *-

#author: wangshx6

#data: 2018-11-08

#description: 爬取猫眼TOP100榜的100部高分经典电影

import requests

from bs4 import BeautifulSoup

import pandas as pd

from fake_useragent import UserAgent

class MaoyanSpider(object):

    def __init__(self,url):

        self.headers = {"User-Agent": UserAgent().random}

        self.url = url

        self.datas = list()

    # 通过for循环，获取10页的电影信息的源码

    def getPage(self):

        for i in range(0,10):

            url = self.url + "?offset={0}".format(i*10)

            response = requests.get(url, headers = self.headers)

            if response.status_code == 200:

                self.parsePage(response.text)

            else:

                return None

    # 通过BeautifulSoup获取每页10部电影的详细信息

    def parsePage(self, html):

        soup = BeautifulSoup(html, "html.parser")

        details = soup.find_all("dd")

        for dd in details:

            data = {}

            data["index"] = dd.find("i").text

            data["name"] = dd.find("p", class_ = "name").text

            data["star"] = dd.find("p", class_="star").text.strip()[3:]

            data["time"] = dd.find("p", class_="releasetime").text.strip()[5:]

            data["score"] = dd.find("p", class_="score").text

            self.datas.append(data)

    # 通过DataFrame，把Top100的电影存储到CSV文件中

    def saveData(self):

        self.getPage()

        data = pd.DataFrame(self.datas)

        columns = ["index", "name", "star", "time", "score"]

        data.to_csv(".\maoyanTop100.csv", index=False, columns=columns)

if __name__ == "__main__":

    url = "http://maoyan.com/board/4"

    spider = MaoyanSpider(url)

    spider.saveData()

python爬虫：爬取猫眼TOP100榜的100部高分经典电影的更多相关文章

【爬虫】-爬取猫眼TOP100
原文崔庆才<python3网络爬虫实战> 本文为自学记录,如有侵权,请联系删除目标: 熟悉正则表达式,以及爬虫流程获取猫眼TOP100榜单 1.网站分析目标站点为http://www ...
Python 爬取猫眼 top100 电影例子
一个Python 爬取猫眼top100的小栗子 import json import requests import re from multiprocessing import Pool #//进程 ...
Python爬虫 - 爬取百度html代码前200行
Python爬虫 - 爬取百度html代码前200行 - 改进版, 增加了对字符串的.strip()处理源代码如下: # 改进版, 增加了 .strip()方法的使用 # coding=utf-8 ...
用Python爬虫爬取广州大学教务系统的成绩（内网访问）
用Python爬虫爬取广州大学教务系统的成绩(内网访问) 在进行爬取前,首先要了解: 1.什么是CSS选择器? 每一条css样式定义由两部分组成,形式如下: [code] 选择器{样式} [/code ...
使用Python爬虫爬取网络美女图片
代码地址如下:http://www.demodashi.com/demo/13500.html 准备工作安装python3.6 略安装requests库(用于请求静态页面) pip install ...
Python爬虫|爬取喜马拉雅音频
"GOOD Python爬虫|爬取喜马拉雅音频喜马拉雅是知名的专业的音频分享平台,用户规模突破4.8亿,汇集了有声小说,有声读物,儿童睡前故事,相声小品等数亿条音频,成为国内发展最快.规模 ...
python爬虫爬取内容中，-xa0，-u3000的含义
python爬虫爬取内容中,-xa0,-u3000的含义 - CSDN博客 https://blog.csdn.net/aiwuzhi12/article/details/54866310
Python爬虫爬取全书网小说，程序源码+程序详细分析
Python爬虫爬取全书网小说教程第一步:打开谷歌浏览器,搜索全书网,然后再点击你想下载的小说,进入图一页面后点击F12选择Network,如果没有内容按F5刷新一下点击Network之后出现如下 ...
python爬虫—爬取英文名以及正则表达式的介绍
python爬虫—爬取英文名以及正则表达式的介绍爬取英文名: 一. 爬虫模块详细设计 (1)整体思路对于本次爬取英文名数据的爬虫实现,我的思路是先将A-Z所有英文名的连接爬取出来,保存在一个cs ...

随机推荐

关于“.WriteLine()是否需要这么多重载”的笔记
在Stack Overflow上看到一个较热门的问题,作笔记于此. Console.WriteLine()有以下如此多的重载: public static void WriteLine(string ...
关于hibernate save方法未能存储数据入库的处理过程
关于hibernate save方法未能存储数据入库的处理过程2018年04月18日 10:57:49 守望dfdfdf 阅读数:230更多个人分类: 工作问题编辑版权声明:本文为博主原创文章,转载 ...
intellijidea课程 intellijidea神器使用技巧 6-2 数据库关联
待温习完Spring之后再来看 database关联和表名字段等智能提示
thinkphp中怎么判断是手机端访问还是pc端访问?
function isMobile() { // 如果有HTTP_X_WAP_PROFILE则一定是移动设备 if (isset ($_SERVER['HTTP_X_WAP_PROFILE'])) r ...
IntelliJ、ReSharper 4折加入慧都“惊喜惠”
慧都2013岁末回馈惊喜不断!著名的软件开发公司JetBrains旗下所有产品加入"惊喜惠"活动环节, JAVA IDE——IntelliJ IDEA,.NET效率工具集——ReS ...
Android @1x,@2x,@3x 资源文件自动分包工具
version 1.2 1.修改不用输入扩展名 2.输出路径可选.默认会在输入路径下建文件夹前沿: 现在开发中ios,android会使用一套图,但是ui设计师给的图命名是以@1x,@2x,@3x这 ...
Java笔记 —— this 关键字
Java笔记 -- this 关键字 h2{ color: #4ABCDE; } a{ color: blue; text-decoration: none; } a:hover{ color: re ...
【Angular JS】网站使用社会化评论插件，以及过程中碰到的坑
目前正在开发自己的网站,技术上使用Angular JS + Express JS + Mongo DB.由于网站会有文章发布,因此需要有评论功能.评论功能也可以自己开发,但由于现在社会化评论插件很多, ...
使用swagger时遇到的问题
后端写好接口后开始和前端进行联调,为了减少时间成本或者说是后端不想写文档,所以便想使用一套可以自动化生成api接口文档的工具,swagger正是可以解决这一需求.于是很早之前就想把swagger集成到 ...
数组k平移三种方法（java）
上代码,本文用了三种方法实现,时间复杂度不一样,空间复杂度都是o(1): public class ArrayKMove { /** * 问题:数组的向左k平移,k小于数组长度 * @param ar ...