Python 爬取豆瓣TOP250实战

学习爬虫之路，必经的一个小项目就是爬取豆瓣的TOP250了，首先我们进入TOP250的界面看看。

可以看到每部电影都有比较全面的简介。其中包括电影名、导演、评分等。

接下来，我们就爬取这些数据，并将这些数据制成EXCEL表格方便查看。

首先，我们用requests库请求一下该网页，并返回他的text格式。

请求并返回成功！

接下来，我们提取我们所需要的网页元素。

点击“肖申克救赎”的检查元素。

发现它在div class = "hd" -> span class = "title"里，所以我们import beautifulsoup，来定位该元素。

同时，用相同的方法定位电影的评价人数和评分以及短评。

代码如下：

soup = BeautifulSoup(res.text, 'html.parser')

    names = []

    scores = []

    comments = []

    result = []

    #获取电影的所有名字

    res_name = soup.find_all('div',class_="hd")

    for i in res_name:

        a=i.a.span.text

        names.append(a)

    #获取电影的评分

    res_scores = soup.find_all('span',class_='rating_num')

    for i in res_scores:

        a=i.get_text()

        scores.append(a)

    #获取电影的短评

    ol = soup.find('ol', class_='grid_view')

    for i in ol.find_all('li'):

        info = i.find('span', attrs={'class': 'inq'})  # 短评

        if info:

            comments.append(info.get_text())

        else:

            comments.append("无")

    return names,scores,comments

Ok，现在，我们所需要的数据都存在三个列表里面，names,scores,comments。

我们将这三个列表存入EXCEL文件里，方便查看。

调用WorkBook方法

wb = Workbook()

    filename = 'top250.xlsx'

    ws1 = wb.active

    ws1.title = 'TOP250'

    for (i, m, o) in zip(names,scores,comments):

        col_A = 'A%s' % (names.index(i) + 1)

        col_B = 'B%s' % (names.index(i) + 1)

        col_C = 'C%s' % (names.index(i) + 1)

        ws1[col_A] = i

        ws1[col_B] = m

        ws1[col_C] = o

    wb.save(filename=filename)

运行结束后，会生成一个.xlsx的文件，我们来看看效果：

Very Beatuful！以后想学习之余想放松一下看看好的电影，就可以在上面直接查找啦。

以下是我的源代码：

import requests

from bs4 import BeautifulSoup

from openpyxl import Workbook

def open_url(url):

    res = requests.get(url)

    return res

def get_movie(res):

    soup = BeautifulSoup(res.text, 'html.parser')

    names = []

    scores = []

    comments = []

    result = []

    #获取电影的所有名字

    res_name = soup.find_all('div',class_="hd")

    for i in res_name:

        a=i.a.span.text

        names.append(a)

    #获取电影的评分

    res_scores = soup.find_all('span',class_='rating_num')

    for i in res_scores:

        a=i.get_text()

        scores.append(a)

    #获取电影的短评

    ol = soup.find('ol', class_='grid_view')

    for i in ol.find_all('li'):

        info = i.find('span', attrs={'class': 'inq'})  # 短评

        if info:

            comments.append(info.get_text())

        else:

            comments.append("无")

    return names,scores,comments

def get_page(res):

    soup = BeautifulSoup(res.text,'html.parser')

     #获取页数

    page_num = soup.find('span',class_ ='next').previous_sibling.previous_sibling.text

    return int(page_num)

def main():

    host = 'https://movie.douban.com/top250'

    res = open_url(host)

    pages = get_page(res)

    #print(pages)

    names =[]

    scores = []

    comments = []

    for i in range(pages):

        url = host + '?start='+ str(25*i)+'&filter='

        #print(url)

        result = open_url(url)

        #print(result)

        a,b,c = get_movie(result)

        #print(a,b,c)

        names.extend(a)

        scores.extend(b)

        comments.extend(c)

    # print(names)

    # print(scores)

    # print(comments)

    wb = Workbook()

    filename = 'top250.xlsx'

    ws1 = wb.active

    ws1.title = 'TOP250'

    for (i, m, o) in zip(names,scores,comments):

        col_A = 'A%s' % (names.index(i) + 1)

        col_B = 'B%s' % (names.index(i) + 1)

        col_C = 'C%s' % (names.index(i) + 1)

        ws1[col_A] = i

        ws1[col_B] = m

        ws1[col_C] = o

    wb.save(filename=filename)

if __name__ == '__main__':

    main()

生成EXCEL文件还有很多种方法，下次分享Pandas生成EXCEL文件的方法~

Python 爬取豆瓣TOP250实战的更多相关文章

python爬取豆瓣top250的电影数据并存入excle
爬取网址: https://movie.douban.com/top250 一:爬取思路(新手可以看一下) : 1:定义两个函数,一个get_page函数爬取数据,一个save函数保存数据,mian中 ...
Python爬取豆瓣音乐存储MongoDB数据库(Python爬虫实战1)
1. 爬虫设计的技术 1)数据获取,通过http获取网站的数据,如urllib,urllib2,requests等模块: 2)数据提取,将web站点所获取的数据进行处理,获取所需要的数据,常使用的技 ...
零基础爬虫----python爬取豆瓣电影top250的信息（转）
今天利用xpath写了一个小爬虫,比较适合一些爬虫新手来学习.话不多说,开始今天的正题,我会利用一个案例来介绍下xpath如何对网页进行解析的,以及如何对信息进行提取的. python环境:pytho ...
python爬取豆瓣电影Top250（附完整源代码）
初学爬虫,学习一下三方库的使用以及简单静态网页的分析.就跟着视频写了一个爬取豆瓣Top250排行榜的爬虫. 网页分析我个人感觉写爬虫最重要的就是分析网页,找到网页的规律,找到自己需要内容所在的地方, ...
Python爬取豆瓣电影top
Python爬取豆瓣电影top250 下面以四种方法去解析数据,前面三种以插件库来解析,第四种以正则表达式去解析. xpath pyquery beaufifulsoup re 爬取信息:名称评分 ...
Python爬取豆瓣指定书籍的短评
Python爬取豆瓣指定书籍的短评 #!/usr/bin/python # coding=utf-8 import re import sys import time import random im ...
利用Python爬取豆瓣电影
目标:使用Python爬取豆瓣电影并保存MongoDB数据库中我们先来看一下通过浏览器的方式来筛选某些特定的电影: 我们把URL来复制出来分析分析: https://movie.douban.com ...
基础爬虫，谁学谁会，用requests、正则表达式爬取豆瓣Top250电影数据！
爬取豆瓣Top250电影的评分.海报.影评等数据! 本项目是爬虫中最基础的,最简单的一例: 后面会有利用爬虫框架来完成更高级.自动化的爬虫程序. 此项目过程是运用requests请求库来获取h ...
Python爬取豆瓣《复仇者联盟3》评论并生成乖萌的格鲁特
代码地址如下:http://www.demodashi.com/demo/13257.html 1. 需求说明本项目基于Python爬虫,爬取豆瓣电影上关于复仇者联盟3的所有影评,并保存至本地文件. ...

随机推荐

StringBulider类
StringBulider类创建的字符串同样可以对字符串进行修改: public class StringBuliderDemo { public static void main(String[] ...
ubuntu系统设置开机后使用使用终端运行应用程序
1.在菜单栏输入start,点击startup application进入 2. 添加开机启动程序 3.因为要用终端启动一个应用程序,所以command输入:gnome-terminal -- 程序执 ...
读取用户输入并判断的bash脚本
#!/bin/bash echo -e "1) A"echo -e "2) B"echo -e "3) C"echo -e "4) ...
go 学习笔记之仅仅需要一个示例就能讲清楚什么闭包
本篇文章是 Go 语言学习笔记之函数式编程系列文章的第二篇,上一篇介绍了函数基础,这一篇文章重点介绍函数的重要应用之一: 闭包空谈误国,实干兴邦,以具体代码示例为基础讲解什么是闭包以及为什么需要闭包 ...
[Pandas] 02 - Tutorial of NumPy
Ref: NumPy 教程这里主要是查缺补漏一些常用方法. 初步认识矩阵常见知识点矩阵操作 Ref: [Python] 01 - Number and Matrix[总结过一部分] 一.矩阵 ( ...
（七十二）c#Winform自定义控件-雷达图
前提入行已经7,8年了,一直想做一套漂亮点的自定义控件,于是就有了本系列文章. GitHub:https://github.com/kwwwvagaa/NetWinformControl 码云:ht ...
redirectTo、navigateTo与switchTap区别
老是记忆不大清楚,简单写一下简单作区分就是: redirectTo:关闭当前页(卸载),跳转到指定页 navigateTo:保留当前页(隐藏),跳转到指定页 switchTap:只能用于跳转到tab ...
对象实例Vue
var vm = new Vue({ el:'#app', data:{}, //数据 methods:{}, //方法调用 filters:{}, //私有过滤器 directives:{}, // ...
还在用SVN的人，要不要学Git？
还在用SVN的人,要不要学Git? 提出这个问题,是因为很多小伙伴还不会使用Git. 在Git之前,是SVN的天下. SVN诞生于2001年,由于较为先进的管理方式而迅速取代了CVS. 很多80后小伙 ...
mysql 时间与字符串相互转换
时间.字符串.时间戳之间的相互转换:date转字符串.date转时间戳.字符串转date.字符串转时间戳.时间戳转date,时间戳转字符串用法涉及的函数 date_format(date, form ...

Python 爬取豆瓣TOP250实战

Python 爬取豆瓣TOP250实战的更多相关文章

随机推荐

热门专题