一、爬虫对象-豆瓣电影TOP250

前几天，我分享了一个python爬虫案例，爬取豆瓣读书TOP250数据：【python爬虫案例】用python爬豆瓣读书TOP250排行榜！

今天，我再分享一期，python爬取豆瓣电影TOP250数据！

爬虫大体流程和豆瓣读书TOP250类似，细节之处见逻辑。

首先，打开豆瓣电影TOP250的页面：https://movie.douban.com/top250

开发好python爬虫代码后，爬取成功后的csv数据，如下：

代码是怎样实现的爬取呢？下面逐一讲解python核心代码。

二、python爬虫代码讲解

首先，导入需要用到的库：

import requests  # 发送请求

from bs4 import BeautifulSoup  # 解析网页

import pandas as pd  # 存取csv

from time import sleep  # 等待时间

然后，向豆瓣电影网页发送请求：

res = requests.get(url, headers=headers)

利用BeautifulSoup库解析响应页面：

soup = BeautifulSoup(res.text, 'html.parser')

用BeautifulSoup的select函数，（css解析的方法）编写代码逻辑，部分核心代码：

for movie in soup.select('.item'):

	name = movie.select('.hd a')[0].text.replace('\n', '')  # 电影名称

	movie_name.append(name)

	url = movie.select('.hd a')[0]['href']  # 电影链接

	movie_url.append(url)

	star = movie.select('.rating_num')[0].text  # 电影评分

	movie_star.append(star)

	star_people = movie.select('.star span')[3].text  # 评分人数

	star_people = star_people.strip().replace('人评价', '')

	movie_star_people.append(star_people)

其中，需要说明的是，《大闹天宫》这部电影和其他电影页面排版不同：

它的上映年份有3个（其他电影只有1个上映年份），并且以"/"分隔，正好和国家、电影类型的分割线冲突，

所以，这里特殊处理一下：

if name == '大闹天宫 / 大闹天宫 上下集  /  The Monkey King':  # 大闹天宫，特殊处理

	year0 = movie_infos.split('\n')[1].split('/')[0].strip()

	year1 = movie_infos.split('\n')[1].split('/')[1].strip()

	year2 = movie_infos.split('\n')[1].split('/')[2].strip()

	year = year0 + '/' + year1 + '/' + year2

	movie_year.append(year)

	country = movie_infos.split('\n')[1].split('/')[3].strip()

	movie_country.append(country)

	type = movie_infos.split('\n')[1].split('/')[4].strip()

	movie_type.append(type)

最后，将爬取到的数据保存到csv文件中：

def save_to_csv(csv_name):

	"""

	数据保存到csv

	:return: None

	"""

	df = pd.DataFrame()  # 初始化一个DataFrame对象

	df['电影名称'] = movie_name

	df['电影链接'] = movie_url

	df['电影评分'] = movie_star

	df['评分人数'] = movie_star_people

	df['导演'] = movie_director

	df['主演'] = movie_actor

	df['上映年份'] = movie_year

	df['国家'] = movie_country

	df['类型'] = movie_type

	df.to_csv(csv_name, encoding='utf_8_sig')  # 将数据保存到csv文件

其中，把各个list赋值为DataFrame的各个列，就把list数据转换为了DataFrame数据，然后直接to_csv保存。

这样，爬取的数据就持久化保存下来了。

三、同步视频

同步讲解视频：【python爬虫】利用python爬虫爬取豆瓣电影TOP250的数据！

四、获取完整源码

附完整源码：【python爬虫案例】利用python爬虫爬取豆瓣电影TOP250的数据！

我是 @马哥python说，持续分享python源码干货中！

【python爬虫案例】用python爬豆瓣电影TOP250排行榜！的更多相关文章

Python 爬取豆瓣电影Top250排行榜，爬虫初试
from bs4 import BeautifulSoup import openpyxl import re import urllib.request import urllib.error # ...
python爬虫1——获取网站源代码(豆瓣图书top250信息)
# -*- coding: utf-8 -*- import requests import re import sys reload(sys) sys.setdefaultencoding('utf ...
Scrapy爬豆瓣电影Top250并存入MySQL数据库
d:进入D盘 scrapy startproject douban创建豆瓣项目 cd douban进入项目 scrapy genspider douban_spider movie.douban.co ...
[151116 记录] 使用Python3.5爬取豆瓣电影Top250
这一段时间,一直在折腾Python爬虫.已有的文件记录显示,折腾爬虫大概个把月了吧.但是断断续续,一会儿鼓捣python.一会学习sql儿.一会调试OpenCV,结果什么都没学好.前几天,终于耐下心来 ...
练习：一只豆瓣电影TOP250的爬虫
练习:一只豆瓣电影TOP250爬虫练习:一只豆瓣电影TOP250爬虫 ①创建project ②编辑items.py import scrapyclass DoubanmovieItem(scrapy ...
Python爬虫入门：爬取豆瓣电影TOP250
一个很简单的爬虫. 从这里学习的,解释的挺好的:https://xlzd.me/2015/12/16/python-crawler-03 分享写这个代码用到了的学习的链接: BeautifulSoup ...
python 爬虫&爬取豆瓣电影top250
爬取豆瓣电影top250from urllib.request import * #导入所有的request,urllib相当于一个文件夹,用到它里面的方法requestfrom lxml impor ...
python爬虫 Scrapy2-- 爬取豆瓣电影TOP250
sklearn实战-乳腺癌细胞数据挖掘(博主亲自录制视频) https://study.163.com/course/introduction.htm?courseId=1005269003& ...
Python爬虫----抓取豆瓣电影Top250
有了上次利用python爬虫抓取糗事百科的经验,这次自己动手写了个爬虫抓取豆瓣电影Top250的简要信息. 1.观察url 首先观察一下网址的结构 http://movie.douban.com/to ...
【Python爬虫】：使用高性能异步多进程爬虫获取豆瓣电影Top250
在本篇博文当中,将会教会大家如何使用高性能爬虫,快速爬取并解析页面当中的信息.一般情况下,如果我们请求网页的次数太多,每次都要发出一次请求,进行串行执行的话,那么请求将会占用我们大量的时间,这样得不偿 ...

随机推荐

HashMap的三种遍历方式--Java--小白必懂
初学Hash Map总感觉它的遍历很麻烦,其实看懂后总结一下就是:集合+泛型,没啥特别的总结一下HashMap的三种遍历方法如下: 保证一看就会>>> 1 // 对HashMap的 ...
Python爬取国家统计局2009至2020统计用区划和城乡划分代码（省市区/县三级）并存入mysql数据库
国家统计局->统计标准网址:http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/ 获取资源请关注公众号 [靠谱杨阅读人生]回复[城乡分类]获取流程 ...
#贪心#CF840A Leha and Function
题目设 \(f(n,k)\) 表示区间 \([1,n]\) 选出 \(k\) 个元素的集合的期望最小值, 现在需要重排 \(a\) 数组,使得 \(\sum_{i=1}^mf(a_i,b_i)\) ...
#K-D Tree#洛谷 4357 [CQOI2016]K 远点对
题目已知平面内 \(n\) 个点的坐标,求欧氏距离下的第 \(k\) 远点对. 分析先将\(k\)乘2转换为第\(k\)远有序点对. 由于\(O(n^2)\)即枚举一个点再枚举另一个点会超出时限, ...
使用OHOS SDK构建zlib
参照OHOS IDE和SDK的安装方法配置好开发环境. 从gitee下载源码,当前最新的提交记录ID为04f42ceca40f73e2978b50e93806c2a18c1281fc. 执行如下命令: ...
OpenHarmony——内核对象队列之算法详解（下）
前言 OpenAtom OpenHarmony(以下简称"OpenHarmony") LiteOS-M 内核是面向 IoT 领域构建的轻量级物联网操作系统内核,具有小体积.低功耗. ...
【FAQ】运动健康服务云侧数据常见问题及解答
目录 Q1:v2接口相比于v1接口传参及返回的数据格式有变化吗?是否可以直接将v1接口改成v2接口? Q2:如何获取采集健康数据的穿戴设备信息? Q3:如何处理非华为手机产生的步数调用采样明细接口查询 ...
华为Push用户增长服务：精准触达，加速增长
速戳了解华为Push用户增长服务:通过精细化运营,助力开发者高效实现用户增长,提升用户活跃度和粘性! 合作咨询请点此链接了解更多详情>> 访问华为开发者联盟官网获取开发指导文档华为移 ...
动态库 DLL 封装一：dll分类
动态库分为三种: Non-MFC-DLL(非MFC动态库): 非MFC动态库不采用MFC类库结构,其带出函数为标准C接口,能被非MFC或MFC编写的应用程序所调用 MFC Regular DLL( ...
mybatis plugin源码解析
概述 Plugin,意为插件,是mybatis为开发者提供的,对方法进行自定义编程的手段.其中用到了动态代理.反射方法,通过指定需要增强的对象与方法,进行程序编写. 核心类主要涉及几个核心类:Int ...