python 爬取猫眼电影top100数据

最近有爬虫相关的需求，所以上B站找了个视频（链接在文末）看了一下，做了一个小程序出来，大体上没有修改，只是在最后的存储上，由txt换成了excel。

简要需求：爬虫爬取猫眼电影TOP100榜单数据
使用语言：python
工具：PyCharm
涉及库：requests、re、openpyxl(高版本excel操作库)

实现代码

# -*- coding: utf-8 -*-

# @Author  : yocichen

# @Email   : yocichen@126.com

# @File    : maoyan100.py

# @Software: PyCharm

# @Time    : 2019

# @UpdateTime : 2020/4/26

import requests

from requests import RequestException

import re

import openpyxl

import traceback

# Get page's html by requests module

def get_one_page(url):

    try:

        headers = {

            'user-agent': 'Mozilla / 5.0(Windows NT 10.0; WOW64) AppleWebKit / 537.36(KHTML, likeGecko) Chrome / 53.0.2785.104Safari / 537.36Core / 1.53.4882.400QQBrowser / 9.7.13059.400'

        }

        # Sometimes, the proxies need to be replaced.

        # You can get them by accessing https://www.kuaidaili.com/free/inha/

        proxies = {

            'http': '60.190.250.120:8080'

        }

        # use headers to avoid 403 Forbidden Error(reject spider)

        response = requests.get(url, headers=headers, proxies=proxies)

        if response.status_code == 200 :

            return response.text

        return None

    except RequestException:

        traceback.print_exc()

        return None

# Get useful info from html of a page by re module

def parse_one_page(html):

    try:

        pattern = re.compile('<dd>.*?board-index.*?>(\d+)<.*?<a.*?title="(.*?)"'

                             +'.*?data-src="(.*?)".*?</a>.*?star">[\\s]*(.*?)[\\n][\\s]*</p>.*?'

                             +'releasetime">(.*?)</p>.*?integer">(.*?)</i>.*?'

                             +'fraction">(.*?)</i>.*?</dd>', re.S)

        items = re.findall(pattern, html)

        return items

    except Exception:

        traceback.print_exc()

        return []

# Main call function

def main(url):

    page_html = get_one_page(url)

    parse_res = parse_one_page(page_html)

    return parse_res

# Write the useful info in excel(*.xlsx file)

def write_excel_xlsx(items):

    wb = openpyxl.Workbook()

    ws = wb.active

    rows = len(items)

    cols = len(items[0])

    # First, write col's title.

    ws.cell(1, 1).value = '编号'

    ws.cell(1, 2).value = '片名'

    ws.cell(1, 3).value = '宣传图片'

    ws.cell(1, 4).value = '主演'

    ws.cell(1, 5).value = '上映时间'

    ws.cell(1, 6).value = '评分'

    # Write film's info

    for i in range(0, rows):

        for j in range(0, cols):

            if j != 5:

                ws.cell(i+2, j+1).value = items[i][j]

            else:

                ws.cell(i+2, j+1).value = items[i][j]+items[i][j+1]

                break

    # Save the work book as *.xlsx

    wb.save('maoyan_top100.xlsx')

if __name__ == '__main__':

    print('spider working...')

    res = []

    url = 'https://maoyan.com/board/4?'

    for i in range(0, 10):

        if i == 0:

            res = main(url)

        else:

            newUrl = url+'offset='+str(i*10)

            res.extend(main(newUrl))

    print('writing into excel...')

    write_excel_xlsx(res)

    print('work done!\nNote: the data is in the current directory.')

更新效果图：

后记

入门了一点后发现，如果使用正则表达式和requests库来实行进行数据爬取的话，分析HTML页面结构和正则表达式的构造是关键，剩下的工作不过是替换url罢了。

你可能需要的 GitHub 传送门

补充一个分析HTML构造正则的例子

猫眼经典科幻按照评价排序

审查元素我们会发现每一项都是<dd>****</dd>格式

我想要获取电影名称和评分，先拿出HTML代码看一看

试着构造正则

'.*?<dd>.*?movie-item-title.*?title="(.*?)">.*?integer">(.*?)<.*?fraction">(.*?)<.*?</dd>' (随手写的，未经验证)

参考资料

【B站视频 2018年最新Python3.6网络爬虫实战】https://www.bilibili.com/video/av19057145/?p=14

【猫眼电影robots】https://maoyan.com/robots.txt (最好爬之前去看一下，那些可爬那些不允许爬)

python 爬取猫眼电影top100数据的更多相关文章

爬虫系列（1）-----python爬取猫眼电影top100榜
对于Python初学者来说,爬虫技能是应该是最好入门,也是最能够有让自己有成就感的,今天在整理代码时,整理了一下之前自己学习爬虫的一些代码,今天先上一个简单的例子,手把手教你入门Python爬虫,爬取 ...
python爬取猫眼电影top100
最近想研究下python爬虫,于是就找了些练习项目试试手,熟悉一下,猫眼电影可能就是那种最简单的了. 1 看下猫眼电影的top100页面分了10页,url为:https://maoyan.com/b ...
PYTHON 爬虫笔记八:利用Requests+正则表达式爬取猫眼电影top100（实战项目一）
利用Requests+正则表达式爬取猫眼电影top100 目标站点分析流程框架爬虫实战使用requests库获取top100首页: import requests def get_one_pag ...
50 行代码教你爬取猫眼电影 TOP100 榜所有信息
对于Python初学者来说,爬虫技能是应该是最好入门,也是最能够有让自己有成就感的,今天,恋习Python的手把手系列,手把手教你入门Python爬虫,爬取猫眼电影TOP100榜信息,将涉及到基础爬虫 ...
40行代码爬取猫眼电影TOP100榜所有信息
主要内容: 一.基础爬虫框架的三大模块二.完整代码解析及效果展示 1️⃣ 基础爬虫框架的三大模块 1.HTML下载器:利用requests模块下载HTML网页. 2.HTML解析器:利用re正则表 ...
# [爬虫Demo] pyquery+csv爬取猫眼电影top100
目录 [爬虫Demo] pyquery+csv爬取猫眼电影top100 站点分析代码君 [爬虫Demo] pyquery+csv爬取猫眼电影top100 站点分析 https://maoyan.co ...
用requests库爬取猫眼电影Top100
这里需要注意一下,在爬取猫眼电影Top100时,网站设置了反爬虫机制,因此需要在requests库的get方法中添加headers,伪装成浏览器进行爬取 import requests from re ...
Python爬虫项目--爬取猫眼电影Top100榜
本次抓取猫眼电影Top100榜所用到的知识点: 1. python requests库 2. 正则表达式 3. csv模块 4. 多进程正文目标站点分析通过对目标站点的分析, 来确定网页结构, ...
python应用-爬取猫眼电影top100
import requests import re import json import time from requests.exceptions import RequestException d ...

随机推荐

手把手教你吧Python应用到实际开发不再空谈悟法☝☝☝
手把手教你吧Python应用到实际开发不再空谈悟法☝☝☝ 想用python做机器学习吗,是不是在为从哪开始挠头?这里我假定你是新手,这篇文章里咱们一起用Python完成第一个机器学习项目.我会手把手 ...
移动端自动化测试Appium 从入门到项目实战Python版☝☝☝
移动端自动化测试Appium 从入门到项目实战Python版 (一个人学习或许会很枯燥,但是寻找更多志同道合的朋友一起,学习将会变得更加有意义✌✌) 说到APP自动化测试,Appium可是说是非常流 ...
http服务端架构演进
摘要在详解http报文相关文章中我们介绍了http协议是如何工作的,那么构建一个真实的网站还需要引入组件呢?一些常见的名词到底是什么含义呢? 什么叫正向代理,什么叫反向代理服务代理与负载均衡的差别 ...
Flannel的VXLAN模式工作原理
跨主机通信的一个解决方案是Flannel,由CoreOS推出,最早支持的是UDP模式,但是因为性能太差被淘汰了, 过时的UDP模式相比两台宿主机直接通信,多出了flanneld的处理过程,发出IP包 ...
异常:微信小程序tabBar不生效
app.json全局tabBar设置tabBar不显示由于小程序的机制问题,首页的tabBar第一个导航必须是首页 "pages": [ "pages/index/in ...
第3章(1) Linux内核相关概念
Linux内核的组成 1. Linux内核源代码的目录结构 arch:包含和硬件体系结构相关的代码,每种平台占一个相应的目录,如 i386.arm. arm64.powerpc.mips 等.Linu ...
代码审计-YXcms1.4.7
题外: 今天是上班第一天,全都在做准备工作,明天开始正式实战做事. 看着周围稍年长的同事和老大做事,自己的感觉就是自己还是差的很多很多,自己只能算个废物. 学无止境,我这样的垃圾废物就该多练,保持战斗 ...
实验吧之【who are you?】(时间盲注)
地址:http://ctf5.shiyanbar.com/web/wonderkun/index.php 这道题点开看见your ip is :xxx.xxx.xx.xxx 试了一些最后发现是XFF ...
Python开发【第十一篇】函数
函数什么是函数? 函数是可以重复执行的语句块,可以重复调用并执行函数的面向过程编程的最小单位. 函数的作用: 函数用于封装语句块,提高代码的重用性,定义用户级别的函数.提高代码的可读性和易维护性. ...
HDU 5616 Jam's balance(01背包)
题目网址:http://acm.hdu.edu.cn/showproblem.php?pid=5616 题目: Jam's balance Time Limit: 2000/1000 MS (Java ...

python 爬取猫眼电影top100数据

python 爬取猫眼电影top100数据的更多相关文章

随机推荐

热门专题