多种方法爬取猫眼电影Top100排行榜,保存到csv文件,下载封面图

参考链接:

https://blog.csdn.net/BF02jgtRS00XKtCx/article/details/83663400

https://www.makcyun.top/web_scraping_withpython1.html

因猫眼网站有些更新,参考链接中的部分代码执行报错,特修改一下

#!/usr/bin/env python

# -*- coding: utf-8 -*-

import csv

import re

from multiprocessing.pool import Pool

import requests

from bs4 import BeautifulSoup

from lxml import etree

from requests.exceptions import RequestException

def get_one_page(url):

    try:

        headers = {

            'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:60.0) Gecko/20100101 Firefox/60.0'

        }

        response = requests.get(url, headers=headers)

        if response.status_code == 200:

            return response.text

        else:

            return None

    except RequestException:

        return None

# 获取封面大图

def get_thumb(url):

    # url = 'https://p0.meituan.net/movie/46c29a8b8d8424bdda7715e6fd779c66235684.jpg@160w_220h_1e_1c'

    pattern = re.compile(r'(.*?)@.*?')

    thumb = re.search(pattern, url)

    return thumb.group(1)

    # http://p0.meituan.net/movie/5420be40e3b755ffe04779b9b199e935256906.jpg@160w_220h_1e_1c

    # 去掉@160w_220h_1e_1c就是大图

# 提取上映时间函数

def get_release_time(data):

    pattern = re.compile(r'(.*?)(\(|$)')

    items = re.search(pattern, data)

    if items is None:

        return '未知'

    return items.group(1)  # 返回匹配到的第一个括号(.*?)中结果即时间

# 提取国家/地区函数

def get_release_area(data):

    pattern = re.compile(r'.*\((.*)\)')

    # $表示匹配一行字符串的结尾，这里就是(.*?)；(|$,表示匹配字符串含有(,或者只有(.*?)

    items = re.search(pattern, data)

    if items is None:

        return '未知'

    return items.group(1)

# 使用正则表达式的写法

def parse_one_page(html):

    pattern = re.compile(

        '<dd>.*?board-index.*?>(\d+)</i>.*?data-src="(.*?)".*?name"><a.*?>(.*?)</a>.*?star">(.*?)</p>.*?releasetime">(.*?)</p.*?integer">(.*?)</i>.*?fraction">(.*?)</i>.*?</dd>',

        re.S)  # re.S表示匹配任意字符，如果不加，则无法匹配换行符

    items = re.findall(pattern, html)

    for item in items:

        yield {

            'index': item[0],

            'thumb': get_thumb(item[1]),  # 定义get_thumb()方法进一步处理网址

            'name': item[2],

            'star': item[3].strip()[3:],

            # 'time': item[4].strip()[5:],

            # 用一个方法分别提取time里的日期和地区

            'time': get_release_time(item[4].strip()[5:]),

            'area': get_release_area(item[4].strip()[5:]),

            'score': item[5].strip() + item[6].strip()

            # 评分score由整数+小数两部分组成

        }

# lxml结合xpath提取

def parse_one_page2(html):

    parse = etree.HTML(html)

    items = parse.xpath('/html/body/div[4]//div//dd')

    for item in items:

        yield {

            'index': item.xpath('./i/text()')[0],

            'thumb': get_thumb(str(item.xpath('./a/img[2]/@data-src')[0].strip())),

            'name': item.xpath('./div/div/div[1]/p[1]/a/@title')[0],

            'star': item.xpath('.//p[@class="star"]/text()')[0].strip()[3:],

            'realease_time': get_release_time(item.xpath('.//p[@class="releasetime"]/text()')[0].strip()[5:]),

            'area': get_release_area(item.xpath('.//p[@class="releasetime"]/text()')[0].strip()[5:]),

            'score': item.xpath('./div/div/div[2]/p/i[1]/text()')[0] + item.xpath('./div/div/div[2]/p/i[2]/text()')[0],

        }

# 使用BeautifulSoup结合css选择器

def parse_one_page3(html):

    soup = BeautifulSoup(html, 'lxml')

    items = range(10)

    for item in items:

        yield {

            'index': soup.select('i.board-index')[item].string,

            'thumb': get_thumb(soup.select('.board-img')[item]['data-src']),

            'name': soup.select('.name a')[item].string,

            'star': soup.select('.star')[item].string.strip()[3:],

            'time': get_release_time(soup.select('.releasetime')[item].string.strip()[5:]),

            'area': get_release_area(soup.select('.releasetime')[item].string.strip()[5:]),

            'score': soup.select('.integer')[item].string + soup.select('.fraction')[item].string

        }

# Beautiful Soup + find_all函数提取

def parse_one_page4(html):

    soup = BeautifulSoup(html, 'lxml')

    items = range(10)

    for item in items:

        yield {

            'index': soup.find_all(class_='board-index')[item].string,

            'thumb': get_thumb(soup.find_all(class_='board-img')[item].attrs['data-src']),

            'name': soup.find_all(name='p', attrs={'class': 'name'})[item].string,

            'star': soup.find_all(name='p', attrs={'class': 'star'})[item].string.strip()[3:],

            'time': get_release_time(soup.find_all(class_='releasetime')[item].string.strip()[5:]),

            'area': get_release_area(soup.find_all(class_='releasetime')[item].string.strip()[5:]),

            'score': soup.find_all(name='i', attrs={'class': 'integer'})[item].string +

                     soup.find_all(name='i', attrs={'class': 'fraction'})[item].string

        }

# 数据存储到csv

def write_to_file3(item):

    with open('猫眼top100.csv', 'a', encoding='utf_8_sig', newline='') as f:

        # 'a'为追加模式（添加）

        # utf_8_sig格式导出csv不乱码

        fieldnames = ['index', 'thumb', 'name', 'star', 'time', 'area', 'score']

        w = csv.DictWriter(f, fieldnames=fieldnames)

        # w.writeheader()

        w.writerow(item)

# 下载封面图片

def download_thumb(name, url, num):

    try:

        response = requests.get(url)

        with open('封面图/' + name + '.jpg', 'wb') as f:

            f.write(response.content)

            print('第%s部电影封面下载完毕' % num)

            print('------')

    except RequestException as e:

        print(e)

        pass

    # 不能是w，否则会报错，因为图片是二进制数据所以要用wb

def main(offset):

    url = 'http://maoyan.com/board/4?offset=' + str(offset)

    html = get_one_page(url)

    for item in parse_one_page4(html):

        write_to_file3(item)

        download_thumb(item['name'], item['thumb'], item['index'])

if __name__ == '__main__':

    pool = Pool()

    pool.map(main, [i * 10 for i in range(10)])

多种方法爬取猫眼电影Top100排行榜,保存到csv文件,下载封面图的更多相关文章

多线程爬取猫眼电影TOP100并保存到mongo数据库中
import requests import re import json from requests.exceptions import RequestException from multipro ...
python爬虫入门新手向实战 - 爬取猫眼电影Top100排行榜
本次主要爬取Top100电影榜单的电影名.主演和上映时间, 同时保存为excel表个形式, 其他相似榜单也都可以依葫芦画瓢首先打开要爬取的网址https://maoyan.com/board/4, ...
50 行代码教你爬取猫眼电影 TOP100 榜所有信息
对于Python初学者来说,爬虫技能是应该是最好入门,也是最能够有让自己有成就感的,今天,恋习Python的手把手系列,手把手教你入门Python爬虫,爬取猫眼电影TOP100榜信息,将涉及到基础爬虫 ...
40行代码爬取猫眼电影TOP100榜所有信息
主要内容: 一.基础爬虫框架的三大模块二.完整代码解析及效果展示 1️⃣ 基础爬虫框架的三大模块 1.HTML下载器:利用requests模块下载HTML网页. 2.HTML解析器:利用re正则表 ...
用requests库爬取猫眼电影Top100
这里需要注意一下,在爬取猫眼电影Top100时,网站设置了反爬虫机制,因此需要在requests库的get方法中添加headers,伪装成浏览器进行爬取 import requests from re ...
PYTHON 爬虫笔记八:利用Requests+正则表达式爬取猫眼电影top100（实战项目一）
利用Requests+正则表达式爬取猫眼电影top100 目标站点分析流程框架爬虫实战使用requests库获取top100首页: import requests def get_one_pag ...
# [爬虫Demo] pyquery+csv爬取猫眼电影top100
目录 [爬虫Demo] pyquery+csv爬取猫眼电影top100 站点分析代码君 [爬虫Demo] pyquery+csv爬取猫眼电影top100 站点分析 https://maoyan.co ...
爬虫系列（1）-----python爬取猫眼电影top100榜
对于Python初学者来说,爬虫技能是应该是最好入门,也是最能够有让自己有成就感的,今天在整理代码时,整理了一下之前自己学习爬虫的一些代码,今天先上一个简单的例子,手把手教你入门Python爬虫,爬取 ...
python 爬取猫眼电影top100数据
最近有爬虫相关的需求,所以上B站找了个视频(链接在文末)看了一下,做了一个小程序出来,大体上没有修改,只是在最后的存储上,由txt换成了excel. 简要需求:爬虫爬取猫眼电影TOP100榜单数据 ...

随机推荐

把握linux内核设计思想系列
[版权声明:尊重原创,转载请保留出处:blog.csdn.net/shallnet,文章仅供学习交流,请勿用于商业用途] 本专栏分析linux内核的设计实现,包含系统调用.中断.下半部机制.时间管理. ...
Swift基本常识点
import Foundation // 单行注释 // 多行注释(支持嵌套,OC是不支持的) // 常量let,初始化之后就不可改变. // 常量的具体类型可以自动识别,等号后面是什么类型,它就是什 ...
HDU 3718 Similarity（KM最大匹配）
HDU 3718 Similarity 题目链接题意:给定一个标准答案字符串,然后以下每一行给一个串.要求把字符一种相应一种,要求匹配尽量多思路:显然的KM最大匹配问题,位置相应的字符连边权值+1 ...
Spring + Redis ( 简单使用)
1.Redis 的 Java API Java 中使用 Redis 工具,要先去 maven 仓库中,下载 jedis jar包 jedis 依赖 <dependency> <gr ...
CSS3 3D变换实例滚动的正方体
笔记: 2D变换 transform 位移 translateX() translateY() 简写:translate(X值,Y值) 正值向右,负值向左旋转 rotate() rotat ...
Android_传感器光学
上一篇写了一个小案例方向传感器,与这光学传感器原理大致类似,但其实代码的主要区别得到的类型不一样在这里我一一列举出来: * Sensor.TYPE_ORIENTATION:方向传感器. * Senso ...
Microsoft Azure Storage Explorer
上周主管说,要把每次开过的发票,要下载成Pdf的文件,然后就实时的将这些发票存到云上面去. 就是这个Microsoft Azure ,微软的亲儿子. 先把代码贴上来吧,挺简单的. ##.链接账号密码 ...
HangFire的定时任务和Quartz.NET总结（三）Quartz 配置
在一个Net Core需求中,需要在每天的凌晨三点去抓取两个电商仓库的剩余的每个料号的数量来写会自己的表中, 用到了HangFire的定时任务这篇文章讲的很详细记录下文章2 这篇更简单 Qu ...
php基础知识书写格式
PHP,是英文超文本预处理语言Hypertext Preprocessor的递归缩写.PHP 是一种 HTML 内嵌式的语言,是一种在服务器端执行的嵌入HTML文档的脚本语言. php嵌入页面的标记有 ...
semiautomatic annotated tools
在进行实验图像取样时,可能会用到大量的标签样本,拍摄大量图片进行手工标注要消耗大量时间,半自动化的标注工具可以节省一些时间. 原文链接:http://blog.sina.com.cn/s/blog_6 ...

多种方法爬取猫眼电影Top100排行榜,保存到csv文件,下载封面图

多种方法爬取猫眼电影Top100排行榜,保存到csv文件,下载封面图的更多相关文章

随机推荐

热门专题