python学习(23)requests库爬取猫眼电影排行信息

本文介绍如何结合前面讲解的基本知识，采用requests，正则表达式，cookies结合起来，做一次实战，抓取猫眼电影排名信息。

用requests写一个基本的爬虫

排行信息大致如下图

网址链接为http://maoyan.com/board/4?offset=0
我们通过点击查看源文件，可以看到网页信息

每一个电影的html信息都是下边的这种结构

<i class="board-index board-index-3">3</i>

    <a href="/films/2641" title="罗马假日" class="image-link" data-act="boarditem-click" data-val="{movieId:2641}">

      <img src="//ms0.meituan.net/mywww/image/loading_2.e3d934bf.png" alt="" class="poster-default" />

      <img data-src="http://p0.meituan.net/movie/54617769d96807e4d81804284ffe2a27239007.jpg@160w_220h_1e_1c" alt="罗马假日" class="board-img" />

    </a>

    <div class="board-item-main">

      <div class="board-item-content">

              <div class="movie-item-info">

        <p class="name"><a href="/films/2641" title="罗马假日" data-act="boarditem-click" data-val="{movieId:2641}">罗马假日</a></p>

        <p class="star">

                主演：格利高里·派克,奥黛丽·赫本,埃迪·艾伯特

        </p>

其实对我们有用的就是 img src(图片地址) title 电影名 star 主演。

所以根据前边介绍过的正则表达式写法，可以推导出正则表达式

compilestr = r'''<dd>.*?<i class="board-index.*?<img data-src="(.*?)@.*?title="(.*?)".*?<p class="star">

(.*?)</p>.*?<p class="releasetime">.*?(.*?)</p'''

‘.’表示匹配任意字符，如果正则表达式用re.S模式，.还可以匹配换行符，’‘表示匹配前一个字符0到n个，’？’表示非贪婪匹配，

所以’.?’可以理解为匹配任意字符。接下来写代码打印我们匹配的条目

import requests

import re

USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.221 Safari/537.36 SE 2.X MetaSr 1.0'

if __name__ == "__main__":

    headers={'User-Agent':USER_AGENT,

           }

    session = requests.Session()

    req = session.get('http://maoyan.com/board/4?offset=0',headers = headers, timeout = 5)

    compilestr = r'<dd>.*?<i class="board-index.*?<img data-src="(.*?)@.*?title="(.*?)".*?<p class="star">(.*?)</p>.*?<p class="releasetime">.*?(.*?)</p'

    #print(req.content)

    pattern = re.compile(compilestr,re.S)

    #print(req.content.decode('utf-8'))

    lists = re.findall(pattern,req.content.decode('utf-8'))

    for item in lists:

        #print(item)

        print(item[0].strip())

        print(item[1].strip())

        print(item[2].strip())

        print(item[3].strip())

        print('\n')

运行一下，结果如下

看来我们抓取到数据了，我们只爬取了这一页的信息，接下来我们分析第二页，第三页的规律，点击第二页，网址变为’http://maoyan.com/board/4?offset=10',点击第三页网址变为'http://maoyan.com/board/4?offset=20'，所以每一页的offset偏移量为20，这样我们可以计算偏移量达到抓取不同页码的数据，将上一个程序稍作修改，变为可以爬取n页数据的程序

import requests

import re

import time

USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.221 Safari/537.36 SE 2.X MetaSr 1.0'

class MaoYanScrapy(object):

    def __init__(self,pages=1):

        self.m_session = requests.Session()

        self.m_headers = {'User-Agent':USER_AGENT,}

        self.m_compilestr = r'<dd>.*?<i class="board-index.*?<img data-src="(.*?)@.*?title="(.*?)".*?<p class="star">(.*?)</p>.*?<p class="releasetime">.*?(.*?)</p'

        self.m_pattern = re.compile(self.m_compilestr,re.S)

        self.m_pages = pages

    def getPageData(self):

        try:

            for i in range(self.m_pages):

                httpstr = 'http://maoyan.com/board/4?offset='+str(i)

                req = self.m_session.get(httpstr,headers=self.m_headers,timeout=5)

                lists = re.findall(self.m_pattern,req.content.decode('utf-8'))

                time.sleep(1)

                for item in lists:

                    img = item[0]

                    print(img.strip()+'\n')

                    name = item[1]

                    print(name.strip()+'\n')

                    actor = item[2]

                    print(actor.strip()+'\n')

                    fiemtime = item[3]

                    print(fiemtime.strip()+'\n')

        except:

            print('get error')

if __name__ == "__main__":

    maoyanscrapy = MaoYanScrapy()

    maoyanscrapy.getPageData()

运行下，效果和之前一样，只是支持了页码的传参了。

下面继续完善下程序，把每个电影的图片抓取并保存下来，这里面用到了创建文件夹，路径拼接，文件保存的基础知识，综合运用如下

import requests

import re

import time

import os

USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.221 Safari/537.36 SE 2.X MetaSr 1.0'

class MaoYanScrapy(object):

    def __init__(self,pages=1):

        self.m_session = requests.Session()

        self.m_headers = {'User-Agent':USER_AGENT,}

        self.m_compilestr = r'<dd>.*?<i class="board-index.*?<img data-src="(.*?)@.*?title="(.*?)".*?<p class="star">(.*?)</p>.*?<p class="releasetime">.*?(.*?)</p'

        self.m_pattern = re.compile(self.m_compilestr,re.S)

        self.m_pages = pages

        self.dirpath = os.path.split(os.path.abspath(__file__))[0]

    def getPageData(self):

        try:

            for i in range(self.m_pages):

                httpstr = 'http://maoyan.com/board/4?offset='+str(i)

                req = self.m_session.get(httpstr,headers=self.m_headers,timeout=5)

                lists = re.findall(self.m_pattern,req.content.decode('utf-8'))

                time.sleep(1)

                for item in lists:

                    img = item[0]

                    print(img.strip()+'\n')

                    name = item[1]

                    dirpath = os.path.join(self.dirpath,name)

                    if(os.path.exists(dirpath)==False):

                        os.makedirs(dirpath)

                    print(name.strip()+'\n')

                    actor = item[2]

                    print(actor.strip()+'\n')

                    fiemtime = item[3]

                    print(fiemtime.strip()+'\n')

                    txtname = name+'.txt'

                    txtname = os.path.join(dirpath,txtname)

                    if(os.path.exists(txtname)==True):

                        os.remove(txtname)

                    with open (txtname,'w') as f:

                        f.write(img.strip()+'\n')

                        f.write(name.strip()+'\n')

                        f.write(actor.strip()+'\n')

                        f.write(fiemtime.strip()+'\n')

                    picname=os.path.join(dirpath,name+'.'+img.split('.')[-1])

                    if(os.path.exists(picname)):

                        os.remove(picname)

                    req=self.m_session.get(img,headers=self.m_headers,timeout=5)

                    time.sleep(1)

                    with open(picname,'wb') as f:

                        f.write(req.content)

        except:

            print('get error')

if __name__ == "__main__":

    maoyanscrapy = MaoYanScrapy()

    maoyanscrapy.getPageData()

运行一下，可以看到在文件的目录里多了几个文件夹

点击一个文件夹，看到里边有我们保存的图片和信息

好了，到此为止，正则表达式和requests结合，做的爬虫实战完成。

源码地址：
谢谢关注我的公众号：https://github.com/secondtonone1/python-

python学习(23)requests库爬取猫眼电影排行信息的更多相关文章

用requests库爬取猫眼电影Top100
这里需要注意一下,在爬取猫眼电影Top100时,网站设置了反爬虫机制,因此需要在requests库的get方法中添加headers,伪装成浏览器进行爬取 import requests from re ...
requests库爬取猫眼电影“最受期待榜”榜单 --网络爬虫
目标站点:https://maoyan.com/board/6 # coding:utf8 import requests, re, json from requests.exceptions imp ...
PYTHON 爬虫笔记八:利用Requests+正则表达式爬取猫眼电影top100（实战项目一）
利用Requests+正则表达式爬取猫眼电影top100 目标站点分析流程框架爬虫实战使用requests库获取top100首页: import requests def get_one_pag ...
一起学爬虫——使用xpath库爬取猫眼电影国内票房榜
之前分享了一篇使用requests库爬取豆瓣电影250的文章,今天继续分享使用xpath爬取猫眼电影热播口碑榜 XPATH语法 XPATH(XML Path Language)是一门用于从XML文件中 ...
Python使用asyncio+aiohttp异步爬取猫眼电影专业版
asyncio是从pytohn3.4开始添加到标准库中的一个强大的异步并发库,可以很好地解决python中高并发的问题,入门学习可以参考官方文档并发访问能极大的提高爬虫的性能,但是requests访 ...
Python爬虫之requests+正则表达式抓取猫眼电影top100以及瓜子二手网二手车信息(四)
requests+正则表达式抓取猫眼电影top100 一.首先我们先分析下网页结构可以看到第一页的URL和第二页的URL的区别在于offset的值,第一页为0,第二页为10,以此类推. 二.< ...
Python爬虫学习==>第十章：使用Requests+正则表达式爬取猫眼电影
学习目的: 通过一个一个简单的爬虫应用,初窥门径. 正式步骤 Step1:流程框架抓取单页内容:利用requests请求目标站点,得到单个页面的html代码,返回结果: 正则表达式分析:根据html ...
python爬虫知识点总结（九）Requests+正则表达式爬取猫眼电影
一.爬取流程二.代码演示 #-*- coding: UTF-8 -*- #_author:AlexCthon #mail:alexcthon@163.com #date:2018/8/3 impor ...
利用Python3的requests和re库爬取猫眼电影笔记
以下笔记,作为参考借鉴,如有疑问可以联系我进行交流探讨! 代码思路很简单,简单概括为: 首先利用requests的get方法获取页面的html文件,之后对得到的html文件进行相对应的正则处理,然 ...

随机推荐

ifup,ifdown命令详解
基础命令学习目录首页原文链接:https://www.cnblogs.com/jing99/p/7881779.html ifup命令网络配置 ifup命令用于激活指定的网络接口.ifdown命令用 ...
最新Python笔试题2017 涵盖知识面广泛
引言想找一份Python开发工作吗?那你很可能得证明自己知道如何使用Python.下面这些问题涉及了与Python相关的许多技能,问题的关注点主要是语言本身,不是某个特定的包或模块.每一个问题都可以 ...
ORM PHP 学习记录
ORM:object relation mapping,即对象关系映射,简单的说就是对象模型和关系模型的一种映射.为什么要有这么一个映射?很简单,因为现在的开发语言基本都是oop的,但是传统的数据库却 ...
第39次Scrum会议(12/5)【欢迎来怼】
一.小组信息队名:欢迎来怼小组成员队长:田继平成员:李圆圆,葛美义,王伟东,姜珊,邵朔,阚博文小组照片二.开会信息时间:2017/12/5 11:35~11:57,总计22min.地点:东北师 ...
Data truncation: Truncated incorrect DOUBLE value:
在写sql查询语句queryRunner.update(connection,"update account set balance=? where name=?",account ...
Scrum Meeting 10.28
今天大部分同学仍停留在学习阶段,进度快的同学已经在配置SQLserver. 成员今日完成任务明日计划所用时间徐越配置SQLserver,试用java程序连接数据库学习servlet,htt ...
crontab任务不生效
新建php脚本ctTest.php,代码如下: <?php /****************************************************************** ...
Leetcode题库——25.k个一组翻转链表
@author: ZZQ @software: PyCharm @file: ReverseList.py @time: 2018/11/6 15:13 题目要求:给出一个链表,每 k 个节点一组进行 ...
python learning Exception & Debug.py
''' 在程序运行的过程中,如果发生了错误,可以事先约定返回一个错误代码,这样,就可以知道是否有错,以及出错的原因.在操作系统提供的调用中,返回错误码非常常见.比如打开文件的函数open(),成功时返 ...
iOS开发 tableView点击下拉扩展 + 内嵌collectionView上传图片效果
---恢复内容开始--- //需要的效果 1.设置window的根视图控制器为一个UITableViewController #import "AppDelegate.h"#imp ...

python学习(23)requests库爬取猫眼电影排行信息

用requests写一个基本的爬虫

python学习(23)requests库爬取猫眼电影排行信息的更多相关文章

随机推荐

热门专题