爬虫--requests爬取猫眼电影排行榜

'''
目标：使用requests分页爬取猫眼电影中榜单栏目中TOP100榜的所有电影信息，并将信息写入文件
URL地址：http://maoyan.com/board/4 其中参数offset表示其实条数
获取信息：{排名，图片，标题，主演，放映时间，评分}
'''
下面我们直接上代码

from requests.exceptions import RequestException

import requests

import re,time,json

def getPage(url):

    '''爬取指定url页面信息'''

    try:

        #定义请求头信息

        headers = {

            'User-Agent': 'User-Agent:Mozilla/5.0(WindowsNT6.1;rv:2.0.1)Gecko/20100101Firefox/4.0.1'

        }

        #执行爬取

        res = requests.get(url,headers=headers)

        #判断响应状态，并响应爬取内容

        if res.status_code == 200:

            return res.text  #获取爬取到的网页信息

        else:

            return None

    except RequestException.URLError:

        return None

def parsePage(html):

    '''解析爬取网页中的内容，并返回字段结果'''

    #定义解析正则表达式

    pat = '<i class="board-index board-index-[0-9]+">([0-9]+)</i>.*?<img data-src="(.*?)" alt="(.*?)" class="board-img" />.*?<p class="star">(.*?)</p>.*?<p class="releasetime">(.*?)</p>.*?<i class="integer">([0-9\.]+)</i><i class="fraction">([0-9]+)</i>'

    #执行解析

    items = re.findall(pat,html,re.S) #使 . 匹配包括换行在内的所有字符

    #遍历封装数据并返回

    for item in items:

        yield {

            'index':item[0],

            'image':item[1],

            'title':item[2],

            'actor':item[3].strip()[3:],  #.strip()函数去除首尾空格，[3:] 字符串>3才会执行，否则返回空

            'time': item[4].strip()[5:],

            'score': item[5] + item[6],

        }

def writeFile(content):

    '''执行文件追加写操作'''

    '''执行文件追加写操作'''

    #print(content)

    with open("./result.txt",'a',encoding='utf-8') as f:

        f.write(json.dumps(content,ensure_ascii=False) + "\n")

        #json.dumps 序列化时对中文默认使用的ascii编码.想输出真正的中文需要指定ensure_ascii=False

def main(offset):

    '''主程序函数，负责调度执行爬虫处理'''

    url = 'http://maoyan.com/board/4?offset=' + str(offset)

    print(url)

    html = getPage(url)

    #判断是否爬取到数据，并调用解析函数

    if html:

        for item in parsePage(html):

            writeFile(item)

# 判断当前执行是否为主程序运行，并遍历调用主函数爬取数据

if __name__ == '__main__':

    for i in range(10):

        main(offset=i*10)

        time.sleep(1)

爬虫--requests爬取猫眼电影排行榜的更多相关文章

scrapy爬取猫眼电影排行榜
做爬虫的人,一定离不开的一个框架就是scrapy框架,写小项目的时候可以用requests模块就能得到结果,但是当爬取的数据量大的时候,就一定要用到框架. 下面先练练手,用scrapy写一个爬取猫眼电 ...
使用xpath爬取猫眼电影排行榜
最近在学习xpath,在网上找资料的时候,发现一个新手经常拿来练手的项目,爬取猫眼电影前一百名排行的信息,很多都是跟崔庆才的很雷同,基本照抄.这里就用xpath自己写了一个程序,同样也是爬取猫眼电影, ...
使用requests爬取猫眼电影TOP100榜单
Requests是一个很方便的python网络编程库,用官方的话是"非转基因,可以安全食用".里面封装了很多的方法,避免了urllib/urllib2的繁琐. 这一节使用reque ...
Python爬虫项目--爬取猫眼电影Top100榜
本次抓取猫眼电影Top100榜所用到的知识点: 1. python requests库 2. 正则表达式 3. csv模块 4. 多进程正文目标站点分析通过对目标站点的分析, 来确定网页结构, ...
利用正则+requests爬取猫眼电影信息
import json # from multiprocessing import Pool import requests from requests.exceptions import Reque ...
爬虫系列（1）-----python爬取猫眼电影top100榜
对于Python初学者来说,爬虫技能是应该是最好入门,也是最能够有让自己有成就感的,今天在整理代码时,整理了一下之前自己学习爬虫的一些代码,今天先上一个简单的例子,手把手教你入门Python爬虫,爬取 ...
50 行代码教你爬取猫眼电影 TOP100 榜所有信息
对于Python初学者来说,爬虫技能是应该是最好入门,也是最能够有让自己有成就感的,今天,恋习Python的手把手系列,手把手教你入门Python爬虫,爬取猫眼电影TOP100榜信息,将涉及到基础爬虫 ...
PYTHON 爬虫笔记八:利用Requests+正则表达式爬取猫眼电影top100（实战项目一）
利用Requests+正则表达式爬取猫眼电影top100 目标站点分析流程框架爬虫实战使用requests库获取top100首页: import requests def get_one_pag ...
用requests库爬取猫眼电影Top100
这里需要注意一下,在爬取猫眼电影Top100时,网站设置了反爬虫机制,因此需要在requests库的get方法中添加headers,伪装成浏览器进行爬取 import requests from re ...

随机推荐

requests模块(post)请求篇
'''利用parse模块模拟post请求分析百度词典分析步骤:1. 打开F122. 尝试输入单词girl,发现每敲一个字母后都有请求3. 请求地址是 http://fanyi.baidu.com/su ...
了解一下Spring中用了哪些设计模式？这样回答面试官才稳
一:简单工厂模式又叫做静态工厂方法(StaticFactory Method)模式,但不属于23种GOF设计模式之一. 简单工厂模式的实质是由一个工厂类根据传入的参数,动态决定应该创建哪一个产品类. ...
MySQL学习（三）MySQL锁与事务
本章我们着重讨论MySQL锁机制的特点,常见的锁问题,以及解决MySQL锁问题的一些方法或建议. 一.MySQL锁概述相对其他数据库而言,MySQL的锁机制比较简单,其最显著的特点是不同的存储引擎支 ...
第二章Java内存区域与内存溢出异常
第二章 Java内存区域与内存溢出异常一.概述对与Java程序员来说,在虚拟机自动内存管理机制的帮助下,不再需要为每个new操作去写delete/free代码,不容易出现内存泄露和内存溢出问题, ...
微信小程序登入流程
微信小程序登入流程一.首先前端先传code去后端 wx.login({ success(res) { if (res.code) { //发起网络请求 wx.request({ url: app.g ...
Ubuntu16.04换源
换成国内最快的阿里云源第一步:备份原来的源文件 cd /etc/apt/ 然后会显示下面的源文件sources.list 输入命令 sudo cp sources.list sources.list ...
vc++中字符串的免杀
一:格式字符: http://baike.baidu.com/view/2194593.htm d:以十进制形式输出带符号整数(正数不输出符号)o:以八进制形式输出无符号整数(不输出前缀o)x:以十六 ...
【Python秘籍】ASCII码与字符的转换
如何在python中显示ASCII码呢?其实你只需要记住两个函数即可:ord()和 chr(),这两个函数都是python内置的函数,不需要引入任何的包,直接就可以使用. 一.显示ASCII码显示A ...
cmake::编译一个工程
1.编译工程,构建过程产生的临时文件等文件与源码隔离,避免源码被污染. # CMake 最低版本号要求 cmake_minimum_required (VERSION 2.8) # 项目信息 proj ...
安装Go语言及搭建Go语言开发环境
一步一步,从零搭建Go语言开发环境. 安装Go语言及搭建Go语言开发环境下载下载地址 Go官网下载地址:https://golang.org/dl/ Go官方镜像站(推荐):https://gol ...

爬虫--requests爬取猫眼电影排行榜

爬虫--requests爬取猫眼电影排行榜的更多相关文章

随机推荐

热门专题