爬虫--requests爬取猫眼电影排行榜

'''
目标：使用requests分页爬取猫眼电影中榜单栏目中TOP100榜的所有电影信息，并将信息写入文件
URL地址：http://maoyan.com/board/4 其中参数offset表示其实条数
获取信息：{排名，图片，标题，主演，放映时间，评分}
'''
下面我们直接上代码

from requests.exceptions import RequestException

import requests

import re,time,json

def getPage(url):

    '''爬取指定url页面信息'''

    try:

        #定义请求头信息

        headers = {

            'User-Agent': 'User-Agent:Mozilla/5.0(WindowsNT6.1;rv:2.0.1)Gecko/20100101Firefox/4.0.1'

        }

        #执行爬取

        res = requests.get(url,headers=headers)

        #判断响应状态，并响应爬取内容

        if res.status_code == 200:

            return res.text  #获取爬取到的网页信息

        else:

            return None

    except RequestException.URLError:

        return None

def parsePage(html):

    '''解析爬取网页中的内容，并返回字段结果'''

    #定义解析正则表达式

    pat = '<i class="board-index board-index-[0-9]+">([0-9]+)</i>.*?<img data-src="(.*?)" alt="(.*?)" class="board-img" />.*?<p class="star">(.*?)</p>.*?<p class="releasetime">(.*?)</p>.*?<i class="integer">([0-9\.]+)</i><i class="fraction">([0-9]+)</i>'

    #执行解析

    items = re.findall(pat,html,re.S) #使 . 匹配包括换行在内的所有字符

    #遍历封装数据并返回

    for item in items:

        yield {

            'index':item[0],

            'image':item[1],

            'title':item[2],

            'actor':item[3].strip()[3:],  #.strip()函数去除首尾空格，[3:] 字符串>3才会执行，否则返回空

            'time': item[4].strip()[5:],

            'score': item[5] + item[6],

        }

def writeFile(content):

    '''执行文件追加写操作'''

    '''执行文件追加写操作'''

    #print(content)

    with open("./result.txt",'a',encoding='utf-8') as f:

        f.write(json.dumps(content,ensure_ascii=False) + "\n")

        #json.dumps 序列化时对中文默认使用的ascii编码.想输出真正的中文需要指定ensure_ascii=False

def main(offset):

    '''主程序函数，负责调度执行爬虫处理'''

    url = 'http://maoyan.com/board/4?offset=' + str(offset)

    print(url)

    html = getPage(url)

    #判断是否爬取到数据，并调用解析函数

    if html:

        for item in parsePage(html):

            writeFile(item)

# 判断当前执行是否为主程序运行，并遍历调用主函数爬取数据

if __name__ == '__main__':

    for i in range(10):

        main(offset=i*10)

        time.sleep(1)

爬虫--requests爬取猫眼电影排行榜的更多相关文章

scrapy爬取猫眼电影排行榜
做爬虫的人,一定离不开的一个框架就是scrapy框架,写小项目的时候可以用requests模块就能得到结果,但是当爬取的数据量大的时候,就一定要用到框架. 下面先练练手,用scrapy写一个爬取猫眼电 ...
使用xpath爬取猫眼电影排行榜
最近在学习xpath,在网上找资料的时候,发现一个新手经常拿来练手的项目,爬取猫眼电影前一百名排行的信息,很多都是跟崔庆才的很雷同,基本照抄.这里就用xpath自己写了一个程序,同样也是爬取猫眼电影, ...
使用requests爬取猫眼电影TOP100榜单
Requests是一个很方便的python网络编程库,用官方的话是"非转基因,可以安全食用".里面封装了很多的方法,避免了urllib/urllib2的繁琐. 这一节使用reque ...
Python爬虫项目--爬取猫眼电影Top100榜
本次抓取猫眼电影Top100榜所用到的知识点: 1. python requests库 2. 正则表达式 3. csv模块 4. 多进程正文目标站点分析通过对目标站点的分析, 来确定网页结构, ...
利用正则+requests爬取猫眼电影信息
import json # from multiprocessing import Pool import requests from requests.exceptions import Reque ...
爬虫系列（1）-----python爬取猫眼电影top100榜
对于Python初学者来说,爬虫技能是应该是最好入门,也是最能够有让自己有成就感的,今天在整理代码时,整理了一下之前自己学习爬虫的一些代码,今天先上一个简单的例子,手把手教你入门Python爬虫,爬取 ...
50 行代码教你爬取猫眼电影 TOP100 榜所有信息
对于Python初学者来说,爬虫技能是应该是最好入门,也是最能够有让自己有成就感的,今天,恋习Python的手把手系列,手把手教你入门Python爬虫,爬取猫眼电影TOP100榜信息,将涉及到基础爬虫 ...
PYTHON 爬虫笔记八:利用Requests+正则表达式爬取猫眼电影top100（实战项目一）
利用Requests+正则表达式爬取猫眼电影top100 目标站点分析流程框架爬虫实战使用requests库获取top100首页: import requests def get_one_pag ...
用requests库爬取猫眼电影Top100
这里需要注意一下,在爬取猫眼电影Top100时,网站设置了反爬虫机制,因此需要在requests库的get方法中添加headers,伪装成浏览器进行爬取 import requests from re ...

随机推荐

python接口自动化2-第一次发送get请求
前言 Requests: 让 HTTP 服务人类,唯一的一个非转基因的 Python HTTP 库,人类可以安全享用: Requests继承了urllib2的所有特性,能满足当前网络的需求,支持Pyt ...
Qt5教程: (5) Lambda匿名函数的使用
Lambda是C++11的新特性, 首先看看你的.pro项目文件里有没有CONFIG += c++11这句话, 没有就加上. 下面新建一个工程, 具体步骤就不多说了然后给主窗口添加一个按钮b, 并且 ...
[CODEVS1537] 血色先锋队 - BFS
题目描述 Description 巫妖王的天灾军团终于卷土重来,血色十字军组织了一支先锋军前往诺森德大陆对抗天灾军团,以及一切沾有亡灵气息的生物.孤立于联盟和部落的血色先锋军很快就遭到了天灾军团的重重 ...
是可忍孰不可忍！！nodepad++作者台独分子，恶毒言论！！！
本来用了两年这个软件吧,不带任何情感的,单纯辅助工具.直到今天,在GitHub上,发现了这个作者以及一些同党都是一群尼玛生在中国骂中国的狗币. https://github.com/notepad-p ...
react框架安装和使用
react 其实react跟vue差不多, 区别:vue- 双向数据绑定, react 单向数据绑定. 中文文档:https://react.docschina.org/ 第一步:安装方式,不能直 ...
webpack中如何使用图标字体
1.webpack安装相关依赖 $ npm install font-awesome-webpack less less-loader css-loader style-loader file-loa ...
SpringCloud之Feign负载均衡（四）
整合Feign pom.xml <dependency> <groupId>org.springframework.cloud</groupId> <arti ...
MongoDB分页查询优化方法
在网上看到很多关于MongoDB分页查询优化的文章,如出一辙.笔者自己实际生产中也遇到此问题,所以看了很多篇文章,这里分享一篇简明扼要的文章分享给大家,希望对大家在使用MongoDB时有所帮助. 凡事 ...
C语言存储类别和链接
目录 C语言存储类别和链接存储类别存储期五种存储类别 C语言存储类别和链接最近详细的复习C语言,看到存储类别的时候总感觉一些概念模糊不清,现在认真的梳理一下.C语言的优势之一能够让程序员恰 ...
Java连接MySQL简单步骤及常见问题解析
这篇文章跟读者们介绍Java语言如何连接到MySQL数据库相关操作,及FAQ(Frequently Asked Questions)介绍. 选择工具和准备数据集 IDE:Eclipse 数据库:使用的 ...

爬虫--requests爬取猫眼电影排行榜

爬虫--requests爬取猫眼电影排行榜的更多相关文章

随机推荐

热门专题