Requests+正则表达式爬取猫眼电影

代码:

import re

import json

from multiprocessing import Pool

import requests

from requests.exceptions import RequestException

basic_url = 'http://maoyan.com/board/4?offset=%d'

headers = {

    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.109 Safari/537.36',

}

file = open("maoyan_movies.txt", 'a', encoding="utf-8")

def get_page(url):

    try:

        response = requests.get(url, headers=headers)

        if response.status_code == requests.codes.ok:

            return response.text

        else:

            return None

    except RequestException:

        return None

def parse_page(content):

    pattern = re.compile(

        '<dd>.*?board-index.*?>(\d+)</i>'

        '.*?<img data-src="(.*?)"'

        '.*?class="name"><a.*?>(.*?)</a>'

        '.*?class="star">(.*?)</p>'

        '.*?class="releasetime">(.*?)</p>'

        '.*?class="score"><i class="integer">(.*?)</i><i class="fraction">(.*?)</i>'

        '.*?</dd>', re.S)

    items = pattern.findall(content)

    for item in items:

        yield {

            'id': item[0],

            'image': item[1],

            'name': item[2].strip(),

            'actor': item[3].strip()[3:],

            'releasetime': item[4][5:],

            'score': item[5] + item[6],

        }

def save_to_file(content):

    json.dump(content, file, ensure_ascii=False)

    file.write('\n')

def get_page_movies(offset):

    '''

        获取一页的电影信息

        offset用来构建完整的网页url,以10为最小单位

    '''

    step = 10

    url = basic_url % (step * offset)

    html = get_page(url)

    for movie_info in parse_page(html):

        save_to_file(movie_info)

# 获取猫眼电影top100的电影信息: 排名,图片url，电影名,主演，上映日期，评分

def get_top_100_movies():

    offset_list = [i for i in range(10)]

    pool = Pool(processes=4)

    pool.map(get_page_movies, offset_list)

    pool.close()

    pool.join()

if __name__ == "__main__":

    get_top_100_movies()

Requests+正则表达式爬取猫眼电影的更多相关文章

PYTHON 爬虫笔记八:利用Requests+正则表达式爬取猫眼电影top100（实战项目一）
利用Requests+正则表达式爬取猫眼电影top100 目标站点分析流程框架爬虫实战使用requests库获取top100首页: import requests def get_one_pag ...
Requests+正则表达式爬取猫眼电影
目标提取出猫眼电影TOP100的电影名称.时间.评分.图片等信息,提取站点的URL为http://maoyan.com/board/4,提取的结果以文本的形式保存下来. 准备工作请安装好reque ...
Requests+正则表达式爬取猫眼电影(TOP100榜)
猫眼电影网址:www.maoyan.com 前言:网上一些大神已经对猫眼电影进行过爬取,所用的方法也是各有其优,最终目的是把影片排名.图片.名称.主要演员.上映时间与评分提取出来并保存到文件或者数据库 ...
Python爬虫学习==>第十章：使用Requests+正则表达式爬取猫眼电影
学习目的: 通过一个一个简单的爬虫应用,初窥门径. 正式步骤 Step1:流程框架抓取单页内容:利用requests请求目标站点,得到单个页面的html代码,返回结果: 正则表达式分析:根据html ...
python爬虫知识点总结（九）Requests+正则表达式爬取猫眼电影
一.爬取流程二.代码演示 #-*- coding: UTF-8 -*- #_author:AlexCthon #mail:alexcthon@163.com #date:2018/8/3 impor ...
Python爬虫实战之Requests+正则表达式爬取猫眼电影Top100
import requests from requests.exceptions import RequestException import re import json # from multip ...
python爬虫从入门到放弃（九）之 Requests+正则表达式爬取猫眼电影TOP100
import requests from requests.exceptions import RequestException import re import json from multipro ...
14-Requests+正则表达式爬取猫眼电影
'''Requests+正则表达式爬取猫眼电影TOP100''''''流程框架:抓去单页内容:利用requests请求目标站点,得到单个网页HTML代码,返回结果.正则表达式分析:根据HTML代码分析 ...
Python爬虫之requests+正则表达式抓取猫眼电影top100以及瓜子二手网二手车信息(四)
requests+正则表达式抓取猫眼电影top100 一.首先我们先分析下网页结构可以看到第一页的URL和第二页的URL的区别在于offset的值,第一页为0,第二页为10,以此类推. 二.< ...

随机推荐

{"errcode":48001,"errmsg":"api unauthorized}
微信公众号基础知识说明网页授权获取微信用户信息:两种 scope 域 https://open.weixin.qq.com/connect/oauth2/authorize?appid={0}&am ...
eclipse 启动tomcat 出现错误Could not publish server configuration: null. java.lang.NullPointerException
若出现以上错误,则很有可能是修改了conf/server.xml的内容,将改过的地方改回去,然后重启tomcat 就可以啦
欢迎大家使用Druid，常见问题在这里解答，希望对大家有所帮助
https://github.com/alibaba/druid/wiki/%E5%B8%B8%E8%A7%81%E9%97%AE%E9%A2%98 欢迎大家使用Druid,常见问题在这里解答,希望对 ...
scala函数等号省略
例1: 此时没有写返回值,但是有等号,函数会自己推断返回值,此时的返回值是Int def add(x:Int, y:Int) = { x+y} 例2: 此时没有写返回值,也没有等号,无论函数内部有没有 ...
gitingore && opensource license 自动生成的网站
老外就是爱搞事情,总有一些方便我们开发的小工具出来,比如gitignore以及开源软件许可协议的 gitingore 生成的地址 https://www.gitignore.io/ 使用搜索的地方 ...
Hasura GraphQL 内部表结构
Hasura 使用pg 数据库存储引擎的元数据信息,在hdb_catalog schema 下面,是在初始化的时候生成的对于表的管理.权限的信息存储都在这个schema下 hdb_table 这个表 ...
lch 儿童围棋课堂初级篇1 ( (李昌镐著))
第1章常用术语第2章吃子第3章死活:死活题初步第4章劫争第5章中盘第6章官子第7章形势判断第8章对杀技巧第9章手筋第1章常用术语一镇在对方棋子上方隔一路落下 ...
JSON数据的优化
JSON数据的可以优化吗?肯定可以,之前都是使用XML,但之后用XML越来越少了,就是因为XML包含的冗余信息太多了.那么JSON数据有没有冗余呢? 肯定有,名称就是重复的!! 例如如下的JSON数据 ...
论大并发下的乐观锁定 Redis锁定和新时代事务
在 <企业应用架构模式> 中提到了乐观锁定, 用时间戳来判定交易是否有效, 避免传统事务的表锁定造成的瓶颈 . 在现在的大并发的大环境下, 传统事务及其 ...
mina学习总结
一.简介: Apache Mina Server 是一个网络通信应用框架,Mina 可以帮助我们快速开发高性能.高扩展性的网络通信应用,Mina 提供了事件驱动.异步(Mina 的异步 IO 默认使用 ...

Requests+正则表达式 爬取猫眼电影

Requests+正则表达式 爬取猫眼电影的更多相关文章

随机推荐

热门专题

Requests+正则表达式爬取猫眼电影

Requests+正则表达式爬取猫眼电影的更多相关文章