Python爬取猫眼top100排行榜数据【含多线程】

# -*- coding: utf-8 -*-

import requests

from multiprocessing import Pool

from requests.exceptions import RequestException

import re

import json

def get_one_page(url):

    """

    爬取每个页面

    :param url: 爬取url地址

    :return: 返回网页内容

    """

    try:

        response = requests.get(url)

        if response.status_code == 200:

            return response.text

        return None

    except RequestException:

        return None

def parse_one_page(html):

    """

    处理筛选网页内容中需要的信息

    :param html: 网页内容

    :return: 字典

    """

    pattern = re.compile('<dd>.*?board-index.*?>(\d+)</i>.*?data-src="(.*?)".*?name"><a'

                         + '.*?>(.*?)</a>.*?star">(.*?)</p>.*?releasetime">(.*?)</p>'

                         + '.*?integer">(.*?)</i>.*?fraction">(.*?)</i>.*?</dd>', re.S)

    items = re.findall(pattern, html)

    for item in items:

        yield {

            'index': item[0],

            'image': item[1],

            'title': item[2],

            'actor': item[3].strip()[3:],

            'time':  item[4].strip()[5:],

            'score': item[5]+item[6]

        }

def write_to_file(content):

    """

    将结果数据写入文件

    :param content: 需要写入文件的内容

    :return:

    """

    with open('result.txt', 'a', encoding='utf-8') as f:

        f.write(json.dumps(content, ensure_ascii=False) + "\n")

        f.close()

def main(offset):

    """

    主函数

    :param offset: offset值，用于构造url

    :return:

    """

    url = "http://maoyan.com/board/4?offset=" + str(offset)

    html = get_one_page(url)

    parse_one_page(html)

    for item in parse_one_page(html):

        print(item)

        write_to_file(item)

if __name__ == '__main__':

    # for i in range(10):

    #     main(i*10)

    pool = Pool()

    pool.map(main, [i*10 for i in range(10)])

【来自天善智能】：https://edu.hellobi.com/course/156/play/lesson/2453

崔大师的代码看着就是舒服。。。。

Python爬取猫眼top100排行榜数据【含多线程】的更多相关文章

Python 爬取猫眼 top100 电影例子
一个Python 爬取猫眼top100的小栗子 import json import requests import re from multiprocessing import Pool #//进程 ...
记录python爬取猫眼票房排行榜(带stonefont字体网页),保存到text文件,csv文件和MongoDB数据库中
猫眼票房排行榜页面显示如下: 注意右边的票房数据显示,爬下来的数据是这样显示的: 网页源代码中是这样显示的: 这是因为网页中使用了某种字体的缘故,分析源代码可知: 亲测可行: 代码中获取的是国内票房榜 ...
python爬虫：爬取猫眼TOP100榜的100部高分经典电影
1.问题描述: 爬取猫眼TOP100榜的100部高分经典电影,并将数据存储到CSV文件中 2.思路分析: (1)目标网址:http://maoyan.com/board/4 (2)代码结构: (3) ...
票房和口碑称霸国庆档，用 Python 爬取猫眼评论区看看电影《我和我的家乡》到底有多牛
今年的国庆档电影市场的表现还是比较强势的,两名主力<我和我的家乡>和<姜子牙>起到了很好的带头作用. <姜子牙>首日破 2 亿,一举刷新由<哪吒之魔童降世&g ...
利用python爬取58同城简历数据
利用python爬取58同城简历数据利用python爬取58同城简历数据最近接到一个工作,需要获取58同城上面的简历信息(http://gz.58.com/qzyewu/).最开始想到是用pyth ...
抓取猫眼TOP100的数据
import requests import re import json from multiprocessing import Pool from multiprocessing import M ...
使用Beautiful Soup爬取猫眼TOP100的电影信息
使用Beautiful Soup爬取猫眼TOP100的电影信息,将排名.图片.电影名称.演员.时间.评分等信息,提取的结果以文件形式保存下来. import time import json impo ...
手把手教你使用Python爬取西刺代理数据（下篇）
/1 前言/ 前几天小编发布了手把手教你使用Python爬取西次代理数据(上篇),木有赶上车的小伙伴,可以戳进去看看.今天小编带大家进行网页结构的分析以及网页数据的提取,具体步骤如下. /2 首页分析 ...
python 爬取猫眼电影top100数据
最近有爬虫相关的需求,所以上B站找了个视频(链接在文末)看了一下,做了一个小程序出来,大体上没有修改,只是在最后的存储上,由txt换成了excel. 简要需求:爬虫爬取猫眼电影TOP100榜单数据 ...

随机推荐

无法启动程序，因为计算机丢失D3DCOMPILER_47.dll 的解决方法
这个原因应该是windows update在更新的时出现错误导致的解决方法是安装 KB4019990 更新包. 网址如下:http://www.catalog.update.microsoft.c ...
修改的select
慢慢修改: #include <winsock.h> #include <stdio.h> #include <string> #define PORT 5010 ...
通用MYSQL5.5和5.6源码包安装
系统:REDHAT 6.3安装方式:最小化安装1.MYSQL5.5源码安装环境,依懒的安装包 yum install make gcc gcc-c++ ncurses-devel openssl-de ...
jquery 滑动取值
JavaScript 滑动条效果 jquery 滚动条插件仿iphone苹果横行滚动条美化样式商品图片展示
linux达人养成计划学习笔记（三）—— 帮助命令
一.帮助命令man 1.基本使用方法: man 命令 #获取指定命令的帮助选项: -f 查看命令拥有的帮助级别相当于whatis,也可以使用whereis来查询 -num 调用对应等级的帮助文件 - ...
dubbo 学习（5） dubbo多协议和多注册中心
转载 http://blog.csdn.net/songjinbin/article/details/49498431 一.配置dubbo多协议模式 1.默认协议 Dubbo缺省协议采用单一长连接和N ...
在Linux CentOS 6.6上安装RedisLive
Real time dashboard for redis 安装必须软件 1.安装pip到指定的python版本下面: curl -O https://bootstrap.pypa.io/get-pi ...
【jquery】$(document).ready() 与window.onload的区别
Jquery中$(document).ready()的作用类似于传统JavaScript中的window.onload方法,不过与window.onload方法还是有区别的. 1)执行时间 wind ...
日志收集之--将Kafka数据导入elasticsearch
最近需要搭建一套日志监控平台,结合系统本身的特性总结一句话也就是:需要将Kafka中的数据导入到elasticsearch中.那么如何将Kafka中的数据导入到elasticsearch中去呢,总结起 ...
cocos2d-x 3.0正式版 cmd创建project以及一键创建project
创建project研究了1个多小时,还真是不习惯啊. 首先,你要安装了vc2012而且下载并解压cocos2d-x 3.0正式版,假设没有安装,请翻阅我前面的文章. 接下来要下载android的sdk ...

Python爬取猫眼top100排行榜数据【含多线程】

Python爬取猫眼top100排行榜数据【含多线程】的更多相关文章

随机推荐

热门专题