使用Requests+正则表达式爬取猫眼TOP100电影并保存到文件或MongoDB,并下载图片

需要着重学习的地方:
(1)爬取分页数据时,url链接的构建
(2)保存json格式数据到文件,中文显示问题
(3)线程池的使用
(4)正则表达式的写法
(5)根据图片url链接下载图片并保存
(6)MongoDB的初步使用

#!/usr/bin/env python
# -*- coding: utf-8 -*-

import re

import json

import requests

from requests.exceptions import RequestException

from multiprocessing import Pool

import pymongo

import os

from hashlib import md5

MONGO_URL = 'localhost'

MONGO_DB = 'maoyan'

MONGO_TABLE = 'maoyan'

client = pymongo.MongoClient(MONGO_URL, connect=False)

db = client[MONGO_DB]

# 获取单页数据

def get_one_page(url):

    try:

        response = requests.get(url)

        if response.status_code == 200:

            return response.text

        return None

    except RequestException:

        return None

# 解析单页数据,获取所需的数据

# '.*?board-index.*?>(\d+).*?' 获取顺序号

# '.*?data-src="(.*?)".*?'    获取图片链接

# '.*?name.*?title.*?>(.*?)</a>.*?'  获取电影名称

# '.*?star">(.*?)</p>.*?',re.S 获取演员名单(有换行,需要加上re.S,否则获取不到数据)

# '.*?releasetime">(.*?)</p>.*?' 获取上映时间

# '.*?integer">(.*?)</i>.*?' 获取主分

# '.*?fraction">(.*?)</i>.*?'获取辅分

# 综合下来,加上最外层的dd

def parse_one_page(html):

    pattern = re.compile(

        '<dd>.*?board-index.*?>(\d+).*?data-src="(.*?)".*?name.*?title.*?>(.*?)</a>.*?star">(.*?)</p>.*?releasetime">(.*?)</p>.*?integer">(.*?)</i>.*?fraction">(.*?)</i>.*?</dd>',

        re.S)

    items = re.findall(pattern, html)

    for item in items:

        yield{

            'index':item[0],

            'img':item[1],

            'name':item[2].strip(), # 去除前后空格换行符等

            'star':item[3].strip()[3:], # 去除前后空格换行符等,切片截取指定的范围

            'releasetime':item[4][5:],

            'score':item[5] + item[6] # 评分相加

    }

#  保存至文件

def save_to_file(content):

    # 注意:把json数据保存到文件中显示出中文

    with open('movies.text','a',encoding='utf-8') as f:

        f.write(json.dumps(content,ensure_ascii=False) + '\n')

# 保存到数据库中

def save_to_mongo(result):

    if db[MONGO_TABLE].insert(result):

        print('Successfully Saved to Mongo', result)

        return True

    return False

# 请求图片url,获取图片二进制数据

def download_image(url):

    try:

        response = requests.get(url)

        if response.status_code == 200:

            save_image(response.content) # response.contenter二进制数据 response.text文本数据

        return None

    except RequestException:

        print('请求图片出错')

        return None

def save_image(content):

    file_path = '{0}/{1}.{2}'.format(os.getcwd(), md5(content).hexdigest(), 'jpg')

    if not os.path.exists(file_path):

        with open(file_path,'wb') as f:

            f.write(content)

def main(offset):

    url = 'https://maoyan.com/board/4?offset=' + str(offset) # 针对分页

    html = get_one_page(url)

    for item in parse_one_page(html):

        # print(item)

        # save_to_file(item) # 保存至文件

        # save_to_mongo(item) # 保存到数据库

        download_image(item['img']) # 下载图片保存到当前目录

if __name__ == '__main__':

    # for i in range(0, 100):

    #     main(str(i*10))

    # 开启多线程

    pool = Pool()

    pool.map(main,[i*10 for i in range(10)])

使用Requests+正则表达式爬取猫眼TOP100电影并保存到文件或MongoDB,并下载图片的更多相关文章

PYTHON 爬虫笔记八:利用Requests+正则表达式爬取猫眼电影top100（实战项目一）
利用Requests+正则表达式爬取猫眼电影top100 目标站点分析流程框架爬虫实战使用requests库获取top100首页: import requests def get_one_pag ...
Requests+正则表达式爬取猫眼电影
目标提取出猫眼电影TOP100的电影名称.时间.评分.图片等信息,提取站点的URL为http://maoyan.com/board/4,提取的结果以文本的形式保存下来. 准备工作请安装好reque ...
整理requests和正则表达式爬取猫眼Top100中遇到的问题及解决方案
最近看崔庆才老师的爬虫课程,第一个实战课程是requests和正则表达式爬取猫眼电影Top100榜单.虽然理解崔老师每一步代码的实现过程,但自己敲代码的时候还是遇到了不少问题: 问题1:获取respo ...
Python 爬取猫眼 top100 电影例子
一个Python 爬取猫眼top100的小栗子 import json import requests import re from multiprocessing import Pool #//进程 ...
7.5爬取猫眼Top100电影名单
2018-7-5 20:22:57 还有有一丢丢成就感!以后可以爬取简单网站了!比如妹子图片,只是现在不知道咋下载! 正则还是刚看,要多去用正则!正则很强大的东西! #!/usr/bin/env py ...
Requests+正则表达式爬取猫眼电影(TOP100榜)
猫眼电影网址:www.maoyan.com 前言:网上一些大神已经对猫眼电影进行过爬取,所用的方法也是各有其优,最终目的是把影片排名.图片.名称.主要演员.上映时间与评分提取出来并保存到文件或者数据库 ...
python爬虫知识点总结（九）Requests+正则表达式爬取猫眼电影
一.爬取流程二.代码演示 #-*- coding: UTF-8 -*- #_author:AlexCthon #mail:alexcthon@163.com #date:2018/8/3 impor ...
Python爬虫实战之Requests+正则表达式爬取猫眼电影Top100
import requests from requests.exceptions import RequestException import re import json # from multip ...
python爬虫从入门到放弃（九）之 Requests+正则表达式爬取猫眼电影TOP100
import requests from requests.exceptions import RequestException import re import json from multipro ...

随机推荐

codevs 2460 树的统计
2460 树的统计题目描述 Description 一棵树上有n个节点,编号分别为1到n,每个节点都有一个权值w. 我们将以下面的形式来要求你对这棵树完成一些操作: I. ...
cogs 10. 信号无错传输
10. 信号无错传输 ★★☆ 输入文件:dlj.in 输出文件:dlj.out 简单对比时间限制:1 s 内存限制:128 MB [问题描述] 为提高传递信息的保密性和可靠性,两个军事 ...
ViewPage+Frament+listView滑动效果
近期在做一个须要使用Frament+ViewPage制作一个滑动的效果,看了非常多资料,最终实现了,这与大家分享一下战果总结一下.这里我做了一个Demo分享给大家我的文件文件夹结构图 1.首先要有 ...
gephi——怎样上传节点表格而且为节点设定颜色类型
使用gephi过程中出现两个问题: 一.节点编号不安给定的属性(Nodes)编号,而是莫名其妙地从1w+開始解决:数据列名中需包括 id.则默觉得节点编号二.怎样在上传的数据中指定节点颜色须要一 ...
ES Segment Memory——本质上就是segment中加到内存的FST数据，因此segment越多，该内存越大
ElasticSearch优化系列四:ES的heap是如何被瓜分掉的转自:https://www.jianshu.com/p/f41b706db6c7 以下分别解读几个我知道的内存消耗大户: Seg ...
MongoDB如何实现读写分离
MongoDB如何实现读写分离 MongoDB复制集(Replica Set)通过存储多份数据副本来保证数据的高可靠,通过自动的主备切换机制来保证服务的高可用.但需要注意的时,连接副本集的姿势如果不对 ...
第8章 MyBatis简介
# 创建一个名称为mybatis的数据库 CREATE DATABASE mybatis; # 使用名称为mybatis的数据库 USE mybatis; # 创建一个tb_user表,有id.nam ...
POJ-3061 Subsequence 二分或尺取
题面题意:给你一个长度为n(n<100000)的数组,让你找到一个最短的连续子序列,使得子序列的和>=m (m<1e9) 题解: 1 显然我们我们可以二分答案,然后利用前缀和判断 ...
BZOJ-4706 B君的多边形 OEIS
题面题意:有一个正n多边形,我们要连接一些对角线,把这个多边形分成若干个区域,要求连接的对角线不能相交,每个点可以连出也可以不连出对角线,即最终不要求所有区域均为三角形,问总方案数mod (10^9 ...
JavaScript扩展运算符（...）
对象的扩展运算符扩展运算符是三个点(...).用于取出参数对象的所有可遍历属性,然后拷贝到当前对象之中. 如上图所示,新建了一个对象a,然后通过扩展运算符将其属性x,y一并拷贝到b对象中. 合并两个 ...

使用Requests+正则表达式爬取猫眼TOP100电影并保存到文件或MongoDB,并下载图片

使用Requests+正则表达式爬取猫眼TOP100电影并保存到文件或MongoDB,并下载图片的更多相关文章

随机推荐

热门专题