python3+正则表达式爬取猫眼电影

'''Request+正则表达式抓取猫眼电影TOP100内容'''

import requests

from requests.exceptions import RequestException

import re

import json

from  multiprocessing import Pool  #进程池

def get_one_page(url):

    try:

        reponse = requests.get(url)

        if reponse.status_code==200:

            return reponse.text

        return None

    except RequestException:

        return "error!"

def parse_one_page(html):

    pattern = re.compile('<dd>.*?board-index.*?>(\d+)</i>.*?data-src="(.*?)".*?name"><a'

                         '.*?>(.*?)</a>.*?star">(.*?)</p>.*?releasetime">(.*?)</p>'

                         '.*?integer">(.*?)</i>.*?fraction">(.*?)</i>.*?</dd>',re.S)

    items = re.findall(pattern,html)

    for item in items:

        yield {

            "排名":item[0],

            "海报连接": item[1],

            "电影名": item[2],

            "主演": item[3].strip()[3:],

            "上映时间": item[4].strip()[5:],

            "评分": item[5]+item[6]

        }

def write_to_file(content):

    with open("content.txt","a",encoding="utf-8")as f:

        # print(type(content)) #内容为字典形式

        f.write(json.dumps(content,ensure_ascii=False)+'\n') #用于将字典形式的数据转化为字符串

        f.close()

def main(offset):

    url = "https://maoyan.com/board/4?offset="+str(offset)

    get_html = get_one_page(url)

    # print(get_html)

    for item in parse_one_page(get_html):

        print(item)

        write_to_file(item)

if __name__=='__main__':

    # for i in range(10):

    #     main(i*10)

    pool = Pool()       # 进程池调用

    pool.map(main,[i*10 for i in range(10)])

python3+正则表达式爬取猫眼电影的更多相关文章

14-Requests+正则表达式爬取猫眼电影
'''Requests+正则表达式爬取猫眼电影TOP100''''''流程框架:抓去单页内容:利用requests请求目标站点,得到单个网页HTML代码,返回结果.正则表达式分析:根据HTML代码分析 ...
PYTHON 爬虫笔记八:利用Requests+正则表达式爬取猫眼电影top100（实战项目一）
利用Requests+正则表达式爬取猫眼电影top100 目标站点分析流程框架爬虫实战使用requests库获取top100首页: import requests def get_one_pag ...
Requests+正则表达式爬取猫眼电影
目标提取出猫眼电影TOP100的电影名称.时间.评分.图片等信息,提取站点的URL为http://maoyan.com/board/4,提取的结果以文本的形式保存下来. 准备工作请安装好reque ...
Requests+正则表达式爬取猫眼电影(TOP100榜)
猫眼电影网址:www.maoyan.com 前言:网上一些大神已经对猫眼电影进行过爬取,所用的方法也是各有其优,最终目的是把影片排名.图片.名称.主要演员.上映时间与评分提取出来并保存到文件或者数据库 ...
Python爬虫学习==>第十章：使用Requests+正则表达式爬取猫眼电影
学习目的: 通过一个一个简单的爬虫应用,初窥门径. 正式步骤 Step1:流程框架抓取单页内容:利用requests请求目标站点,得到单个页面的html代码,返回结果: 正则表达式分析:根据html ...
requests和正则表达式爬取猫眼电影Top100练习
1 import requests 2 import re 3 from multiprocessing import Pool 4 from requests.exceptions import R ...
python3爬虫爬取猫眼电影TOP100（含详细爬取思路）
待爬取的网页地址为https://maoyan.com/board/4,本次以requests.BeautifulSoup css selector为路线进行爬取,最终目的是把影片排名.图片.名称.演 ...
Requests+BeautifulSoup+正则表达式爬取猫眼电影Top100（名称，演员，评分，封面，上映时间，简介）
# encoding:utf-8 from requests.exceptions import RequestException import requests import re import j ...
Requests+正则表达式爬取猫眼电影
代码: import re import json from multiprocessing import Pool import requests from requests.exceptions ...

随机推荐

python三大神器之fabric（2.0新特性）
fabric经常出现在自动化运维领域,批量处理一些运维工作.fabric是在paramiko之上又封装了一层,操作起来更加简单易用. 本来只是想写个博客记录一下,然后发现之前写的代码不能运行了,报以下 ...
Android studio 下 JNI 开发实例
在AS中进行 NDK 开发之前,我们先来简单的介绍几个大家都容易搞懵的概念: 到底什么是JNI,什么是NDK? 何为“交叉编译”? 先看什么是 JNI?JNI 的全称就是 Java Native In ...
翻译：replace into语句(已提交到MariaDB官方手册)
本文为mariadb官方手册:REPLACE INTO的译文. 原文:https://mariadb.com/kb/en/replace/ 我提交到MariaDB官方手册的译文:https://mar ...
伪指令 ENTRY 与 END
ENTRY ENTRY 是程序入口伪指令.在一个完整的汇编程序中至少有一个 ENTRY,编译程序在编译连接时依据程序入口进行连接.在只有一个入口时,编译程序会把这个入口的地址定义为系统复位后的程序起始 ...
利用Python测量滴水湖的水面面积
美丽的滴水湖美丽的滴水湖坐落在上海的东南角,濒临东海,风景秀丽,安静舒适,是旅游.恋爱的绝佳去处.笔者有幸去过一回,对那儿的风土人情留下了深刻的印象,如果有机会,笔者还会多去几次! 滴水湖是 ...
[转]Laravel - Where null and Where not null eloquent query example
本文转自: https://hdtuto.com/article/laravel-where-null-and-where-not-null-eloquent-query-example- if yo ...
python多任务-线程
目录多任务的概念线程基础单线程执行多线程执行主线程会等待所有子线程结束后才结束查看线程数量线程-注意点线程执行代码的封装线程的执行顺序总结多任务的概念什么叫"多任务& ...
Web Worker 初探
什么是Web Worker? Web Worker 是Html5 提出的能够在后台运行javascript的对象,独立于其他脚本,不会影响页面的性能,也不会影响你继续对于页面进行操作.通俗点讲,就是后 ...
BZOJ4804: 欧拉心算(莫比乌斯反演线性筛)
题意求$$\sum_1^n \sum_1^n \phi(gcd(i, j))$$ $T \leqslant 5000, N \leqslant 10^7$ Sol 延用BZOJ4407的做法化到最 ...
个人练习：使用HTML+CSS制作二级菜单
最近一直在学习HTML+CSS,刚看完如果制作下拉菜单部分,就想着做一个练练手. 先上成品图: 就是上面这个效果,横向菜单选项能点击,鼠标放在上面也能展开二级菜单,二级菜单也能点击,点击后就会在底下的 ...

python3+正则表达式爬取 猫眼电影

python3+正则表达式爬取 猫眼电影的更多相关文章

随机推荐

热门专题

python3+正则表达式爬取猫眼电影

python3+正则表达式爬取猫眼电影的更多相关文章