python3+正则表达式爬取猫眼电影

'''Request+正则表达式抓取猫眼电影TOP100内容'''

import requests

from requests.exceptions import RequestException

import re

import json

from  multiprocessing import Pool  #进程池

def get_one_page(url):

    try:

        reponse = requests.get(url)

        if reponse.status_code==200:

            return reponse.text

        return None

    except RequestException:

        return "error!"

def parse_one_page(html):

    pattern = re.compile('<dd>.*?board-index.*?>(\d+)</i>.*?data-src="(.*?)".*?name"><a'

                         '.*?>(.*?)</a>.*?star">(.*?)</p>.*?releasetime">(.*?)</p>'

                         '.*?integer">(.*?)</i>.*?fraction">(.*?)</i>.*?</dd>',re.S)

    items = re.findall(pattern,html)

    for item in items:

        yield {

            "排名":item[0],

            "海报连接": item[1],

            "电影名": item[2],

            "主演": item[3].strip()[3:],

            "上映时间": item[4].strip()[5:],

            "评分": item[5]+item[6]

        }

def write_to_file(content):

    with open("content.txt","a",encoding="utf-8")as f:

        # print(type(content)) #内容为字典形式

        f.write(json.dumps(content,ensure_ascii=False)+'\n') #用于将字典形式的数据转化为字符串

        f.close()

def main(offset):

    url = "https://maoyan.com/board/4?offset="+str(offset)

    get_html = get_one_page(url)

    # print(get_html)

    for item in parse_one_page(get_html):

        print(item)

        write_to_file(item)

if __name__=='__main__':

    # for i in range(10):

    #     main(i*10)

    pool = Pool()       # 进程池调用

    pool.map(main,[i*10 for i in range(10)])

python3+正则表达式爬取猫眼电影的更多相关文章

14-Requests+正则表达式爬取猫眼电影
'''Requests+正则表达式爬取猫眼电影TOP100''''''流程框架:抓去单页内容:利用requests请求目标站点,得到单个网页HTML代码,返回结果.正则表达式分析:根据HTML代码分析 ...
PYTHON 爬虫笔记八:利用Requests+正则表达式爬取猫眼电影top100（实战项目一）
利用Requests+正则表达式爬取猫眼电影top100 目标站点分析流程框架爬虫实战使用requests库获取top100首页: import requests def get_one_pag ...
Requests+正则表达式爬取猫眼电影
目标提取出猫眼电影TOP100的电影名称.时间.评分.图片等信息,提取站点的URL为http://maoyan.com/board/4,提取的结果以文本的形式保存下来. 准备工作请安装好reque ...
Requests+正则表达式爬取猫眼电影(TOP100榜)
猫眼电影网址:www.maoyan.com 前言:网上一些大神已经对猫眼电影进行过爬取,所用的方法也是各有其优,最终目的是把影片排名.图片.名称.主要演员.上映时间与评分提取出来并保存到文件或者数据库 ...
Python爬虫学习==>第十章：使用Requests+正则表达式爬取猫眼电影
学习目的: 通过一个一个简单的爬虫应用,初窥门径. 正式步骤 Step1:流程框架抓取单页内容:利用requests请求目标站点,得到单个页面的html代码,返回结果: 正则表达式分析:根据html ...
requests和正则表达式爬取猫眼电影Top100练习
1 import requests 2 import re 3 from multiprocessing import Pool 4 from requests.exceptions import R ...
python3爬虫爬取猫眼电影TOP100（含详细爬取思路）
待爬取的网页地址为https://maoyan.com/board/4,本次以requests.BeautifulSoup css selector为路线进行爬取,最终目的是把影片排名.图片.名称.演 ...
Requests+BeautifulSoup+正则表达式爬取猫眼电影Top100（名称，演员，评分，封面，上映时间，简介）
# encoding:utf-8 from requests.exceptions import RequestException import requests import re import j ...
Requests+正则表达式爬取猫眼电影
代码: import re import json from multiprocessing import Pool import requests from requests.exceptions ...

随机推荐

流式大数据计算实践（2）----Hadoop集群和Zookeeper
一.前言 1.上一文搭建好了Hadoop单机模式,这一文继续搭建Hadoop集群二.搭建Hadoop集群 1.根据上文的流程得到两台单机模式的机器,并保证两台单机模式正常启动,记得第二台机器core ...
教你如何在React及Redux项目中进行服务端渲染
服务端渲染(SSR: Server Side Rendering)在React项目中有着广泛的应用场景基于React虚拟DOM的特性,在浏览器端和服务端我们可以实现同构(可以使用同一份代码来实现多端 ...
前端（一）之 HTML
前端之 HTML 前言 python 基础.网络编程.并发编程与数据库要开始告一段落了,从现在开始进入前端的学习.前端的东西多且杂,需要好好地练习. 什么是前端前端即网站前台部分,运行在 PC 端, ...
注解@CrossOrigin解决跨域问题
注解@CrossOrigin 出于安全原因,浏览器禁止Ajax调用驻留在当前原点之外的资源.例如,当你在一个标签中检查你的银行账户时,你可以在另一个选项卡上拥有EVILL网站.来自EVILL的脚本不能 ...
IntelliJ IDEA快捷键与使用小技巧
IntelliJ Idea 常用快捷键列表修改方法如下: 点击文件菜单(File) –> 点击设置(Settings… Ctrl+Alt+S), –> 打开设置对话框. 在左侧的导航 ...
SQL 用于各种数据库的数据类型（转载） sqlserver 数据类型取值范围长度
SQL 用于各种数据库的数据类型来源 http://www.runoob.com/sql/sql-datatypes.html 面向数据库编程中,数据类型的取值范围.长度,可能是需要经常查看的 ...
【Java每日一题】20170222
20170221问题解析请点击今日问题下方的“[Java每日一题]20170222”查看(问题解析在公众号首发,公众号ID:weknow619) package Feb2017; import jav ...
10个常见的JavaScript BUG
译者按: 安全起见,在开发中我基本不用==. 原文: 10 COMMON JAVASCRIPT BUGS AND HOW TO AVOID THEM 译者: Fundebug 为了保证可读性,本文采用 ...
git入门多人协作
当你从远程仓库克隆时,实际上Git自动把本地的master分支和远程的master分支对应起来了,并且,远程仓库的默认名称是origin. 要查看远程库的信息,用git remote: $ git r ...
1970年／／ iPhone “变砖”后可继续正常使用的解决方案
0.解决方案说话先说重点,“变砖”后的iphone怎么正常使用. 拆开后盖,给电源和处理器之间断下电就OK了. 1.事件来源对于iPhone和iPad,把时间手动设置到1970年5月以前会出现“变 ...

python3+正则表达式爬取 猫眼电影

python3+正则表达式爬取 猫眼电影的更多相关文章

随机推荐

热门专题

python3+正则表达式爬取猫眼电影

python3+正则表达式爬取猫眼电影的更多相关文章