Python爬虫实战之Requests+正则表达式爬取猫眼电影Top100

import requests

from requests.exceptions import RequestException

import re

import json

# from multiprocessing import Pool

# 测试了下 这里需要自己添加头部 否则得不到网页

headers = {

    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Safari/537.36'

}

# 得到html代码

def get_one_page(url):

    try:

        response = requests.get(url, headers = headers)

        if response.status_code == 200:

            return response.text

        return None

    except RequestException:

        return None

# 解析html代码

def parse_one_page(html):

    pattern = re.compile('<dd>.*?board-index.*?>(\d+)</i>.*?data-src="(.*?)".*?name"><a.*?">(.*?)</a>.*?star">(.*?)</p>.*?releasetime">(.*?)</p>.*?integer">(.*?)</i>.*?fraction">(.*?)</i>.*?(/dd)', re.S)

    items = re.findall(pattern, html)

    for item in items:

        # 将元组形式变为字典

        yield {

            '【排名】': item[0],

            '【图片】': item[1],

            '【标题】': item[2],

            '【主演】': item[3].strip()[3:],

            '【上映时间】': item[4].strip()[5:],

            '【评分】': item[5] + item[6]

        }

# 写入文件

def write_to_file(content):

    # 注意encoding = 'utf-8'和ensure_ascii = False，不写的话不能输出汉字

    with open('电影.txt', 'a', encoding = 'utf-8') as f:

        f.write(json.dumps(content, ensure_ascii = False) + '\n')

        f.close()

# 主函数

def main(offset):

    url = 'http://maoyan.com/board/4?offset=' + str(offset)

    html = get_one_page(url)

    for item in parse_one_page(html):

        print(item)

        write_to_file(item)

if __name__ == '__main__':

    for i in range(10):

        main(i * 10)

# 多进程（测试有bug）

# if __name__ == '__main__':

#     pool = Pool()

#     pool.map(main, [i * 10 for i in range(10)])

#     pool.join()

#     pool.close()

代码来自崔庆才

Python爬虫实战之Requests+正则表达式爬取猫眼电影Top100的更多相关文章

PYTHON 爬虫笔记八:利用Requests+正则表达式爬取猫眼电影top100（实战项目一）
利用Requests+正则表达式爬取猫眼电影top100 目标站点分析流程框架爬虫实战使用requests库获取top100首页: import requests def get_one_pag ...
Requests+正则表达式爬取猫眼电影(TOP100榜)
猫眼电影网址:www.maoyan.com 前言:网上一些大神已经对猫眼电影进行过爬取,所用的方法也是各有其优,最终目的是把影片排名.图片.名称.主要演员.上映时间与评分提取出来并保存到文件或者数据库 ...
python爬虫从入门到放弃（九）之 Requests+正则表达式爬取猫眼电影TOP100
import requests from requests.exceptions import RequestException import re import json from multipro ...
Python爬虫之requests+正则表达式抓取猫眼电影top100以及瓜子二手网二手车信息(四)
requests+正则表达式抓取猫眼电影top100 一.首先我们先分析下网页结构可以看到第一页的URL和第二页的URL的区别在于offset的值,第一页为0,第二页为10,以此类推. 二.< ...
用requests库爬取猫眼电影Top100
这里需要注意一下,在爬取猫眼电影Top100时,网站设置了反爬虫机制,因此需要在requests库的get方法中添加headers,伪装成浏览器进行爬取 import requests from re ...
Requests+正则表达式爬取猫眼电影
目标提取出猫眼电影TOP100的电影名称.时间.评分.图片等信息,提取站点的URL为http://maoyan.com/board/4,提取的结果以文本的形式保存下来. 准备工作请安装好reque ...
Requests+正则表达式爬取猫眼电影
代码: import re import json from multiprocessing import Pool import requests from requests.exceptions ...
爬虫练习之正则表达式爬取猫眼电影Top100
#猫眼电影Top100import requests,re,timedef get_one_page(url): headers={ 'User-Agent':'Mozilla/5.0 (Window ...
Python爬虫学习==>第十章：使用Requests+正则表达式爬取猫眼电影
学习目的: 通过一个一个简单的爬虫应用,初窥门径. 正式步骤 Step1:流程框架抓取单页内容:利用requests请求目标站点,得到单个页面的html代码,返回结果: 正则表达式分析:根据html ...

随机推荐

apollo客户端springboot实战（四）
1. apollo客户端springboot实战(四) 1.1. 前言经过前几张入门学习,基本已经完成了apollo环境的搭建和简单客户端例子,但我们现在流行的通常是springboot的客户端 ...
Python数据分析(一): ipython 技巧！
不一定非得使用Jupyter Notebook,试试ipython命令行安装 ipython 我只试过Windows 10环境下的. 1.安装python安装包之后,应该就有ipython了. 2. ...
【Spark篇】---Spark初始
一.前述 Spark是基于内存的计算框架,性能要优于Mapreduce,可以实现hadoop生态圈中的多个组件,是一个非常优秀的大数据框架,是Apache的顶级项目.One stack rule ...
performance数据
// 获取 performance 数据 var performance = { // memory 是非标准属性,只在 Chrome 有 // 财富问题:我有多少内存 memory: { usedJ ...
ASP.NET MVC one view bind many model
一.自定义视图模型 model.cs public class AorBvm { public List<Role> GetRole { get; set; } public List&l ...
Leetcode 137. 只出现一次的数字 II - 题解
Leetcode 137. 只出现一次的数字 II - 题解 137. Single Number II 在线提交: https://leetcode.com/problems/single-numb ...
知其所以然~分布式事务cap
背景一致性是一个抽象的.具有多重含义的计算机术语,在不同应用场景下,有不同的定义和含义.在传统的IT时代,一致性通常指强一致性,强一致性通常体现在你中有我.我中有你.浑然一体:而在互联网时代,一致性 ...
vm12 安装ubuntu15.10详细图文教程虚拟机安装ubuntu安装 ubuntu更新软件 ubuntu一直卡在下载语言怎么办?
1,准备工作-ubuntu下载 ubuntu官网下载如何官网下载ubuntu http://www.ubuntu.com/download/ 2,打开虚拟机虚拟机安装ubuntu15.10 虚拟机 ...
Python3+Selenium2完整的自动化测试实现之旅（三）：Selenium-webdriver提供的元素定位方法
本篇以实例介绍selenium下的webdriver模块提供的定位页面元素(也可以称为对象)的方法和使用技巧,在此注意:在做WEB自动化测试前,需要对前端相关的技术有所了解,如HTML.XML.Xpa ...
【Zabbix】zabbix设置邮件报警
目录 Zabbix设置邮件报警 1.安装sendmail或postfix 2.安装邮件发送工具mailx . 3.配置mail 4. 测试邮件发送 5.编写邮件发送脚本sendmail.sh 6.设置 ...

Python爬虫实战之Requests+正则表达式爬取猫眼电影Top100

Python爬虫实战之Requests+正则表达式爬取猫眼电影Top100的更多相关文章

随机推荐

热门专题