14-Requests+正则表达式爬取猫眼电影

'''Requests+正则表达式爬取猫眼电影TOP100'''
'''
流程框架：
抓去单页内容：利用requests请求目标站点，得到单个网页HTML代码，返回结果。
正则表达式分析：根据HTML代码分析得到电影的名称、主演、上映时间、评分、图片链接等信息。
保存至文件：通过文件的形式保存结果，每一部电影一个结果一行Json字符串。
开启循环及多线程：对多页内容遍历，开启多线程提高抓取速度。
'''
import requests
import re
from requests.exceptions import RequestException
import json
from multiprocessing import Pool

def get_one_page(url,headers):
    '''得到网页源码'''
    try:
        #此处必须要传入headers参数，否则因为有些网站服务器的反爬机制，会返回403 Forbidden。参考：https://blog.csdn.net/lv0817/article/details/79185322
        response = requests.get(url=url,headers=headers)    #这里要注意，必须使用url=url，headers=headers的格式，否则传参无效。
        if response.status_code == 200:
            return response.text
        return None
    #可以查看requests库的官方文档的Exceptions模块，可知RequestException为所有异常的父类或间接父类。
    except RequestException:
        return None

def parse_one_page(html):
    '''解析得到的网页源码'''
    #编译正则表达式
    pattern = re.compile('<dd>.*?board-index.*?>(\d+)</i>.*?data-src="(.*?)".*?name"><a.*?>(.*?)</a>.*?star">(.*?)</p>'
                '.*?releasetime">(.*?)</p>.*?integer">(.*?)</i>.*?fraction">(.*?)</i>.*?</dd>',re.S)
    items = re.findall(pattern,html)
    #创建一个生成器
    for item in items:
        yield {
            'index':item[0],
            'image':item[1],
            'title':item[2],
            'actor':item[3].strip()[3:],
            'time':item[4][5:],
            'score':item[5]+item[6]
        }

def write_to_file(content):
    '''解析好的数据写入到文件'''
    with open('result.txt','a',encoding='utf-8') as f:   #'a'表示内容可追加。当有中文时，指定编码utf-8防止乱码。
        #json.dumps序列化时对中文默认使用的ascii编码.想输出真正的中文需要指定ensure_ascii = False。
        f.write(json.dumps(content,ensure_ascii=False) + '\n')    #json.dumps将字典转换为字符串
        f.close()

def main(offset):
    url = "http://maoyan.com/board/4?offset=" + str(offset)   #点击下一页观察网址可知
    headers = {
        'User-Agent': 'Mozilla/5.0(Macintosh;Intel Mac OS X 10_11_4)AppleWebKit/537.36(KHTML,like Gecko)Chrome/52.0.2743.116 Safari/537.36'
    }
    html = get_one_page(url,headers)
    #遍历生成器
    for item in parse_one_page(html):
        print(item)
        write_to_file(item)

if __name__ == '__main__':
    # for i in range(10):
    #     main(i*10)
    #如果要实现秒抓的话，就要使用多进程。
    #进程池提供指定数量的进程供用户调用，如果有新的请求提交到进程池，池子还没有满，它就会创建新的进程来执行请求，如果池子满了就先等待。
    #构造进程池
    pool = Pool()   #声明一个进程池
    pool.map(main,[i*10 for i in range(10)])    #第一个参数是方法名，第二个参数是可遍历对象。map方法作用是，拿出可遍历数组中的每一个值当做函数的参数，然后创建一个个的进程，放到进程池里面去运行。

14-Requests+正则表达式爬取猫眼电影的更多相关文章

PYTHON 爬虫笔记八:利用Requests+正则表达式爬取猫眼电影top100（实战项目一）
利用Requests+正则表达式爬取猫眼电影top100 目标站点分析流程框架爬虫实战使用requests库获取top100首页: import requests def get_one_pag ...
Requests+正则表达式爬取猫眼电影
目标提取出猫眼电影TOP100的电影名称.时间.评分.图片等信息,提取站点的URL为http://maoyan.com/board/4,提取的结果以文本的形式保存下来. 准备工作请安装好reque ...
Requests+正则表达式爬取猫眼电影(TOP100榜)
猫眼电影网址:www.maoyan.com 前言:网上一些大神已经对猫眼电影进行过爬取,所用的方法也是各有其优,最终目的是把影片排名.图片.名称.主要演员.上映时间与评分提取出来并保存到文件或者数据库 ...
Python爬虫学习==>第十章：使用Requests+正则表达式爬取猫眼电影
学习目的: 通过一个一个简单的爬虫应用,初窥门径. 正式步骤 Step1:流程框架抓取单页内容:利用requests请求目标站点,得到单个页面的html代码,返回结果: 正则表达式分析:根据html ...
Requests+正则表达式爬取猫眼电影
代码: import re import json from multiprocessing import Pool import requests from requests.exceptions ...
python爬虫知识点总结（九）Requests+正则表达式爬取猫眼电影
一.爬取流程二.代码演示 #-*- coding: UTF-8 -*- #_author:AlexCthon #mail:alexcthon@163.com #date:2018/8/3 impor ...
Python爬虫实战之Requests+正则表达式爬取猫眼电影Top100
import requests from requests.exceptions import RequestException import re import json # from multip ...
python爬虫从入门到放弃（九）之 Requests+正则表达式爬取猫眼电影TOP100
import requests from requests.exceptions import RequestException import re import json from multipro ...
Python爬虫之requests+正则表达式抓取猫眼电影top100以及瓜子二手网二手车信息(四)
requests+正则表达式抓取猫眼电影top100 一.首先我们先分析下网页结构可以看到第一页的URL和第二页的URL的区别在于offset的值,第一页为0,第二页为10,以此类推. 二.< ...

随机推荐

The operation could not be performed because OLE DB provider "SQLNCLI11" for linked server "SDSSDFCC...
The operation could not be performed because OLE DB provider "SQLNCLI11" for linked server ...
ASP.NET MVC 扩展方法
一.扩展方法的语法在视图中使用扩展方法的时候如果扩展方法定义的类在其他命名空间,需要首先引用该命名空间,才能使用该扩展方法 static class 静态类名 ...
SQL的日期转换
日期转会计期 SUBSTRING(CONVERT(VARCHAR,getdate(), 20), 1, 7) 2015-06 SUBSTRING(CONVERT(VARCHAR,DATEADD(m ...
c/c++ 图的创建及图的相关函数(链表法）
c/c++ 图的创建及图的相关函数(链表法) 图的概念图由点和线组成知道了图中有多少个点,和哪些点之间有线,就可以把一张图描绘出来点之间的线,分有方向和无方向创建图创建图,实际就是创建出节点 ...
python 实现网页自动登录
完整代码: 1 from apscheduler.schedulers.blocking import BlockingScheduler 2 from selenium import webdriv ...
docker：版本变更
在2017年之前的版本号: v1.4, v1.5, v1.6, v1.7, v1.8, v1.9, v1.10, v1.11, v1.12, v1.13 从2017年开始版本后变更为:${yy} ...
LeetCode算法题-Best Time to Buy and Sell Stock II
这是悦乐书的第173次更新,第175篇原创 01 看题和准备今天介绍的是LeetCode算法题中Easy级别的第32题(顺位题号是122).假设有一个数组,其中第i个元素是第i天给定股票的价格.设计 ...
ABAP 7.50 新特性 – Open SQL中的宿主表达式和其它表达式
在长期的停滞后,Open SQL的发展终于从沉睡中醒来.从ABAP 7.40开始,SAP推进了某些关键的改变,以尽可能地包含SQL92中的特性,并提供与ABAP CDS中的DDL里面的SELECT一样 ...
Docker for Windows 中文文档（3）——Docker Settings
Docker设置 Docker运行时,显示Docker鲸鱼. 默认情况下,Docker鲸鱼图标被放置在“通知”区域中. 如果隐藏,单击任务栏上的向上箭头显示. 提示:您可以将鲸鱼固定在通知框外面,使其 ...
PHP交互数据库
教程图形化界面访问自己的服务器上数据库 http://ip/phpmyadmin php文件运行 <?php $servername = "localhost"; $us ...

14-Requests+正则表达式爬取猫眼电影

14-Requests+正则表达式爬取猫眼电影的更多相关文章

随机推荐

热门专题