爬取猫眼TOP100

学完正则的一个小例子就是爬取猫眼排行榜TOP100的所有电影信息

看一下网页结构：

可以看出要爬取的信息在<dd>标签和</dd>标签中间

正则表达式如下：

pattern=re.compile('<dd>.*?board-index.*?>(.*?)</i>.*?data-src="(.*?)".*?name.*?a.*?>'
                   +'(.*?)</a>.*?star">(.*?)</p>'
                +'.*?releasetime">(.*?)</p>.*?integer">(.*?)'
                 +'</i>.*?fraction">(.*?)</i></p>.*?</dd>',
    re.S)

源码如下：

import requests

import re

import time

import json

def get_one_page(url):

    headers={

        'User-Agent': "Mozilla/5.0 (Windows NT 6.0) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.36 Safari/536.5"

    }

    response=requests.get(url,headers=headers)

    if response.status_code==200:

        return response.text

    return None

def parse_one_page(html):

    pattern=re.compile('<dd>.*?board-index.*?>(.*?)</i>.*?data-src="(.*?)".*?name.*?a.*?>'

                       +'(.*?)</a>.*?star">(.*?)</p>'

                    +'.*?releasetime">(.*?)</p>.*?integer">(.*?)'

                     +'</i>.*?fraction">(.*?)</i></p>.*?</dd>',

        re.S)

    '''

    pattern = re.compile('<dd>.*?board-index.*?>(\d+)</i>.*?data-src="(.*?)".*?name"><a'

                         + '.*?>(.*?)</a>.*?star">(.*?)</p>.*?releasetime">(.*?)</p>'

                         + '.*?integer">(.*?)</i>.*?fraction">(.*?)</i>.*?</dd>', re.S)

    '''

    items = re.findall(pattern, html)

    for item in items:

        yield {

            '排名':item[0],

            '图片':item[1],

            '名字':item[2].strip(),

            '演员':item[3].strip()[3:]if len(item[3])>3 else '',

            '时间':item[4].strip()[5:]if len(item[4])>5 else '',

            '评分':item[5].strip()+item[6].strip()

        }

def write_to_file(content):

    with open('movie.txt','a',encoding='utf-8') as f:

        f.write(json.dumps(content,ensure_ascii=False)+'\n')

def main(offset):

    url='https://maoyan.com/board/4?offset='+str(offset)

    html=get_one_page(url)

    #print(html)

    for item in parse_one_page(html):

        print(item)

        #write_to_file(item)

if __name__ == '__main__':

    for i in range(10):

        main(offset=i*10)

        time.sleep(1)

在弄这个的时候，自己先写了一遍正则，，不过只能爬取每一页的第一条数据，然后就没有下文了，，百思不得解

然后仔细的和书上的正则匹配，才发现有的地方写错了，通过这个例子，我们可以知道，正则表达式真的麻烦。。。。

也好难写。

运行结果：

最后还将数据保存在本地，，

GitHub地址：https://github.com/tyutltf/maoyan

爬取猫眼TOP100的更多相关文章

Python 爬取猫眼 top100 电影例子
一个Python 爬取猫眼top100的小栗子 import json import requests import re from multiprocessing import Pool #//进程 ...
python爬虫：爬取猫眼TOP100榜的100部高分经典电影
1.问题描述: 爬取猫眼TOP100榜的100部高分经典电影,并将数据存储到CSV文件中 2.思路分析: (1)目标网址:http://maoyan.com/board/4 (2)代码结构: (3) ...
使用Beautiful Soup爬取猫眼TOP100的电影信息
使用Beautiful Soup爬取猫眼TOP100的电影信息,将排名.图片.电影名称.演员.时间.评分等信息,提取的结果以文件形式保存下来. import time import json impo ...
7.5爬取猫眼Top100电影名单
2018-7-5 20:22:57 还有有一丢丢成就感!以后可以爬取简单网站了!比如妹子图片,只是现在不知道咋下载! 正则还是刚看,要多去用正则!正则很强大的东西! #!/usr/bin/env py ...
整理requests和正则表达式爬取猫眼Top100中遇到的问题及解决方案
最近看崔庆才老师的爬虫课程,第一个实战课程是requests和正则表达式爬取猫眼电影Top100榜单.虽然理解崔老师每一步代码的实现过程,但自己敲代码的时候还是遇到了不少问题: 问题1:获取respo ...
【爬虫】-爬取猫眼TOP100
原文崔庆才<python3网络爬虫实战> 本文为自学记录,如有侵权,请联系删除目标: 熟悉正则表达式,以及爬虫流程获取猫眼TOP100榜单 1.网站分析目标站点为http://www ...
Python爬取猫眼top100排行榜数据【含多线程】
# -*- coding: utf-8 -*- import requests from multiprocessing import Pool from requests.exceptions im ...
使用Requests+正则表达式爬取猫眼TOP100电影并保存到文件或MongoDB,并下载图片
需要着重学习的地方:(1)爬取分页数据时,url链接的构建(2)保存json格式数据到文件,中文显示问题(3)线程池的使用(4)正则表达式的写法(5)根据图片url链接下载图片并保存(6)MongoD ...
爬取猫眼电影TOP100
本文所讲的爬虫项目实战属于基础.入门级别,使用的是Python3.5实现的. 本项目基本目标:在猫眼电影中把top100的电影名,排名,海报,主演,上映时间,评分等爬取下来爬虫原理和步骤爬虫,就是 ...

随机推荐

Thread调用SaveFileDialog
public void ThreadSaveFileDialog(string sourceFileName) { Thread importThread = new Thread(new Param ...
配置spark集群
配置spark集群 1.配置spark-env.sh [/soft/spark/conf/spark-env.sh] ... export JAVA_HOME=/soft/jdk 2.配置slaves ...
TaskScheduler内幕天机解密：Spark shell案例运行日志详解、TaskScheduler和SchedulerBackend、FIFO与FAIR、Task运行时本地性算法详解等
本课主题通过 Spark-shell 窥探程序运行时的状况 TaskScheduler 与 SchedulerBackend 之间的关系 FIFO 与 FAIR 两种调度模式彻底解密 Task 数据 ...
修改virtual box中ubuntu lubuntu 的分辨率
Step1 先用xrandr命令查看能够支持的分辨率 Step2 xrandr --output VGA-1 --size 1280x800 Step3 重启电脑
Sql去重一些技巧
下午的时候遇到点问题,Sql去重,简单的去重可以用 DISTINCT 关键字去重,不过,很多情况下用这个解决不了问题.重复的数据千变万化,例如:类似于qq.微信的最近联系人功能,读取这些数据肯定要和消 ...
使用log4j让日志写入数据库
之前做的一个项目有这么个要求,在日志管理系统里,需要将某些日志信息存储到数据库里,供用户.管理员查看分析.因此我就花了点时间搞了一下这一功能,各位请看. 摘要:我们知道log4j能提供强大的可配置的记 ...
远程登录-出现身份验证错误[可能是由于CredSSP加密Oracle修正]
问题描述远程桌面登录时,出现身份验证错误,要求的函数不正确,这可能是由于CredSSP加密Oracle修正. 原因,系统更新导致 CVE-2018-0886 的 CredSSP 更新解决方法1 运 ...
「LG4782 模板 2-SAT 问题」
题目来学\(2\)-\(sat\)了这个东西确实不难这个算法就是给你一堆\(bool\)变量\(x_1,x_2...x_n\),之后给你一些限制限制的形式就是给你一对\((u,o1,v,o2) ...
mysql中与 in 相反的语句 find_in_set('数据',字段名)
在 mysql 中,我们经常用 in 来查询众多数据中是否有数据表字段中的值: 如果我们在数据表的字段中添加了很多值,然后查询某个值是否是这个字段中众多值的一个时可以用 find_in_set('数据 ...
[转]MFC子线程更改图像数据后更新主窗口图像显示方法
程序思路是由外部的输入输出控制卡发出采集图像信号,之后相机采集图像得到图像数据指针,接收图像数据指针创建成图像最后显示到MFC对话框应用程序的Picture Control控件上,同时,为了标定相机位 ...

爬取猫眼TOP100

爬取猫眼TOP100的更多相关文章

随机推荐

热门专题