Python 爬取猫眼

import requests

import re

import pymongo

MONGO_URL='localhost'#建立连接

MONGO_DB='Maoyan'#创建数据库

client=pymongo.MongoClient(MONGO_URL)#连接数据库

db=client[MONGO_DB]#创建数据库

#获得一页的响应提信息

def get_one_page(url):

    headers={

        'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'

    }

    response = requests.get(url,headers=headers)#发送请求，获得响应

    return response.text #获得响应体信息，并返回

#解析请求的信息，并通过正则表达式提取想要的信息：电影名称、排名等

def parse_page(html):

    #通过正则表达式进行匹配

    pattern=re.compile('<dd>.*?board-index.*?>(.*?)</i>.*?data-src.*?"(.*?)".*?name.*?a.*?>(.*?)</a>.*?star.*?>(.*?)</p>.*?releasetime.*?>(.*?)</p>.*?integer.*?>(.*?)</i>.*?fraction.*?>(.*?)</i>',re.S)

    results=re.findall(pattern,html)#获得单页响应头的信息，获得的是一个列表

    #对产生的列表list进行for循环

    for result in results:

        #通过字典(dict)，组建信息

        movies={

            'rate':result[0],

            'img_url':result[1],

            'name':result[2],

            'actor':result[3].strip()[3:],

            'time':result[4][5:],

            'score':result[5]+result[6]

        }

        #保存到数据库

        save_mongo(movies)

#保存到数据库的函数

def save_mongo(info):

    if db['Movies'].insert(info):#将信息插入到数据库

        print('保存成功：',info)

    else:

        print('保存失败：',info)

#实现主流程

def main():

    #有10页，通过来获取每一页的信息

    for i in range(10):

        url='http://maoyan.com/board/4?offset='+str(i*10)#构建每一页的请求url

        html=get_one_page(url)#进行请求

        parse_page(html)#进行响应体的解析，并保存到数据库

if __name__=='__main__':

    main()#调用主体函数

import requests

import re

import pymongo

MONGO_URL='localhost'#

MONGO_DB='Maoyan'

MONGO_TABLE='MoviesTop100'

client=pymongo.MongoClient(MONGO_URL)

db=client[MONGO_DB]

def save_to_mongo(info):

    if db[MONGO_TABLE].insert(info):

        print('保存成功',info)

    else:

        print('保存失败',info)

def get_one_page(url):

    headers={

        'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'

    }

    html = requests.get(url=url,headers=headers).text

    return html

def get_movies_info(html):

    pattern=re.compile('<dd>.*?title="(.*?)".*?<p.*?star.*?>(.*?)</p>.*?<p.*?releasetime.*?>(.*?)</p>.*?<i.*?integer.*?>(.*?)</i>.*?fraction.*?>(.*?)</i>',re.S)

    results = re.findall(pattern,html)

    for result in results:

        movies = {}

        movies['name']=result[0]

        movies['actor']=result[1].strip()[3:]

        movies['time']=result[2].strip()[5:]

        movies['rate']=result[3]+result[4]

        save_to_mongo(movies)

#主体函数

def main():

    for i in range(10):

        url = 'http://maoyan.com/board/4?offset='+str(i*10)

        html=get_one_page(url)#完成请求，获取响应体的超文本

        get_movies_info(html)#完成信息提取

if __name__=='__main__':

    main()

Python 爬取猫眼的更多相关文章

Python 爬取猫眼 top100 电影例子
一个Python 爬取猫眼top100的小栗子 import json import requests import re from multiprocessing import Pool #//进程 ...
爬虫系列（1）-----python爬取猫眼电影top100榜
对于Python初学者来说,爬虫技能是应该是最好入门,也是最能够有让自己有成就感的,今天在整理代码时,整理了一下之前自己学习爬虫的一些代码,今天先上一个简单的例子,手把手教你入门Python爬虫,爬取 ...
python 爬取猫眼电影top100数据
最近有爬虫相关的需求,所以上B站找了个视频(链接在文末)看了一下,做了一个小程序出来,大体上没有修改,只是在最后的存储上,由txt换成了excel. 简要需求:爬虫爬取猫眼电影TOP100榜单数据 ...
票房和口碑称霸国庆档，用 Python 爬取猫眼评论区看看电影《我和我的家乡》到底有多牛
今年的国庆档电影市场的表现还是比较强势的,两名主力<我和我的家乡>和<姜子牙>起到了很好的带头作用. <姜子牙>首日破 2 亿,一举刷新由<哪吒之魔童降世&g ...
Python 爬取猫眼电影最受期待榜
主要爬取猫眼电影最受期待榜的电影排名.图片链接.名称.主演.上映时间. 思路:1.定义一个获取网页源代码的函数: 2.定义一个解析网页源代码的函数: 3.定义一个将解析的数据保存为本地文件的函数: ...
python爬取猫眼电影top100
最近想研究下python爬虫,于是就找了些练习项目试试手,熟悉一下,猫眼电影可能就是那种最简单的了. 1 看下猫眼电影的top100页面分了10页,url为:https://maoyan.com/b ...
Python爬取猫眼电影《飞驰人生》47858万条评论并对其进行数据分析
前言文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: Yura不说数据说 ,PYuraL PS:如有需要Python学习资 ...
Python爬取猫眼电影100榜并保存到excel表格
首先我们前期要导入的第三方类库有; 通过猫眼电影100榜的源码可以看到很有规律如: 亦或者是: 根据规律我们可以得到非贪婪的正则表达式 """<div class ...
Python爬取猫眼top100排行榜数据【含多线程】
# -*- coding: utf-8 -*- import requests from multiprocessing import Pool from requests.exceptions im ...
记录python爬取猫眼票房排行榜(带stonefont字体网页),保存到text文件,csv文件和MongoDB数据库中
猫眼票房排行榜页面显示如下: 注意右边的票房数据显示,爬下来的数据是这样显示的: 网页源代码中是这样显示的: 这是因为网页中使用了某种字体的缘故,分析源代码可知: 亲测可行: 代码中获取的是国内票房榜 ...

随机推荐

HTML常用的css属性（及其简写）
这篇文章主要介绍几个常用css属性和简写本文目录: 1.背景属性 2.边框属性 3.字体属性 4.外边距 5.填充 6.颜色 1.background[背景属性] background-color ...
openssl 生成证书上 grpc 报 legacy Common Name field, use SANs or temporarily enable Common Name matching with GODEBUG=x509ignoreCN=0
最近用传统的方式生成的证书上用golang 1.15. 版本报 grpc 上面 ➜ ~ go version go version go1.15.3 darwin/amd64 上面调用的时候报错了 ...
给力！斩获 GitHub 14000 Star，两周创办开源公司获数百万美元融资
文章来源|AI科技大本营作者|伍杏玲上世纪 90 年代初,21 岁大学生 Linus Torvalds 开源 Linux 操作系统,自此掀起全球开源浪潮.随后"中国 Linux 第一人& ...
WEB 标准以及 W3C 的理解与认识
01. WEB标准 ① web标准简单来说可以分为结构.表现和行为. ② 结构:主要是有HTML标签组成(通俗点说,在页面body里面我们写入的标签都是为了页面的结构) 表现:即指css样 ...
项目实战 Prometheus环境搭建
项目摘要: 本文是搭建一套prometheus环境的教程. 前期准备:准备三台虚拟机,本文以centos7为例. 项目具体实施:分别进入每台虚拟机设置hostname:# hostnamectl se ...
秒级接入、效果满分的文档预览方案——COS文档预览
一.导语说起 Microsoft Office 办公三件套,想必大家都不会陌生,社畜日常的工作或者生活中,多多少少遇到过这种情况: 本地创建的文档换一台电脑打开,就出现了字体丢失.排版混乱的情况 ...
Rvalue References
Rvalue References
gitk
gitk gitk [<options>] [<revision range>] [--] [<path>-] 查看单个文件的变更历史 gitk -- CppPri ...
Beta阶段第八次会议
Beta阶段第八次会议时间:2020.5.24 完成工作姓名工作难度完成度 ltx 1.修改一下小程序游客模式的风格轻 80% xyq 1.针对昨天提出的意见对场地申请表格进行修改中 9 ...
团队任务拆解（alpha）
团队任务拆解(alpha阶段) 项目内容班级:2020春季计算机学院软件工程(罗杰任健) 博客园班级博客作业:团队任务拆解团队任务拆解我们在这个课程中的目标写出令客户和自己都满意的代码同 ...

Python 爬取 猫眼

Python 爬取 猫眼的更多相关文章

随机推荐

热门专题

Python 爬取猫眼

Python 爬取猫眼的更多相关文章