Python3爬取豆瓣网电影信息

# -*- coding:utf-8 -*-

"""

一个简单的Python爬虫, 用于抓取豆瓣电影Top前250的电影的名称

Language: Python3.6

"""

import re

import urllib.request

import urllib.error

import time

#import urllib2

import ssl

ssl._create_default_https_context = ssl._create_unverified_context

class DouBanSpider(object):

    """类的简要说明

    本类主要用于抓取豆瓣前100的电影名称

    Attributes:

        page: 用于表示当前所处的抓取页面

        cur_url: 用于表示当前争取抓取页面的url

        datas: 存储处理好的抓取到的电影名称

        _top_num: 用于记录当前的top号码

    """

    def __init__(self):

        self.page = 1

        self.cur_url = "http://movie.douban.com/top250?start={page}&filter=&type="

        self.datas = []

        self._top_num = 1

        print("豆瓣电影爬虫准备就绪, 准备爬取数据...")

    def get_page(self, cur_page):

        """

        根据当前页码爬取网页HTML

        Args:

            cur_page: 表示当前所抓取的网站页码

        Returns:

            返回抓取到整个页面的HTML(unicode编码)

        Raises:

            URLError:url引发的异常

        """

        url = self.cur_url

        time.sleep(3)

        try:

            #print(cur_page)

            page = (cur_page - 1) * 25

            #print(page)

            url = url.format(page=page)

            headers = {

                'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36'

            }

            request = urllib.request.Request(url, headers=headers)

            my_page = urllib.request.urlopen(request).read().decode('utf-8')

            print("请求第{}页，url地址是：{}".format(cur_page,url))

            #print(my_page)

        #urllib.error.URLError  #urllib.request.urlopen.URLError

        except urllib.error.URLError as e:

            if hasattr(e, "code"):

                print("The server couldn't fulfill the request.")

                print("Error code: %s" % e.code)

            elif hasattr(e, "reason"):

                print("We failed to reach a server. Please check your url and read the Reason")

                print("Reason: %s" % e.reason)

        return my_page

    def find_title(self, my_page):

        """

        通过返回的整个网页HTML, 正则匹配前100的电影名称

        Args:

            my_page: 传入页面的HTML文本用于正则匹配

        """

        temp_data = []

        #<span class="title">.*</span>

        #class="">[\s]+<span class="title">(.*?)</span>

        #<span.*?class="title">(.*?)</span>

        movie_items = re.findall(r'<span.*?class="title">(.*?)</span>', my_page, re.S)

        for index, item in enumerate(movie_items):

            if item.find("&nbsp") == -1:

                temp_data.append("Top" + str(self._top_num) + " " + item)

                self._top_num += 1

        self.datas.extend(temp_data)

    def start_spider(self):

        """

        爬虫入口, 并控制爬虫抓取页面的范围

        """

        while self.page <= 3:

            my_page = self.get_page(self.page)

            self.find_title(my_page)

            self.page += 1

def main():

    print(

    """

    ######################################

           一个简单的豆瓣电影前100爬虫

           Author: Agoly

           Version: Python3.6

           Date: 2019-09-06

    ######################################

    """)

    my_spider = DouBanSpider()

    my_spider.start_spider()

    for item in my_spider.datas:

        print(item)

    print("豆瓣爬虫爬取结束...")

if __name__ == '__main__':

    main()

Python3爬取豆瓣网电影信息的更多相关文章

requests爬取豆瓣top250电影信息
''' 1.爬取豆瓣top250电影信息 - 第一页: https://movie.douban.com/top250?start=0&filter= - 第二页: https://movie ...
python3爬取豆瓣top250电影
需求:爬取豆瓣电影top250的排名.电影名称.评分.评论人数和一句话影评环境:python3.6.5 准备工作: 豆瓣电影top250(第1页)网址:https://movie.douban.co ...
003.[python学习] 简单抓取豆瓣网电影信息程序
声明:本程序仅用于学习爬网页数据,不可用于其它用途. 本程序仍有很多不足之处,请读者不吝赐教. 依赖:本程序依赖BeautifulSoup4和lxml,如需正确运行,请先安装.下面是代码: #!/us ...
80 行代码爬取豆瓣 Top250 电影信息并导出到 CSV 及数据库
一.下载页面并处理二.提取数据观察该网站 html 结构可知该页面下所有电影包含在 ol 标签下.每个 li 标签包含单个电影的内容. 使用 XPath 语句获取该 ol 标签在 ol 标签中 ...
爬取豆瓣网图书TOP250的信息
爬取豆瓣网图书TOP250的信息,需要爬取的信息包括:书名.书本的链接.作者.出版社和出版时间.书本的价格.评分和评价,并把爬取到的数据存储到本地文件中. 参考网址:https://book.doub ...
Node.js爬虫-爬取慕课网课程信息
第一次学习Node.js爬虫,所以这时一个简单的爬虫,Node.js的好处就是可以并发的执行这个爬虫主要就是获取慕课网的课程信息,并把获得的信息存储到一个文件中,其中要用到cheerio库,它可以让 ...
Python爬虫项目--爬取自如网房源信息
本次爬取自如网房源信息所用到的知识点: 1. requests get请求 2. lxml解析html 3. Xpath 4. MongoDB存储正文 1.分析目标站点 1. url: http:/ ...
基础爬虫，谁学谁会，用requests、正则表达式爬取豆瓣Top250电影数据！
爬取豆瓣Top250电影的评分.海报.影评等数据! 本项目是爬虫中最基础的,最简单的一例: 后面会有利用爬虫框架来完成更高级.自动化的爬虫程序. 此项目过程是运用requests请求库来获取h ...
Python 2.7_利用xpath语法爬取豆瓣图书top250信息_20170129
大年初二,忙完家里一些事,顺带有人交流爬取豆瓣图书top250 1.构造urls列表 urls=['https://book.douban.com/top250?start={}'.format(st ...

随机推荐

松软科技Web课堂:重要->JavaScript 调试
错误总会发生,每当您写一些新的计算机代码时. JavaScript 调试在没有调试器的情况下写 JavaScript 是有难度的. 您的代码中也许包含了语法错误,或者逻辑错误,这些都难以诊断. 通常 ...
delete误删数据使用SCN恢复
参考51CTO博客问题描述:使用scn号恢复误删数据 1.查询系统闪回的scn值以及当前日志的scn值,因为我这个是测试,创建的表是在在后边,所以scn值要大于下边这两个scn值,所以对我恢复数据没 ...
mongodb-API
mongodb-API 连接mongo(该操作一般在初始化时就执行) 出现由于目标计算机积极拒绝,无法连接的错误时查看是否进行虚拟机的端口转发将 /etc/ 目录下的mongodb.conf 文 ...
LINUX OS 正常关机失败
描述:LINUX OS运行命令shutdown now显示:Telling INIT to go to single user mode.... 解决方法:运行命令exit重新登录,再运行 hal ...
DUBBO: xml文件无法解析
xml是: <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http:/ ...
java自学-常用api
API(Application Programming Interface),应用程序编程接口.Java API是JDK中提供给我们使用的类的说明文档.即jdk包里边写好的类,这些类将底层的代码实现封 ...
【重学Node.js 第5篇】部署项目到腾讯云服务器
课程介绍看这里:https://www.cnblogs.com/zhangran/p/11963616.html 项目github地址:https://github.com/hellozhangran ...
Spring Boot 为什么这么火？
没错 Spring Boot 越来越火了,而且火的超过了我的预期,作为一名行走一线的 Java 程序员,你可能在各个方面感受到了 Spring Boot 的火. Spring Boot 的火技术社区 ...
Consul初探-服务注册和发现
前言经过上一篇的学习,现在已经来到了服务注册发现环节:Consul 的核心功能就是服务注册和发现,Consul 客户端通过将自己注册到 Consul 服务器集群,然后等待调用方去发现服务,实现代理转 ...
JS基础语法---Array对象的方法
Array对象的方法 Array.isArray(对象)---->判断这个对象是不是数组 instanceof关键字判断对象是不是数组类型:两种方法: //1 instanceof var ...

Python3爬取豆瓣网电影信息

Python3爬取豆瓣网电影信息的更多相关文章

随机推荐

热门专题