艺恩网内地总票房排名Top100信息及其豆瓣评分详情爬取

前两天用python2写的一个小爬虫

主要实现了从http://www.cbooo.cn/Alltimedomestic这么个网页中爬取每一部电影的票房信息等,以及在豆瓣上该电影的评分信息

代码如下

# -*- coding:utf-8 -*-

from __future__ import print_function

import urllib2

import re

'''

TODO:error 10060

'''

def fixEnglishName(name):

    ooo=re.compile("&amp;amp;#246;")

    space=re.compile("·")

    if(len(space.findall(name))!=0):

        nameTmp=re.sub("·"," ",name)

        if(len(ooo.findall(nameTmp))!=0):

            nameTtmp=re.sub("&amp;amp;#246;","o",nameTmp)

            return nameTtmp

        return nameTmp

    if(len(ooo.findall(name))!=0):

        nameTttmp=re.sub("&amp;amp;#246;","o",name)

        return nameTttmp

    return name

print(u'影片名;影片类型;国家及地区;总票房;平均票价;上映日期;场均人次;导演;主演;制作公司;发行公司;豆瓣评分    评论数;5星百分比;4星百分比;3星百分比;2星百分比;1星百分比')

pre_url="http://www.cbooo.cn/BoxOffice/getInland?pIndex="

for index in range(5):

    aft_url=str(index+1)+"&t=0"

    url=pre_url+aft_url

    response = urllib2.urlopen(url)

    pageCode=response.read().decode('utf-8')

    pattern=re.compile(".*?ID\":\"(.*?)\",\".*?\":\"(.*?)\",\".*?\":\"(.*?)\",\".*?\":\"(.*?)\",\".*?\":\"(.*?)\",\".*?rice\":\"(.*?)\",\".*?\":\"(.*?)\",\".*?\":\"(.*?)\"",re.S)

    items=re.findall(pattern, pageCode)

    #pageFilms = []

    '''item[0]:id,item[1]:名字,item[2]:类型,item[3]:国家及地区,item[4]:总票房,item[5]:平均票价,item[6]:上映日期,item[7]:场均人次'''

    for item in items:

        print(item[1]+";"+item[2]+";"+item[3]+";"+item[4]+";"+item[5]+";"+item[6]+";"+item[7],end=";")

        #pageFilms.append([item[0].strip(),item[1].strip(),item[2].strip(),item[3].strip(),item[4].strip(),item[5].strip(),item[6].strip(),item[7].strip()])

        filmUrl='http://www.cbooo.cn/m/'+str(item[0])

        '''filmUrl:艺恩网电影页面'''

        filmResponse=urllib2.urlopen(filmUrl)

        filmPageCode=filmResponse.read().decode('utf-8')

        #filmPattern=re.compile("onerror=\".*?\"borbg.pad02\".*?title=\"(.*?)\">.*?title=\"(.*?)\">.*?<dt>.*?title=\"(.*?)\">.*?<dt>.*?title=\"(.*?)\">",re.S)

        filmPattern = re.compile(

            "onerror=\".*?\"borbg.pad02\".*?title=\"(.*?)\">.*?<dd>.*?title=\"(.*?)\">.*?<dt>.*?title=\"(.*?)\">.*?<dt>.*?title=\"(.*?)\">",

            re.S)

        filmItems=re.findall(filmPattern,filmPageCode)

        replaceSpace = re.compile("·")

        for filmItem in filmItems:

            print(fixEnglishName(filmItem[0]),end=';')

            print(fixEnglishName(filmItem[1]),end=';')

            print(filmItem[2],end=';')

            print(filmItem[3],end=';')

        dbTotal_Url="https://movie.douban.com/j/subject_suggest?q="+item[1]#电影名搜索链接

        dbResponse = urllib2.urlopen(dbTotal_Url.encode("utf-8"))

        dbCode = dbResponse.read().decode('utf-8')

        dbTmp = re.sub(re.compile("\\\/"), "/", dbCode)

        dbPattern = re.compile("url\":\"(.*?)\",\"", re.S)

        dbItems = re.findall(dbPattern, dbTmp)

        for dbItem in dbItems:

            '''访问该页面并提取评分,评论数'''

            dbFilmResponse=urllib2.urlopen(dbItem.strip())

            dbFilmPageCode=dbFilmResponse.read().decode('utf-8')

            dbFilmPattern=re.compile("property=\"v:average\">(.*?)<.*?votes\">(.*?)<.*?rating_per\">(.*?)%.*?rating_per\">(.*?)%.*?rating_per\">(.*?)%.*?rating_per\">(.*?)%.*?rating_per\">(.*?)%",re.S)

            dbFilmItems=re.findall(dbFilmPattern,dbFilmPageCode)

            '''dbFilmItem[0]:评分,dbFilmItem[1]:评论数,dbFilmItem[2]:5星百分比,dbFilmItem[3]:4星百分比,dbFilmItem[4]:3星百分比,dbFilmItem[5]:2星百分比,dbFilmItem[6]:1星百分比'''

            for dbFilmItem in dbFilmItems:

                for x in range(7):

                    print(dbFilmItem[x],end=';')

            break

        print ('')

        '''换行'''

爬取过程还算顺利,期间遇到了一些小麻烦:

一部分导演的名字带有空格,由于编码的问题输出结果会变成·

《一条狗的使命》的导演莱塞·霍尔斯道姆先生的英文名中某个奇怪字符(貌似是瑞典字符？)会输出成为&amp;#246;

以上都通过fixEnglishName函数进行了转化.

由于输出后的结果想要直接拿到excel里使用,为了进行输出格式的控制，通过from __future__ import print_function

将print xxx 替换为 print(xxx,end='xx'),其中第二个参数省略则默认是换行

豆瓣信息的获取是从艺恩网捕获到电影名后放入豆瓣电影搜索,再进入详情页获得

关于最上面的'''todo''',找我做这个小爬虫的同学在运行我程序的时候经常会出现error10060,本来想通过多次请求连接解决来着,但是写完后我这里已经有了完整的数据了,就不需要再对本程序进行完善了

艺恩网内地总票房排名Top100信息及其豆瓣评分详情爬取的更多相关文章

时光网内地影视票房Top100爬取
为了和艺恩网的数据作比较,让结果更精确,在昨天又写了一个时光网信息的爬取,这次的难度比艺恩网的大不少,话不多说,先放代码 # -*- coding:utf-8 -*-from __future__ i ...
Python的scrapy之爬取顶点小说网的所有小说
闲来无事用Python的scrapy框架练练手,爬取顶点小说网的所有小说的详细信息. 看一下网页的构造: tr标签里面的 td 使我们所要爬取的信息下面是我们要爬取的二级页面小说的简介信息: 下面 ...
爬取猫眼电影TOP100
本文所讲的爬虫项目实战属于基础.入门级别,使用的是Python3.5实现的. 本项目基本目标:在猫眼电影中把top100的电影名,排名,海报,主演,上映时间,评分等爬取下来爬虫原理和步骤爬虫,就是 ...
Node.js爬虫-爬取慕课网课程信息
第一次学习Node.js爬虫,所以这时一个简单的爬虫,Node.js的好处就是可以并发的执行这个爬虫主要就是获取慕课网的课程信息,并把获得的信息存储到一个文件中,其中要用到cheerio库,它可以让 ...
用go语言爬取珍爱网 | 第三回
前两节我们获取到了城市的URL和城市名,今天我们来解析用户信息. 用go语言爬取珍爱网 | 第一回用go语言爬取珍爱网 | 第二回爬虫的算法: 我们要提取返回体中的城市列表,需要用到城市列表解析器 ...
爬取百度网盘资源报user is not authorized, hitcode:119
爬取百度网盘资源报user is not authorized, hitcode:119 一.总结一句话总结: 可能是百度网盘禁止非客户端环境下载大文件,所以将请求头改为客户端:'User-Agen ...
# [爬虫Demo] pyquery+csv爬取猫眼电影top100
目录 [爬虫Demo] pyquery+csv爬取猫眼电影top100 站点分析代码君 [爬虫Demo] pyquery+csv爬取猫眼电影top100 站点分析 https://maoyan.co ...
2015年度新增开源软件排名TOP100
2015年度新增开源软件排名TOP100 本榜单包含2015年开源中国新收录的软件中,根据软件本身的关注度.活跃程度进行排名前100名的软件.从这份榜单中或许可以了解到最新业界的趋势. 1.Switc ...
Python爬取中国票房网所有电影片名和演员名字，爬取齐鲁网大陆所有电视剧名称
爬取CBO中国票房网所有电影片名和演员名字 # -*- coding: utf-8 -*- # 爬取CBO中国票房网所有电影片名 import json import requests import ...

随机推荐

vue2强制刷新，解决页面不会重新渲染的问题
问题描述: 在使用Vue框架开发时,在函数中改变了页面中的某个值,在函数中查看是修改成功了,但在页面中没有及时刷新改变后的值: 解决: 运用 this.$forceUpdate(); //强制刷新, ...
redhat 7.x 的防火墙软件firewall 介绍
zone 的概念.firewall 一般有9个zone ,配置文件都在 /usr/lib/firewalld/zones/ 里面. 系统的配置文件目录就在 /usr/lib/firewalld 这个目 ...
The art of multipropcessor programming 读书笔记-3. 自旋锁与争用(2)
本系列是 The art of multipropcessor programming 的读书笔记,在原版图书的基础上,结合 OpenJDK 11 以上的版本的代码进行理解和实现.并根据个人的查资料以 ...
virtualbox + vagrant 安装centos7 以及 vagrant up下载太慢的解决方案
下载安装 virtualbox下载 vagrant下载下载启动镜像vagrant up有下载过慢的问题,可以到网页vagrant镜像仓库,找到自己需要的镜像,选择virtualbox版本下载下载好 ...
问题 B: 喷水装置（二）(在c++上运行有错误，提交AC了)
题目描述有一块草坪,横向长w,纵向长为h,在它的橫向中心线上不同位置处装有n(n<=10000)个点状的喷水装置,每个喷水装置i喷水的效果是让以它为中心半径为Ri的圆都被润湿.请在给出的喷水装 ...
Spark-StructuredStreaming 下的checkpointLocation分析以及对接 Grafana 监控和提交Kafka Lag 监控
一.Spark-StructuredStreaming checkpointLocation 介绍 Structured Streaming 在 Spark 2.0 版本于 2016 年引入, 是基于 ...
[bzoj1146]网络管理
发现是链上的问题,所以树链剖分发现要查询第k大,因为第k大不支持合并,所以要二分答案二分答案后相当于询问一些区间内大于某数的数个数,直接线段树套平衡树即可时间复杂度$o(nlog^{4}_n)$(跟$ ...
Identity Server 4 从入门到落地（一）—— 从IdentityServer4.Admin开始
最近项目中需要使用Identity Server 4,以前对这个技术只是有些了解,没有系统研究过,网上相关的资料不少,大多是从编写一个简单的认证服务开始,离能够落地使用有相当的距离,理论学习如何不结合 ...
文件IO与标准IO的区别
文件IO与标准IO的区别文件I/O就是操作系统封装了一系列函数接口供应用程序使用,通过这些接口可以实现对文件的读写操作,文件I/O是采用系统直接调用的方式,因此当使用这些接口对文件进行操作时,就会立 ...
Linux Alpine安装 Nginx
Linux Alpine安装 Nginx 安装需要编译Nginx的扩展 apk add wget gcc g++ make 安装Nginx URL重定向,正则表达式模块pcre Pcre 源码下载地址 ...

艺恩网内地总票房排名Top100信息及其豆瓣评分详情爬取

艺恩网内地总票房排名Top100信息及其豆瓣评分详情爬取的更多相关文章

随机推荐

热门专题