一、项目目标

  爬取豆瓣TOP250电影的评分、评价人数、短评等信息,并在其保存在txt文件中,html解析方式基于正则表达式

二、确定页面内容  

  爬虫地址:https://movie.douban.com/top250

  确定爬取内容:视频链接,视频名称,导演/主演名称,视频评分,视频简介,评价人数等信息

  打开网页,按F12键,可获取以下界面信息

  

  观察可知,每一部视频的详细信息都存放在li标签中

  每部视频的视频名称在 class属性值为title 的span标签里,视频名称有可能有多个(中英文);

  每部视频的评分在对应li标签里的(唯一)一个 class属性值为rating_num 的span标签里;

  每部视频的评价人数在 对应li标签 里的一个 class属性值为star 的div标签中 的最后一个数字;

  每部视频的链接在对应li标签里的一个a标签里

  每部视频的简介在对应li标签里的一个class属性值为ing的标签里

python 代码如下:

  

#!/usr/bin/env python
# -*- coding: utf-8 -*-
# @Time : 2017/12/1 15:55
# @Author : gj
# @Site :
# @File : test_class.py
# @Software: PyCharm import urllib2,re,threading '''
伪造头信息
'''
def Get_header():
headers = {
'USER_AGENT': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_3) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.54 Safari/536.5'
}
return headers '''
获取页面内容
''' def Spider(url,header):
req = urllib2.Request(url=url,headers=header)
html = urllib2.urlopen(req)
info = html.read()
return info def Analyse(infos):
pattern = re.compile('<ol class="grid_view">(.*?)</ol>',re.S)
info = pattern.findall(infos)
pattern = re.compile("<li>(.*?)</li>",re.S)
movie_infos = pattern.findall(info[0])
movie=[]
for movie_info in movie_infos:
movie_temp=[]
url = ""
title=""
director=""
score=""
peoples=""
inq=""
#获取链接地址
pattern_url = re.compile('<a href="(.*?)" class="">')
movie_urls = pattern.findall(movie_info)
for movie_url in movie_urls:
url = url+movie_url
movie_temp.append(url) # 获取视频名称
pattern_title = re.compile('<span class="title">(.*?)</span>')
movie_titles = pattern_title.findall(movie_info)
for movie_title in movie_titles:
title = title+movie_title
movie_temp.append(title) # 获取视频演员表
pattern_director = re.compile('<p class="">(.*?)<br>',re.S)
movie_directors = pattern_director.findall(movie_info)
for movie_director in movie_directors:
director = director+movie_director
movie_temp.append(director) #获取视频评分
pattern_score = re.compile('<div class="star">.*?<span class="rating_num" property="v:average">(.*?)</span>.*?<span>(.*?)</span>.*?</div>',re.S)
movie_scores = pattern_score.findall(movie_info)
for movie_score in movie_scores:
score = movie_score[0]
peoples = movie_score[1]
break
movie_temp.append(score)
movie_temp.append(peoples) # 获取视频简介
pattern_inq = re.compile('<p class="quote">.*?<span class="inq">(.*?)</span>.*?</p>',re.S)
movie_inqs = pattern_inq.findall(movie_info)
if len(movie_inqs)>0:
inq = movie_inqs[0]
else:
inq ='该视频无简介'
movie_temp.append(inq)
movie.append(movie_temp)
return movie '''
将返回内容写入文件
'''
def write_file(infos):
#防止多个线程写文件造成数据错乱
mutex.acquire()
with open("./movie.txt","ab") as f:
for info in infos:
write_info = ""
for i in range(0,len(info)):
info[i] = info[i].replace("\n","")
write_info = write_info+info[i]+" "
write_info= write_info+"\n"
f.write(write_info)
mutex.release() def start(i):
url = "https://movie.douban.com/top250?start=%d&filter="%(i*25)
headers = Get_header()
infos= Spider(url,headers)
movie_infos = Analyse(infos)
write_file(movie_infos) def main():
#创建多线程
Thread = []
for i in range(0,10):
t=threading.Thread(target=start,args=(i,))
Thread.append(t)
for i in range(0,10):
Thread[i].start()
for i in range(0,10):
Thread[i].join()
if __name__ == "__main__":
#加锁
mutex = threading.Lock()
main()

最终结果会在当前目录下生成一个movie.txt txt中记录了每部视频的相关信息,大概格式如下(没有过多的调整文件格式,这里面可以写入mysql,或者写入execl中,更加方便查看)

  以上就是基于正则表达式来获取豆瓣排名钱250的电影信息的爬虫原理及简单脚本。

python爬虫实战 获取豆瓣排名前250的电影信息--基于正则表达式的更多相关文章

  1. python3爬取豆瓣排名前250电影信息

    #!/usr/bin/env python # -*- coding: utf-8 -*- # @File : doubanmovie.py # @Author: Anthony.waa # @Dat ...

  2. 记一次python爬虫实战,豆瓣电影Top250爬虫

    import requests from bs4 import BeautifulSoup import re import traceback def GetHtmlText(url): for i ...

  3. Python爬虫实战五之模拟登录淘宝并获取所有订单

    经过多次尝试,模拟登录淘宝终于成功了,实在是不容易,淘宝的登录加密和验证太复杂了,煞费苦心,在此写出来和大家一起分享,希望大家支持. 温馨提示 更新时间,2016-02-01,现在淘宝换成了滑块验证了 ...

  4. Python爬虫实战(4):豆瓣小组话题数据采集—动态网页

    1, 引言 注释:上一篇<Python爬虫实战(3):安居客房产经纪人信息采集>,访问的网页是静态网页,有朋友模仿那个实战来采集动态加载豆瓣小组的网页,结果不成功.本篇是针对动态网页的数据 ...

  5. Python爬虫【三】利用requests和正则抓取猫眼电影网上排名前100的电影

    #利用requests和正则抓取猫眼电影网上排名前100的电影 import requests from requests.exceptions import RequestException imp ...

  6. 如何用Python在豆瓣中获取自己喜欢的TOP N电影信息

    一.什么是 Python Python (蟒蛇)是一门简单易学. 优雅健壮. 功能强大. 面向对象的解释型脚本语言.具有 20+ 年发展历史, 成熟稳定. 具有丰富和强大的类库支持日常应用. 1989 ...

  7. Python爬虫实战---抓取图书馆借阅信息

    Python爬虫实战---抓取图书馆借阅信息 原创作品,引用请表明出处:Python爬虫实战---抓取图书馆借阅信息 前段时间在图书馆借了很多书,借得多了就容易忘记每本书的应还日期,老是担心自己会违约 ...

  8. Python爬虫实战一之爬取糗事百科段子

    大家好,前面入门已经说了那么多基础知识了,下面我们做几个实战项目来挑战一下吧.那么这次为大家带来,Python爬取糗事百科的小段子的例子. 首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把 ...

  9. 转 Python爬虫实战一之爬取糗事百科段子

    静觅 » Python爬虫实战一之爬取糗事百科段子 首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来. 友情提示 糗事百科在前一段时间进行了改版,导致 ...

随机推荐

  1. emacs 配置

    个人的Emacs配置,环境是archlinux,参考了不少网上资料,因为太多,就不一一列举了,在这里感谢那些作者的辛苦经验劳动. (custom-set-variables ;; custom-set ...

  2. Keras学习环境配置-GPU加速版(Ubuntu 16.04 + CUDA8.0 + cuDNN6.0 + Tensorflow)

    本文是个人对Keras深度学习框架配置的总结,不周之处请指出,谢谢! 1. 首先,我们需要安装Ubuntu操作系统(Windows下也行),这里使用Ubuntu16.04版本: 2. 安装好Ubunt ...

  3. spark的sparkUI如何解读?

    spark的sparkUI如何解读? 以spark2.1.4来做例子 Job - schedule mode 进入之后默认是进入spark job 页面 这个说明有很详细的解释,spark有两种操作算 ...

  4. 版本控制之三:SVN合并及解决冲突(转)

    转自 http://www.cnblogs.com/xiaobaihome/archive/2012/03/20/2408089.html 接下来,试试用TortoiseSVN修改文件,添加文件,删除 ...

  5. ajax+php(环境搭建+测试)

    在学习JavaScript,jQuery的ajax部分的时候,一直不明白要如何进行,不知道服务器要怎么弄,什么都不知道,当初在学ajax的时候,除了看一下ajax的内容,实践极少,因为,不知道要怎么做 ...

  6. Akka(35): Http:Server side streaming

    在前面几篇讨论里我们都提到过:Akka-http是一项系统集成工具库.它是以数据交换的形式进行系统集成的.所以,Akka-http的核心功能应该是数据交换的实现了:应该能通过某种公开的数据格式和传输标 ...

  7. JavaScript中把Json字符串转化为对象

    1.采用eval()函数 定义和用法 eval() 函数可计算某个字符串,并执行其中的的 JavaScript 代码. 语法 eval(string) 参数 描述 string 必需.要计算的字符串, ...

  8. 利用HTML5新特性改变浏览器地址后不刷新页面

    原文:http://www.cnblogs.com/xuchengzone/archive/2013/04/18/html5-history-pushstate.html   作为一个程序员,上Git ...

  9. C语言实现二叉树的基本操作

    二叉树是一种非常重要的数据结构.本文总结了二叉树的常见操作:二叉树的构建,查找,删除,二叉树的遍历(包括前序遍历.中序遍历.后序遍历.层次遍历),二叉搜索树的构造等. 1. 二叉树的构建 二叉树的基本 ...

  10. Adobe Audio 分轨录音教程(需要KX,Live机架)

    一.需要的硬件和软件 1. 创新5.1声卡或7.1声卡: 2. 已安装KX驱动和Live机架,经过测试安装后需要重启电脑才能生效. 3. 已安装Adobe Audition 3.0 二.测试环境 WI ...