python爬取豆瓣前25个影片内容的正则表达式练习

通过python正则表达式获取豆瓣top250的第一页的25个影片排名,影片名字,影片连接,导演,主演,上映日期,国家,剧情,评分,评价人数的内容

网页html内容:

 <ol class="grid_view">

         <li>

             <div class="item">

                 <div class="pic">

                     <em class="">1</em>

                     <a href="https://movie.douban.com/subject/1292052/">

                         <img width="" alt="肖申克的救赎" src="https://img3.doubanio.com/view/photo/s_ratio_poster/public/p480747492.jpg" class="">

                     </a>

                 </div>

                 <div class="info">

                     <div class="hd">

                         <a href="https://movie.douban.com/subject/1292052/" class="">

                             <span class="title">肖申克的救赎</span>

                                     <span class="title">&nbsp;/&nbsp;The Shawshank Redemption</span>

                                 <span class="other">&nbsp;/&nbsp;月黑高飞(港)  /  刺激1995(台)</span>

                         </a>

                             <span class="playable">[可播放]</span>

                     </div>

                     <div class="bd">

                         <p class="">

                             导演: 弗兰克·德拉邦特 Frank Darabont&nbsp;&nbsp;&nbsp;主演: 蒂姆·罗宾斯 Tim Robbins /...<br>

                             1994&nbsp;/&nbsp;美国&nbsp;/&nbsp;犯罪 剧情

                         </p>

                         <div class="star">

                                 <span class="rating5-t"></span>

                                 <span class="rating_num" property="v:average">9.6</span>

                                 <span property="v:best" content="10.0"></span>

                                 <span>1109414人评价</span>

                         </div>

代码:

 import requests

 import re

 url = 'https://movie.douban.com/top250'

 headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; rv:11.0) like Gecko'}

 response = requests.get(url,headers = headers)

 print('影片排名:',re.findall(re.compile(r'<em class="">(.*)</em>'),response.text))

 print('影片名字:',re.findall(re.compile(r'<span class="title">(.*)</span>'),response.text))

 print("影片连接:",re.findall(re.compile(r'<a href="(.*)" class=""'),response.text))

 print('导演:',re.findall(re.compile(r'导演: (.*)&nbsp;&nbsp;&nbsp;'),response.text))

 print('主演:',re.findall(re.compile(r'主演: (.*)<br>'),response.text))

 print('上映日期:',re.findall(re.compile(r'(\d\d\d\d)&nbsp;/&nbsp;'),response.text))

 print('国家:',re.findall(re.compile(r'&nbsp;/&nbsp;(.*)&nbsp;/&nbsp;'),response.text))

 print('剧情',re.findall(re.compile(r'&nbsp;/&nbsp;剧情 (.*)'),response.text))

 print('评分',re.findall(re.compile(r'<span class="rating_num" property="v:average">(.*)</span>'),response.text))

 print('评价人数',re.findall(re.compile(r'<span>(.*)人评价'),response.text))

结果:

python爬取豆瓣前25个影片内容的正则表达式练习的更多相关文章

Python爬取豆瓣指定书籍的短评
Python爬取豆瓣指定书籍的短评 #!/usr/bin/python # coding=utf-8 import re import sys import time import random im ...
Python爬取豆瓣电影top
Python爬取豆瓣电影top250 下面以四种方法去解析数据,前面三种以插件库来解析,第四种以正则表达式去解析. xpath pyquery beaufifulsoup re 爬取信息:名称评分 ...
利用Python爬取豆瓣电影
目标:使用Python爬取豆瓣电影并保存MongoDB数据库中我们先来看一下通过浏览器的方式来筛选某些特定的电影: 我们把URL来复制出来分析分析: https://movie.douban.com ...
Python爬取豆瓣《复仇者联盟3》评论并生成乖萌的格鲁特
代码地址如下:http://www.demodashi.com/demo/13257.html 1. 需求说明本项目基于Python爬虫,爬取豆瓣电影上关于复仇者联盟3的所有影评,并保存至本地文件. ...
零基础爬虫----python爬取豆瓣电影top250的信息（转）
今天利用xpath写了一个小爬虫,比较适合一些爬虫新手来学习.话不多说,开始今天的正题,我会利用一个案例来介绍下xpath如何对网页进行解析的,以及如何对信息进行提取的. python环境:pytho ...
Python爬取豆瓣音乐存储MongoDB数据库(Python爬虫实战1)
1. 爬虫设计的技术 1)数据获取,通过http获取网站的数据,如urllib,urllib2,requests等模块: 2)数据提取,将web站点所获取的数据进行处理,获取所需要的数据,常使用的技 ...
python 爬取豆瓣电影评论，并进行词云展示及出现的问题解决办法
本文旨在提供爬取豆瓣电影<我不是药神>评论和词云展示的代码样例 1.分析URL 2.爬取前10页评论 3.进行词云展示 1.分析URL 我不是药神短评第一页url https://mo ...
python爬取豆瓣电影信息数据
题外话+ 大家好啊,最近自己在做一个属于自己的博客网站(准备辞职回家养老了,明年再战)在家里琐事也很多, 加上自己一回到家就懒了(主要是家里冷啊! 广东十几度,老家几度,躲在被窝瑟瑟发抖,) 由于 ...
python爬取豆瓣电影Top250（附完整源代码）
初学爬虫,学习一下三方库的使用以及简单静态网页的分析.就跟着视频写了一个爬取豆瓣Top250排行榜的爬虫. 网页分析我个人感觉写爬虫最重要的就是分析网页,找到网页的规律,找到自己需要内容所在的地方, ...

随机推荐

关于 HTTP GET/POST 请求参数长度最大值的一个理解误区（转载）
1. Get方法长度限制 Http Get方法提交的数据大小长度并没有限制,HTTP协议规范没有对URL长度进行限制.这个限制是特定的浏览器及服务器对它的限制.下面就是对各种浏览器和服务器的最大处理能 ...
重装mysql后导致Navicat连接失败
今天重装了mysql数据库,然后再使用navicat去连接数据库的时候,一直报错 1251 Client does not support authentication protocol reques ...
Python_面向对象基础
概念类一类抽象的事物,是描述了一类事物有哪些属性或者行为,但不是具体——模子. 实例一个依托于类的规范存在的,被赋予了具体属性值的实际存在的物体. 对象就是实例,实例的另外一个名称,相当于别名 ...
scp Permission denied
https://blog.csdn.net/xlgen157387/article/details/49818259
httpd sshd firewalld 服务后面的d的意思
在操作系统中,一般系统的服务都是以后台进程的方式存在,而且都会常驻系统中,直到关机才结束.这类服务也称Daemon,在Linux系统中就包含许多的Daemon. 判断Daemon最简单的方法就是从名称 ...
vue实现双向数据绑定之Object.defineProperty()篇
前言 vue.js中使用ES5的Object.defineProperty()实现数据的双向绑定 Object.defineProperty()原理 Object.defineProperty()可以 ...
[转帖]浏览器的F5和Ctrl+F5
浏览器的F5和Ctrl+F5 https://www.cnblogs.com/xiangcode/p/5369084.html 在浏览器里中,按F5键和按F5同时按住Ctrl键(简称Ctrl+F5), ...
JUnit测试提示Java.lang.Exception: No runnable methods
网上一大堆都说,没写@Test,或者是,导包错误,= =然而我并没有发现我有这个毛病 = =最后终于找到罪魁祸首 Junit版本太低!!! Junit版本太低!!! Junit版本太低!!! = =因 ...
关于Navicat连接虚拟机宝塔数据库
1.由于虚拟机安装的宝塔面板,目前没找到数据库安全配置文件,所以没能用Navicat连接数据库 2.在宝塔面板=>安全下放行 3306 端口即可以连接成功跟将bind-address = ...
js对字符串的一些操作方法
1.charCodeAt(index); 返回一个整数,代表下标位置上字符的Unicode的编码. 2.fromCharCode(code1,code2,code3,...); code1代表Unic ...

python爬取豆瓣前25个影片内容的正则表达式练习

python爬取豆瓣前25个影片内容的正则表达式练习的更多相关文章

随机推荐

热门专题