python学习（七）--豆瓣爬取电影名，评分以及演员

import requests
import re

#爬取豆瓣电影排名
pageNum = int(input("要查看第几页电影分数："))
#已知豆瓣默认每页展示20条
#url= "https://movie.douban.com/j/chart/top_list?type=11&interval_id=100%3A90&action=&start=0&limit=20"
url= "https://movie.douban.com/j/chart/top_list?type=11&interval_id=100%3A90&action=&start="+str((pageNum-1)*20)+"&limit=20"
#评分  "rating":["9.6","50"]   此处有中括号[]，尽管加了r表示不转译，但是不加斜杠\，仍然匹配不到。
pattern1 = r'"rating":\["(.*?)","\d+"\]'
#电影名
pattern2 = r'"title":"(.*?)"'
#电影演员
pattern3 = r'"actors":\[(.*?)\]'
data = requests.get(url).text
print(data)
pat1 = re.compile(pattern1)
pat2 = re.compile(pattern2)
pat3 = re.compile(pattern3)
list1 = pat1.findall(data)
list2 = pat2.findall(data)
list3 = pat3.findall(data)
print(list1)
print(list2)
print(list3)
list = []
for i in range(0,len(list1)):
    list.append(list2[i]+":"+list1[i]+"分，演员："+list3[i])

print("---------------------------------------------")
for i in list:
    print(i)

python学习（七）--豆瓣爬取电影名，评分以及演员的更多相关文章

一个简单python爬虫的实现——爬取电影信息
最近在学习网络爬虫,完成了一个比较简单的python网络爬虫.首先为什么要用爬虫爬取信息呢,当然是因为要比人去收集更高效. 网络爬虫,可以理解为自动帮你在网络上收集数据的机器人. 网络爬虫简单可以大致 ...
python学习--第二天爬取王者荣耀英雄皮肤
今天目的是爬取所有英雄皮肤在爬取所有之前,先完成一张皮肤的爬取打开anacond调出编译器Jupyter Notebook 打开王者荣耀官网下拉找到位于网页右边的英雄/皮肤点击[+更多] 进入 ...
Python学习 —— 爬虫入门 - 爬取Pixiv每日排行中的图片
更新于 2019-01-30 16:30:55 我另外写了一个面向 pixiv 的库:pixiver 支持通过作品 ID 获取相关信息.下载等,支持通过日期浏览各种排行榜(包括R-18),支持通过 p ...
吴裕雄--天生自然python学习笔记：爬取我国 1990 年到 2017年 GDP 数据并绘图显示
绘制图形所需的数据源通常是不固定的,比如,有时我们会需要从网页抓取, 也可能需从文件或数据库中获取. 利用抓取网页数据技术,把我国 1990 年到 2016 年的 GDP 数据抓取出来 ,再利用 Ma ...
Python学习笔记之爬取网页保存到本地文件
爬虫的操作步骤: 爬虫三步走爬虫第一步:使用requests获得数据: (request库需要提前安装,通过pip方式,参考之前的博文) 1.导入requests 2.使用requests.get ...
Python爬虫教程-17-ajax爬取实例（豆瓣电影）
Python爬虫教程-17-ajax爬取实例(豆瓣电影) ajax: 简单的说,就是一段js代码,通过这段代码,可以让页面发送异步的请求,或者向服务器发送一个东西,即和服务器进行交互对于ajax: ...
Python爬取电影天堂指定电视剧或者电影
1.分析搜索请求一位高人曾经说过,想爬取数据,要先分析网站今天我们爬取电影天堂,有好看的美剧我在上面都能找到,算是很全了. 这个网站的广告出奇的多,用过都知道,点一下搜索就会弹出个窗口,伴随着滑稽 ...
Python爬虫实例：爬取猫眼电影——破解字体反爬
字体反爬字体反爬也就是自定义字体反爬,通过调用自定义的字体文件来渲染网页中的文字,而网页中的文字不再是文字,而是相应的字体编码,通过复制或者简单的采集是无法采集到编码后的文字内容的. 现在貌似不少网 ...
Python爬虫实例：爬取豆瓣Top250
入门第一个爬虫一般都是爬这个,实在是太简单.用了 requests 和 bs4 库. 1.检查网页元素,提取所需要的信息并保存.这个用 bs4 就可以,前面的文章中已经有详细的用法阐述. 2.找到下一 ...

随机推荐

Unity---动画系统学习(2)---模型3种导入方式、人形动画介绍、切割动画
1. 介绍 Unity中导入的模型主要是由3DMAX.Maya等建模软件制作的,后缀为.fbx的文件. 博主在Unity Asset Store里面下载了一套官方免费的模型和动画. 和一套地图,分享给 ...
最短路径SPFA算法（邻接表存法）
queue <int> Q; void SPFA (int s) { int i, v; for(int i=0; i<=n; i++) dist[i]=INF; //初始化每点i到 ...
SDUT OJ 数据结构实验之二叉树八：（中序后序）求二叉树的深度
数据结构实验之二叉树八:(中序后序)求二叉树的深度 Time Limit: 1000 ms Memory Limit: 65536 KiB Submit Statistic Discuss Probl ...
蓝牙4.0BLE抓包(三) – 扫描请求和扫描响应
版权声明:本文为博主原创文章,转载请注明作者和出处. 作者:强光手电[艾克姆科技-无线事业部] 1. 扫描请求和扫描响应广播包含扫描请求SCAN_REQ和扫描响应SCAN_RSP. 扫描请求: ...
js 封装一个均速动画函数
//动画函数---任意一个元素移动到指定的目标位置 //element为元素 target为位置 function carToon(element, target) { //设置一个定时器让他循环去增 ...
scrollView - tableView - collectionView 滚动视图的滚动速度
介绍: 每次滚动都会触发 didScroll 这个方法, 每次滚动都会有一个偏移量,滚动的快慢决定每一次偏移量的大小,可以通过两次滚动偏移量差,判断速度,从而根据速度大小对导航栏做一些操作 { CGF ...
C++11 中的 Defaulted 和 Deleted 函数
http://blog.jobbole.com/103669/ C++11 中的 Defaulted 和 Deleted 函数 2016/07/21 · C/C++, 开发 · C++ 分享到:3 ...
RPC 框架应用
RPC RPC(Remote Procedure Call)服务,也即远程过程调用,在互联网企业技术架构中占据了举足轻重的地位,尤其在当下微服务化逐步成为大中型分布式系统架构的主流背景下,RPC 更扮 ...
MYSQL常用查命令
MYSQL常用查命令 mysql> select version(); 查看MySQL的版本号 mysql> select current_date(); 查看 ...
vue项目构建过程
# template 模版项目 > A Vue.js project* 构建过程* 安装过程* 差异点* 打包优化 ## 构建过程```bashbogon:vue-cli caoke$ vue ...

python学习（七）--豆瓣爬取电影名，评分以及演员

python学习（七）--豆瓣爬取电影名，评分以及演员的更多相关文章

随机推荐

热门专题