Python3 抓取豆瓣电影Top250

利用 requests 抓取豆瓣电影 Top 250：

import re

import requests

def main(url):

    global num

    headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36"}

    req = requests.get(url, headers=headers)

    pattern = re.compile(r"<span class=\"title\">(.*?)</span>", re.S)

    for name in re.findall(pattern, req.text):

        if name.startswith("&"):

            continue

        else:

            print("%s: %s" % (num, name))

            num += 1

if __name__ == '__main__':

    num = 1

    for i in range(0, 256, 25):

        url = "https://movie.douban.com/top250?start=%s&filter=" % i

        main(url)

执行结果：

: 肖申克的救赎

: 霸王别姬

: 这个杀手不太冷

: 阿甘正传

: 美丽人生

: 泰坦尼克号

: 千与千寻

: 辛德勒的名单

: 盗梦空间

: 忠犬八公的故事

: 机器人总动员

: 三傻大闹宝莱坞

: 海上钢琴师

: 放牛班的春天

: 楚门的世界

: 大话西游之大圣娶亲

: 星际穿越

: 龙猫

: 教父

: 熔炉

: 无间道

: 疯狂动物城

: 当幸福来敲门

: 怦然心动

: 触不可及

: 乱世佳人

: 蝙蝠侠：黑暗骑士

: 活着

: 少年派的奇幻漂流

: 天堂电影院

: 控方证人

: 鬼子来了

: 十二怒汉

: 指环王3：王者无敌

: 天空之城

: 飞屋环游记

: 摔跤吧！爸爸

: 大话西游之月光宝盒

: 搏击俱乐部

: 罗马假日

: 哈尔的移动城堡

: 闻香识女人

: 窃听风暴

: 辩护人

: 两杆大烟枪

: 飞越疯人院

: 死亡诗社

: 末代皇帝

: 指环王2：双塔奇兵

: V字仇杀队

: 教父2

: 素媛

: 指环王1：魔戒再现

: 海豚湾

: 饮食男女

: 美丽心灵

: 狮子王

: 情书

: 寻梦环游记

: 钢琴家

: 美国往事

: 本杰明·巴顿奇事

: 小鞋子

: 黑客帝国

: 西西里的美丽传说

: 看不见的客人

: 让子弹飞

: 拯救大兵瑞恩

: 致命魔术

: 大闹天宫

: 七宗罪

: 哈利·波特与魔法石

: 被嫌弃的松子的一生

: 音乐之声

: 低俗小说

: 天使爱美丽

: 沉默的羔羊

: 勇敢的心

: 剪刀手爱德华

: 蝴蝶效应

: 猫鼠游戏

: 春光乍泄

: 心灵捕手

: 布达佩斯大饭店

: 禁闭岛

: 入殓师

: 穿条纹睡衣的男孩

: 幽灵公主

: 阿凡达

: 阳光灿烂的日子

: 第六感

: 玛丽和马克思

: 致命ID

: 狩猎

: 重庆森林

: 断背山

: 加勒比海盗

: 摩登时代

: 告白

: 大鱼

: 喜剧之王

: 一一

: 消失的爱人

: 射雕英雄传之东成西就

: 阳光姐妹淘

: 甜蜜蜜

: 爱在黎明破晓前

: 小森林 夏秋篇

: 侧耳倾听

: 红辣椒

: 倩女幽魂

: 驯龙高手

: 恐怖直播

: 风之谷

: 上帝之城

: 请以你的名字呼唤我

: 超脱

: 爱在日落黄昏时

: 菊次郎的夏天

: 幸福终点站

: 哈利·波特与死亡圣器(下)

: 小森林 冬春篇

: 杀人回忆

: 神偷奶爸

: 借东西的小人阿莉埃蒂

: 7号房的礼物

: 怪兽电力公司

: 萤火之森

: 唐伯虎点秋香

: 岁月神偷

: 超能陆战队

: 蝙蝠侠：黑暗骑士崛起

: 七武士

: 电锯惊魂

: 真爱至上

: 谍影重重3

: 疯狂原始人

: 萤火虫之墓

: 喜宴

: 东邪西毒

: 贫民窟的百万富翁

: 英雄本色

: 黑天鹅

: 无人知晓

: 记忆碎片

: 心迷宫

: 血战钢锯岭

: 傲慢与偏见

: 雨人

: 时空恋旅人

: 荒蛮故事

: 纵横四海

: 教父3

: 卢旺达饭店

: 玩具总动员3

: 达拉斯买家俱乐部

: 花样年华

: 完美的世界

: 海边的曼彻斯特

: 海洋

: 虎口脱险

: 恋恋笔记本

: 你看起来好像很好吃

: 被解救的姜戈

: 燃情岁月

: 二十二

: 头脑特工队

: 冰川时代

: 无敌破坏王

: 雨中曲

: 我是山姆

: 你的名字。

: 人工智能

: 爆裂鼓手

: 穿越时空的少女

: 魂断蓝桥

: 未麻的部屋

: 猜火车

: 三块广告牌

: 模仿游戏

: 一个叫欧维的男人决定去死

: 房间

: 罗生门

: 忠犬八公物语

: 完美陌生人

: 恐怖游轮

: 阿飞正传

: 魔女宅急便

: 香水

: 朗读者

: 浪潮

: 哪吒闹海

: 可可西里

: 黑客帝国3：矩阵革命

: 海街日记

: 谍影重重

: 战争之王

: 谍影重重2

: 牯岭街少年杀人事件

: 地球上的星星

: 一次别离

: 追随

: 青蛇

: 惊魂记

: 终结者2：审判日

: 疯狂的石头

: 撞车

: 源代码

: 再次出发之纽约遇见你

: 小萝莉的猴神大叔

: 步履不停

: 新龙门客栈

: 初恋这件小事

: 梦之安魂曲

: 爱在午夜降临前

: 东京物语

: 无耻混蛋

: 城市之光

: 天书奇谭

: 绿里奇迹

: 彗星来的那一夜

: 这个男人来自地球

: 海蒂和爷爷

: E.T. 外星人

: 末路狂花

: 血钻

: 勇闯夺命岛

: 聚焦

: 变脸

: 2001太空漫游

: 发条橙

: 秒速5厘米

: 黄金三镖客

: 卡萨布兰卡

: 黑鹰坠落

: 非常嫌疑犯

: 国王的演讲

: 我爱你

: 美国丽人

: 千钧一发

: 碧海蓝天

: 遗愿清单

: 疯狂的麦克斯4：狂暴之路

: 功夫

: 荒岛余生

: 英国病人

: 荒野生存

: 海盗电台

: 枪火

: 勇士

Python3 抓取豆瓣电影Top250的更多相关文章

python2.7抓取豆瓣电影top250
利用python2.7抓取豆瓣电影top250 1.任务说明抓取top100电影名称依次打印输出 2.网页解析要进行网络爬虫,利用工具(如浏览器)查看网页HTML文件的相关内容是很有必要,我使用 ...
Python：python抓取豆瓣电影top250
一直对爬虫感兴趣,学了python后正好看到某篇关于爬取的文章,就心血来潮实战一把吧. 实现目标:抓取豆瓣电影top250,并输出到文件中 1.找到对应的url:https://movie.douba ...
Python小爬虫——抓取豆瓣电影Top250数据
python抓取豆瓣电影Top250数据 1.豆瓣地址:https://movie.douban.com/top250?start=25&filter= 2.主要流程是抓取该网址下的Top25 ...
Python爬虫----抓取豆瓣电影Top250
有了上次利用python爬虫抓取糗事百科的经验,这次自己动手写了个爬虫抓取豆瓣电影Top250的简要信息. 1.观察url 首先观察一下网址的结构 http://movie.douban.com/to ...
Python抓取豆瓣电影top250!
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理.作者:404notfound 一直对爬虫感兴趣,学了python后正好看到 ...
一起学爬虫——通过爬取豆瓣电影top250学习requests库的使用
学习一门技术最快的方式是做项目,在做项目的过程中对相关的技术查漏补缺. 本文通过爬取豆瓣top250电影学习python requests的使用. 1.准备工作在pycharm中安装request库 ...
urllib+BeautifulSoup无登录模式爬取豆瓣电影Top250
对于简单的爬虫任务,尤其对于初学者,urllib+BeautifulSoup足以满足大部分的任务. 1.urllib是Python3自带的库,不需要安装,但是BeautifulSoup却是需要安装的. ...
python2.7爬取豆瓣电影top250并写入到TXT，Excel，MySQL数据库
python2.7爬取豆瓣电影top250并分别写入到TXT,Excel,MySQL数据库 1.任务爬取豆瓣电影top250 以txt文件保存以Excel文档保存将数据录入数据库 2.分析电影 ...
scrapy爬虫框架教程（二）-- 爬取豆瓣电影TOP250
scrapy爬虫框架教程(二)-- 爬取豆瓣电影TOP250 前言经过上一篇教程我们已经大致了解了Scrapy的基本情况,并写了一个简单的小demo.这次我会以爬取豆瓣电影TOP250为例进一步为大 ...

随机推荐

js中引号("")中间设置变量
JAVA经典算法40题面向过程
JAVA经典算法40题 [程序1] 题目:古典问题:有一对兔子,从出生后第3个月起每个月都生一对兔子,小兔子长到第四个月后每个月又生一对兔子,假如兔子都不死,问每个月的兔子总数为多少? 1.程序分 ...
golang socket 实现分析(一)
socket:tcp/udp.ip构成了网络通信的基石,tcp/ip是面向连接的通信协议要求建立连接时进行3次握手确保连接已被建立,关闭连接时需要4次通信来保证客户端和,服务端都已经关闭在通信过程 ...
欢迎使用markdowm编辑器
欢迎使用Markdown编辑器写博客 [Mark一下CSDN用Markdown的写法而已] 本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦: Markdown ...
java中volatile关键字的含义<转>
在java线程并发处理中,有一个关键字volatile的使用目前存在很大的混淆,以为使用这个关键字,在进行多线程并发处理的时候就可以万事大吉. Java语言是支持多线程的,为了解决线程并发的问题,在语 ...
.net 高级写法总结
1.处理HTTP非正常的请求参数: [1] 获取相应的流转为string [2] request 的只读属性设置为可编辑,类似form [3] 转换为json对象 [4] 重设只读属性 //判断请求类 ...
[随想感悟] 面试时，问哪些问题能试出一个 Android 应用开发者真正的水平？【转自知乎】
这几年面过的各种Android开发也有三位数了,failed的不敢说,pass的基本都没有看走眼,来得晚了也想说说我的体会. 一般面试时间短则30分钟,多则1个小时,这么点时间要全面考察一个人难度很大 ...
释放Ubuntu/Linux系统cache，增加可用内存空间
某台式机Ubuntu内存共3G,但free的内存只有200M,无法满足scala的jvm需求. 注意用top命令查看才能看到真正的free内存.下面是查看真正内存使用量的另一种命令. watch -n ...
编写一个Filter，除继承HttpServlet类外还需要（）。
A．继承Filter 类 B．实现Filter 接口 C．继承HttpFilter 类 D．实现HttpFilter接口解答:B
linux -- 修改文件
vi编辑器有三种模式:命令模式,编辑模式,末行模式打开vi后首先是命令模式,用i,o,a等进入编辑模式, 按esc退出编辑模式,回到命令模式. 在命令模式下输入:wq表示保存退出,:wq!强制保存退 ...

Python3 抓取豆瓣电影Top250

Python3 抓取豆瓣电影Top250的更多相关文章

随机推荐

热门专题