利用 requests 抓取豆瓣电影 Top 250:

import re
import requests def main(url):
global num
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36"}
req = requests.get(url, headers=headers)
pattern = re.compile(r"<span class=\"title\">(.*?)</span>", re.S)
for name in re.findall(pattern, req.text):
if name.startswith("&"):
continue
else:
print("%s: %s" % (num, name))
num += 1 if __name__ == '__main__':
num = 1
for i in range(0, 256, 25):
url = "https://movie.douban.com/top250?start=%s&filter=" % i
main(url)

执行结果:

: 肖申克的救赎
: 霸王别姬
: 这个杀手不太冷
: 阿甘正传
: 美丽人生
: 泰坦尼克号
: 千与千寻
: 辛德勒的名单
: 盗梦空间
: 忠犬八公的故事
: 机器人总动员
: 三傻大闹宝莱坞
: 海上钢琴师
: 放牛班的春天
: 楚门的世界
: 大话西游之大圣娶亲
: 星际穿越
: 龙猫
: 教父
: 熔炉
: 无间道
: 疯狂动物城
: 当幸福来敲门
: 怦然心动
: 触不可及
: 乱世佳人
: 蝙蝠侠:黑暗骑士
: 活着
: 少年派的奇幻漂流
: 天堂电影院
: 控方证人
: 鬼子来了
: 十二怒汉
: 指环王3:王者无敌
: 天空之城
: 飞屋环游记
: 摔跤吧!爸爸
: 大话西游之月光宝盒
: 搏击俱乐部
: 罗马假日
: 哈尔的移动城堡
: 闻香识女人
: 窃听风暴
: 辩护人
: 两杆大烟枪
: 飞越疯人院
: 死亡诗社
: 末代皇帝
: 指环王2:双塔奇兵
: V字仇杀队
: 教父2
: 素媛
: 指环王1:魔戒再现
: 海豚湾
: 饮食男女
: 美丽心灵
: 狮子王
: 情书
: 寻梦环游记
: 钢琴家
: 美国往事
: 本杰明·巴顿奇事
: 小鞋子
: 黑客帝国
: 西西里的美丽传说
: 看不见的客人
: 让子弹飞
: 拯救大兵瑞恩
: 致命魔术
: 大闹天宫
: 七宗罪
: 哈利·波特与魔法石
: 被嫌弃的松子的一生
: 音乐之声
: 低俗小说
: 天使爱美丽
: 沉默的羔羊
: 勇敢的心
: 剪刀手爱德华
: 蝴蝶效应
: 猫鼠游戏
: 春光乍泄
: 心灵捕手
: 布达佩斯大饭店
: 禁闭岛
: 入殓师
: 穿条纹睡衣的男孩
: 幽灵公主
: 阿凡达
: 阳光灿烂的日子
: 第六感
: 玛丽和马克思
: 致命ID
: 狩猎
: 重庆森林
: 断背山
: 加勒比海盗
: 摩登时代
: 告白
: 大鱼
: 喜剧之王
: 一一
: 消失的爱人
: 射雕英雄传之东成西就
: 阳光姐妹淘
: 甜蜜蜜
: 爱在黎明破晓前
: 小森林 夏秋篇
: 侧耳倾听
: 红辣椒
: 倩女幽魂
: 驯龙高手
: 恐怖直播
: 风之谷
: 上帝之城
: 请以你的名字呼唤我
: 超脱
: 爱在日落黄昏时
: 菊次郎的夏天
: 幸福终点站
: 哈利·波特与死亡圣器(下)
: 小森林 冬春篇
: 杀人回忆
: 神偷奶爸
: 借东西的小人阿莉埃蒂
: 7号房的礼物
: 怪兽电力公司
: 萤火之森
: 唐伯虎点秋香
: 岁月神偷
: 超能陆战队
: 蝙蝠侠:黑暗骑士崛起
: 七武士
: 电锯惊魂
: 真爱至上
: 谍影重重3
: 疯狂原始人
: 萤火虫之墓
: 喜宴
: 东邪西毒
: 贫民窟的百万富翁
: 英雄本色
: 黑天鹅
: 无人知晓
: 记忆碎片
: 心迷宫
: 血战钢锯岭
: 傲慢与偏见
: 雨人
: 时空恋旅人
: 荒蛮故事
: 纵横四海
: 教父3
: 卢旺达饭店
: 玩具总动员3
: 达拉斯买家俱乐部
: 花样年华
: 完美的世界
: 海边的曼彻斯特
: 海洋
: 虎口脱险
: 恋恋笔记本
: 你看起来好像很好吃
: 被解救的姜戈
: 燃情岁月
: 二十二
: 头脑特工队
: 冰川时代
: 无敌破坏王
: 雨中曲
: 我是山姆
: 你的名字。
: 人工智能
: 爆裂鼓手
: 穿越时空的少女
: 魂断蓝桥
: 未麻的部屋
: 猜火车
: 三块广告牌
: 模仿游戏
: 一个叫欧维的男人决定去死
: 房间
: 罗生门
: 忠犬八公物语
: 完美陌生人
: 恐怖游轮
: 阿飞正传
: 魔女宅急便
: 香水
: 朗读者
: 浪潮
: 哪吒闹海
: 可可西里
: 黑客帝国3:矩阵革命
: 海街日记
: 谍影重重
: 战争之王
: 谍影重重2
: 牯岭街少年杀人事件
: 地球上的星星
: 一次别离
: 追随
: 青蛇
: 惊魂记
: 终结者2:审判日
: 疯狂的石头
: 撞车
: 源代码
: 再次出发之纽约遇见你
: 小萝莉的猴神大叔
: 步履不停
: 新龙门客栈
: 初恋这件小事
: 梦之安魂曲
: 爱在午夜降临前
: 东京物语
: 无耻混蛋
: 城市之光
: 天书奇谭
: 绿里奇迹
: 彗星来的那一夜
: 这个男人来自地球
: 海蒂和爷爷
: E.T. 外星人
: 末路狂花
: 血钻
: 勇闯夺命岛
: 聚焦
: 变脸
: 2001太空漫游
: 发条橙
: 秒速5厘米
: 黄金三镖客
: 卡萨布兰卡
: 黑鹰坠落
: 非常嫌疑犯
: 国王的演讲
: 我爱你
: 美国丽人
: 千钧一发
: 碧海蓝天
: 遗愿清单
: 疯狂的麦克斯4:狂暴之路
: 功夫
: 荒岛余生
: 英国病人
: 荒野生存
: 海盗电台
: 枪火
: 勇士

Python3 抓取豆瓣电影Top250的更多相关文章

  1. python2.7抓取豆瓣电影top250

    利用python2.7抓取豆瓣电影top250 1.任务说明 抓取top100电影名称 依次打印输出 2.网页解析 要进行网络爬虫,利用工具(如浏览器)查看网页HTML文件的相关内容是很有必要,我使用 ...

  2. Python:python抓取豆瓣电影top250

    一直对爬虫感兴趣,学了python后正好看到某篇关于爬取的文章,就心血来潮实战一把吧. 实现目标:抓取豆瓣电影top250,并输出到文件中 1.找到对应的url:https://movie.douba ...

  3. Python小爬虫——抓取豆瓣电影Top250数据

    python抓取豆瓣电影Top250数据 1.豆瓣地址:https://movie.douban.com/top250?start=25&filter= 2.主要流程是抓取该网址下的Top25 ...

  4. Python爬虫----抓取豆瓣电影Top250

    有了上次利用python爬虫抓取糗事百科的经验,这次自己动手写了个爬虫抓取豆瓣电影Top250的简要信息. 1.观察url 首先观察一下网址的结构 http://movie.douban.com/to ...

  5. Python抓取豆瓣电影top250!

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理.作者:404notfound  一直对爬虫感兴趣,学了python后正好看到 ...

  6. 一起学爬虫——通过爬取豆瓣电影top250学习requests库的使用

    学习一门技术最快的方式是做项目,在做项目的过程中对相关的技术查漏补缺. 本文通过爬取豆瓣top250电影学习python requests的使用. 1.准备工作 在pycharm中安装request库 ...

  7. urllib+BeautifulSoup无登录模式爬取豆瓣电影Top250

    对于简单的爬虫任务,尤其对于初学者,urllib+BeautifulSoup足以满足大部分的任务. 1.urllib是Python3自带的库,不需要安装,但是BeautifulSoup却是需要安装的. ...

  8. python2.7爬取豆瓣电影top250并写入到TXT,Excel,MySQL数据库

    python2.7爬取豆瓣电影top250并分别写入到TXT,Excel,MySQL数据库 1.任务 爬取豆瓣电影top250 以txt文件保存 以Excel文档保存 将数据录入数据库 2.分析 电影 ...

  9. scrapy爬虫框架教程(二)-- 爬取豆瓣电影TOP250

    scrapy爬虫框架教程(二)-- 爬取豆瓣电影TOP250 前言 经过上一篇教程我们已经大致了解了Scrapy的基本情况,并写了一个简单的小demo.这次我会以爬取豆瓣电影TOP250为例进一步为大 ...

随机推荐

  1. dp之二维背包poj1837(天平问题 推荐)

    题意:给你c(2<=c<=20)个挂钩,g(2<=g<=20)个砝码,求在将所有砝码(砝码重1~~25)挂到天平(天平长  -15~~15)上,并使得天平平衡的方法数..... ...

  2. [转]一步一步部署SSIS包图解教程

    本文就SQL统计分析SSIS包的部署进行一次详细的部署图解教程,Sql Server Integration Services 提供了非常简单的部署工具,利用这些工具可以方便地将包文件(*.dtsx) ...

  3. Maven学习之(四)Maven插件创建web项目

    另一种maven web项目的创建. 创建出来的目录是这样的,此时试一下,不能加入到tomcat中去启动. 这里要将项目转化为web项目. 右键->项目 选中下面的动态web项目,然后OK 此时 ...

  4. oracle 制定定时任务

    本节摘要:本节介绍使用oracle自带的job来实现oracle定制定时执行任务.   1.引言 定制定时执行的任务有两种形式,系统级别和数据库级别, 从操作系统级别来讲, windows系统我们可以 ...

  5. 【Unity笔记】角色信息常用访问器get/set

    玩家角色Player的实体类演示. // 访问器函数:角色姓名 public string PlayerName { get { return playerName; } set { playerNa ...

  6. Idea配置sbt(window环境)

    近开发spark项目使用到scala语言,这里介绍如何在idea上使用sbt来编译项目. 开发环境:windows 1. 下载sbt http://www.scala-sbt.org/download ...

  7. elasticsearch安装与使用(5)-- search guard安装与配置

    一.安装search guard插件必须要安装两部分: ①search-guard-xx ②search-guard-ssl (XX指的是与elasticsearch引擎对应的版本) github地址 ...

  8. DIV内滚动条滚动到指定位置

    相对浏览器,将指定div滚到到指定位置,其用法如下: $("html,body").animate({scrollTop: $(obj).offset().top},speed); ...

  9. Python 随机数,break,continue

    #-*- coding:utf-8 -*- #导入模块 import random #打印10以内的随机数 num = 5 while num > 0: #random.randint(0,10 ...

  10. selenium测试(Java)(三)

    控制浏览器: http://www.cnblogs.com/moonpool/p/5657752.html