利用 requests 抓取豆瓣电影 Top 250:

import re
import requests def main(url):
global num
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36"}
req = requests.get(url, headers=headers)
pattern = re.compile(r"<span class=\"title\">(.*?)</span>", re.S)
for name in re.findall(pattern, req.text):
if name.startswith("&"):
continue
else:
print("%s: %s" % (num, name))
num += 1 if __name__ == '__main__':
num = 1
for i in range(0, 256, 25):
url = "https://movie.douban.com/top250?start=%s&filter=" % i
main(url)

执行结果:

: 肖申克的救赎
: 霸王别姬
: 这个杀手不太冷
: 阿甘正传
: 美丽人生
: 泰坦尼克号
: 千与千寻
: 辛德勒的名单
: 盗梦空间
: 忠犬八公的故事
: 机器人总动员
: 三傻大闹宝莱坞
: 海上钢琴师
: 放牛班的春天
: 楚门的世界
: 大话西游之大圣娶亲
: 星际穿越
: 龙猫
: 教父
: 熔炉
: 无间道
: 疯狂动物城
: 当幸福来敲门
: 怦然心动
: 触不可及
: 乱世佳人
: 蝙蝠侠:黑暗骑士
: 活着
: 少年派的奇幻漂流
: 天堂电影院
: 控方证人
: 鬼子来了
: 十二怒汉
: 指环王3:王者无敌
: 天空之城
: 飞屋环游记
: 摔跤吧!爸爸
: 大话西游之月光宝盒
: 搏击俱乐部
: 罗马假日
: 哈尔的移动城堡
: 闻香识女人
: 窃听风暴
: 辩护人
: 两杆大烟枪
: 飞越疯人院
: 死亡诗社
: 末代皇帝
: 指环王2:双塔奇兵
: V字仇杀队
: 教父2
: 素媛
: 指环王1:魔戒再现
: 海豚湾
: 饮食男女
: 美丽心灵
: 狮子王
: 情书
: 寻梦环游记
: 钢琴家
: 美国往事
: 本杰明·巴顿奇事
: 小鞋子
: 黑客帝国
: 西西里的美丽传说
: 看不见的客人
: 让子弹飞
: 拯救大兵瑞恩
: 致命魔术
: 大闹天宫
: 七宗罪
: 哈利·波特与魔法石
: 被嫌弃的松子的一生
: 音乐之声
: 低俗小说
: 天使爱美丽
: 沉默的羔羊
: 勇敢的心
: 剪刀手爱德华
: 蝴蝶效应
: 猫鼠游戏
: 春光乍泄
: 心灵捕手
: 布达佩斯大饭店
: 禁闭岛
: 入殓师
: 穿条纹睡衣的男孩
: 幽灵公主
: 阿凡达
: 阳光灿烂的日子
: 第六感
: 玛丽和马克思
: 致命ID
: 狩猎
: 重庆森林
: 断背山
: 加勒比海盗
: 摩登时代
: 告白
: 大鱼
: 喜剧之王
: 一一
: 消失的爱人
: 射雕英雄传之东成西就
: 阳光姐妹淘
: 甜蜜蜜
: 爱在黎明破晓前
: 小森林 夏秋篇
: 侧耳倾听
: 红辣椒
: 倩女幽魂
: 驯龙高手
: 恐怖直播
: 风之谷
: 上帝之城
: 请以你的名字呼唤我
: 超脱
: 爱在日落黄昏时
: 菊次郎的夏天
: 幸福终点站
: 哈利·波特与死亡圣器(下)
: 小森林 冬春篇
: 杀人回忆
: 神偷奶爸
: 借东西的小人阿莉埃蒂
: 7号房的礼物
: 怪兽电力公司
: 萤火之森
: 唐伯虎点秋香
: 岁月神偷
: 超能陆战队
: 蝙蝠侠:黑暗骑士崛起
: 七武士
: 电锯惊魂
: 真爱至上
: 谍影重重3
: 疯狂原始人
: 萤火虫之墓
: 喜宴
: 东邪西毒
: 贫民窟的百万富翁
: 英雄本色
: 黑天鹅
: 无人知晓
: 记忆碎片
: 心迷宫
: 血战钢锯岭
: 傲慢与偏见
: 雨人
: 时空恋旅人
: 荒蛮故事
: 纵横四海
: 教父3
: 卢旺达饭店
: 玩具总动员3
: 达拉斯买家俱乐部
: 花样年华
: 完美的世界
: 海边的曼彻斯特
: 海洋
: 虎口脱险
: 恋恋笔记本
: 你看起来好像很好吃
: 被解救的姜戈
: 燃情岁月
: 二十二
: 头脑特工队
: 冰川时代
: 无敌破坏王
: 雨中曲
: 我是山姆
: 你的名字。
: 人工智能
: 爆裂鼓手
: 穿越时空的少女
: 魂断蓝桥
: 未麻的部屋
: 猜火车
: 三块广告牌
: 模仿游戏
: 一个叫欧维的男人决定去死
: 房间
: 罗生门
: 忠犬八公物语
: 完美陌生人
: 恐怖游轮
: 阿飞正传
: 魔女宅急便
: 香水
: 朗读者
: 浪潮
: 哪吒闹海
: 可可西里
: 黑客帝国3:矩阵革命
: 海街日记
: 谍影重重
: 战争之王
: 谍影重重2
: 牯岭街少年杀人事件
: 地球上的星星
: 一次别离
: 追随
: 青蛇
: 惊魂记
: 终结者2:审判日
: 疯狂的石头
: 撞车
: 源代码
: 再次出发之纽约遇见你
: 小萝莉的猴神大叔
: 步履不停
: 新龙门客栈
: 初恋这件小事
: 梦之安魂曲
: 爱在午夜降临前
: 东京物语
: 无耻混蛋
: 城市之光
: 天书奇谭
: 绿里奇迹
: 彗星来的那一夜
: 这个男人来自地球
: 海蒂和爷爷
: E.T. 外星人
: 末路狂花
: 血钻
: 勇闯夺命岛
: 聚焦
: 变脸
: 2001太空漫游
: 发条橙
: 秒速5厘米
: 黄金三镖客
: 卡萨布兰卡
: 黑鹰坠落
: 非常嫌疑犯
: 国王的演讲
: 我爱你
: 美国丽人
: 千钧一发
: 碧海蓝天
: 遗愿清单
: 疯狂的麦克斯4:狂暴之路
: 功夫
: 荒岛余生
: 英国病人
: 荒野生存
: 海盗电台
: 枪火
: 勇士

Python3 抓取豆瓣电影Top250的更多相关文章

  1. python2.7抓取豆瓣电影top250

    利用python2.7抓取豆瓣电影top250 1.任务说明 抓取top100电影名称 依次打印输出 2.网页解析 要进行网络爬虫,利用工具(如浏览器)查看网页HTML文件的相关内容是很有必要,我使用 ...

  2. Python:python抓取豆瓣电影top250

    一直对爬虫感兴趣,学了python后正好看到某篇关于爬取的文章,就心血来潮实战一把吧. 实现目标:抓取豆瓣电影top250,并输出到文件中 1.找到对应的url:https://movie.douba ...

  3. Python小爬虫——抓取豆瓣电影Top250数据

    python抓取豆瓣电影Top250数据 1.豆瓣地址:https://movie.douban.com/top250?start=25&filter= 2.主要流程是抓取该网址下的Top25 ...

  4. Python爬虫----抓取豆瓣电影Top250

    有了上次利用python爬虫抓取糗事百科的经验,这次自己动手写了个爬虫抓取豆瓣电影Top250的简要信息. 1.观察url 首先观察一下网址的结构 http://movie.douban.com/to ...

  5. Python抓取豆瓣电影top250!

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理.作者:404notfound  一直对爬虫感兴趣,学了python后正好看到 ...

  6. 一起学爬虫——通过爬取豆瓣电影top250学习requests库的使用

    学习一门技术最快的方式是做项目,在做项目的过程中对相关的技术查漏补缺. 本文通过爬取豆瓣top250电影学习python requests的使用. 1.准备工作 在pycharm中安装request库 ...

  7. urllib+BeautifulSoup无登录模式爬取豆瓣电影Top250

    对于简单的爬虫任务,尤其对于初学者,urllib+BeautifulSoup足以满足大部分的任务. 1.urllib是Python3自带的库,不需要安装,但是BeautifulSoup却是需要安装的. ...

  8. python2.7爬取豆瓣电影top250并写入到TXT,Excel,MySQL数据库

    python2.7爬取豆瓣电影top250并分别写入到TXT,Excel,MySQL数据库 1.任务 爬取豆瓣电影top250 以txt文件保存 以Excel文档保存 将数据录入数据库 2.分析 电影 ...

  9. scrapy爬虫框架教程(二)-- 爬取豆瓣电影TOP250

    scrapy爬虫框架教程(二)-- 爬取豆瓣电影TOP250 前言 经过上一篇教程我们已经大致了解了Scrapy的基本情况,并写了一个简单的小demo.这次我会以爬取豆瓣电影TOP250为例进一步为大 ...

随机推荐

  1. 【Java】包装类总结

    Java语言是一个面向对象的语言,但是Java中的基本数据类型却是不面向对象的,这在实际使用时存在很多的不便,为了解决这个不足,在设计类时为每个基本数据类型设计了一个对应的类进行代表,这样八个和基本数 ...

  2. 访问控制列表-基于IP

    [总结] 在交换机1上划分vlan然后把fa0/1接口设置为trunk周围几个接口都设置为access.在RA上划分四个逻辑口(就是小数点的那些接口).然后RA和RB都做ospf就可以ping同. 最 ...

  3. plsql 只能识别32位的oracle解决办法

    http://www.cnblogs.com/ymj126/p/3712727.html#undefined

  4. 【C#/WPF】调节图像的对比度(Contrast)

    关于对比度: 调节对比度直观感受是,高对比度的图像明暗关系更明显,色彩更鲜艳:低对比度的图像表面像是蒙上一层灰,色彩不鲜艳. 需求: 制作一个面板,一个滑动条,拖动滑动条可以修改目标图片的对比度. 资 ...

  5. u-boot源码分析

    Uboot源码分析 源码以u-boot-1.3.4为基准,主芯片采用at91sam9260,主要介绍uboot执行流程. uboot官网:http://www.denx.de/wiki/U-Boot/ ...

  6. Hive UDF IP解析(二):使用geoip2数据库自定义UDF

    开发中经常会碰到将IP转为地域的问题,所以以下记录Hive中自定义UDF来解析IP. 使用到的地域库位maxmind公司的geoIP2数据库,分为免费版GeoLite2-City.mmdb和收费版Ge ...

  7. MVC教程三:URL匹配

    1.使用{parameter}做模糊匹配 {parameter}:花括弧加任意长度的字符串,字符串不能定义成controller和action字母.默认的就是模糊匹配. 例如:{admin}. usi ...

  8. -27979 LoadRunner 错误27979 找不到请求表单 Action.c(73): Error -27979: Requested form not found

    LoadRunner请求无法找到:在录制Web协议脚本回放脚本的过程中,会出现请求无法找到的现象,而导致脚本运行停止. 错误现象:Action.c(41): Error -27979: Request ...

  9. 【转】Microsoft .Net Remoting之Remoting事件处理全接触

    Remoting事件处理全接触 前言:在Remoting中处理事件其实并不复杂,但其中有些技巧需要你去挖掘出来.正是这些技巧,仿佛森严的壁垒,让许多人望而生畏,或者是不知所谓,最后放弃了事件在Remo ...

  10. 【Java面试题】42 TreeSet里面放对象,如果同时放入了父类和子类的实例对象,那比较时使用的是父类的compareTo方法,还是使用的子类的compareTo方法,还是抛异常!

    应该是没有针对问题的确切的答案,当前的add方法放入的是哪个对象,就调用哪个对象的compareTo方法,至于这个compareTo方法怎么做,就看当前这个对象的类中是如何编写这个方法的 试验如下: ...