python爬虫https://www.imdb.com/chart/top的电影

目标：爬取https://www.imdb.com/chart/top网页上面的电影top20

直接上main.py代码：

 #!/usr/bin/python35

 # -*- coding:utf-8 -*-

 # author: "Keekuun"

 import requests

 from lxml import html

 from download import download_url #download.py

 # 传入网址

 url = 'https://www.imdb.com/chart/top'

 headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36'}

 # 下载网页

 req = download_url(url, headers)

 tree = html.fromstring(req)

 xpath_x = '//*[@id="main"]/div/span/div/div/div[3]/table/tbody/tr'

 def info(x):

     # 下载排行  #strip() 方法用于移除字符串头尾指定的字符（默认为空格或换行符）。后面加上“text()”获取内容

     rank = tree.xpath(xpath_x + '[{}]/td[2]/text()'.format(x))[0].strip().strip('.')

     # print(rank)

     # 下载电影名

     name = tree.xpath(xpath_x + '[{}]/td[2]/a/text()'.format(x))[0]

     # print(name)

     # 下载电影评分

     score = tree.xpath(xpath_x + '[{}]/ td[3]/strong/text()'.format(x))[0]

     # print(score)

     # 下载电影海报链接。后面加上“@src”获取内容

     img_url = tree.xpath(xpath_x + '[{}]/td[1]/a/img/@src'.format(x))[0]

     # print(img_url)

     info = {

         'movie_rank':rank,

         'movie_name':name,

         'movie_score':score,

         'movie_img_url':img_url

     }

     return info

 with open('top_movie.txt','a',encoding='utf-8') as f:

     for x in range(1,21):

         movie = info(str(x))

         print(movie)

         movie_str ='Rank:{}\t Name:{}\t Score:{}\t ImgUrl:{}'.format(

             movie['movie_rank'],

             movie['movie_name'],

             movie['movie_score'],

             movie['movie_img_url']

         )

         f.write(movie_str + '\n')# 不可直接写入字典，必须为str

download.py代码部分：

#!/usr/bin/python35

# -*- coding:utf-8 -*-

# author: "Keekuun"

import requests

def download_url(url,headers):

    req = requests.get(url,headers)

    return req.content

def download_img(url,path):

    headers = {

        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36'}

    img = download_url(url,headers)

    with open(path,'wb') as f:  # “wb”方式打开文件

        f.write(img)

img.py保存图片：

 #!/usr/bin/python35

 # -*- coding:utf-8 -*-

 # author: "Keekuun"

 from download import download_img

 import os

 path = 'Movie_img'

 if not os.path.isdir(path):

     os.mkdir(path)

 # 打开main.py保存的top_movie.txt,从中获取图片现在地址

 with open('top_movie.txt','r',encoding='utf-8') as f:

     for x in f.readlines():

         rank = x.split(' ')[0].strip('Rank:').strip('\t')

         print(rank)

         img = x.split(' ')[-1].strip('ImgUrl:').strip()

         path = os.path.join('Movie_img/','{}.jpg'.format(rank))

         download_img(img, path)

结果：

top_movie.txt：

Rank:1 Name:The Shawshank Redemption Score:9.2 ImgUrl:https://ia.media-imdb.com/images/M/MV5BMDFkYTc0MGEtZmNhMC00ZDIzLWFmNTEtODM1ZmRlYWMwMWFmXkEyXkFqcGdeQXVyMTMxODk2OTU@._V1_UY67_CR0,0,45,67_AL_.jpg
Rank:2 Name:The Godfather Score:9.2 ImgUrl:https://ia.media-imdb.com/images/M/MV5BM2MyNjYxNmUtYTAwNi00MTYxLWJmNWYtYzZlODY3ZTk3OTFlXkEyXkFqcGdeQXVyNzkwMjQ5NzM@._V1_UY67_CR1,0,45,67_AL_.jpg
Rank:3 Name:The Godfather: Part II Score:9.0 ImgUrl:https://ia.media-imdb.com/images/M/MV5BMWMwMGQzZTItY2JlNC00OWZiLWIyMDctNDk2ZDQ2YjRjMWQ0XkEyXkFqcGdeQXVyNzkwMjQ5NzM@._V1_UY67_CR1,0,45,67_AL_.jpg
Rank:4 Name:The Dark Knight Score:9.0 ImgUrl:https://ia.media-imdb.com/images/M/MV5BMTMxNTMwODM0NF5BMl5BanBnXkFtZTcwODAyMTk2Mw@@._V1_UY67_CR0,0,45,67_AL_.jpg
Rank:5 Name:12 Angry Men Score:8.9 ImgUrl:https://ia.media-imdb.com/images/M/MV5BMWU4N2FjNzYtNTVkNC00NzQ0LTg0MjAtYTJlMjFhNGUxZDFmXkEyXkFqcGdeQXVyNjc1NTYyMjg@._V1_UX45_CR0,0,45,67_AL_.jpg
Rank:6 Name:Schindler's List Score:8.9 ImgUrl:https://ia.media-imdb.com/images/M/MV5BNDE4OTMxMTctNmRhYy00NWE2LTg3YzItYTk3M2UwOTU5Njg4XkEyXkFqcGdeQXVyNjU0OTQ0OTY@._V1_UX45_CR0,0,45,67_AL_.jpg
Rank:7 Name:The Lord of the Rings: The Return of the King Score:8.9 ImgUrl:https://ia.media-imdb.com/images/M/MV5BNzA5ZDNlZWMtM2NhNS00NDJjLTk4NDItYTRmY2EwMWZlMTY3XkEyXkFqcGdeQXVyNzkwMjQ5NzM@._V1_UY67_CR0,0,45,67_AL_.jpg
........

Movie_img：电影海报
1.jpg
2.jpg
3.jpg
.....
结果如下：

python爬虫https://www.imdb.com/chart/top的电影的更多相关文章

Python爬虫教程-17-ajax爬取实例（豆瓣电影）
Python爬虫教程-17-ajax爬取实例(豆瓣电影) ajax: 简单的说,就是一段js代码,通过这段代码,可以让页面发送异步的请求,或者向服务器发送一个东西,即和服务器进行交互对于ajax: ...
Python爬虫实现抓取腾讯视频所有电影【实战必学】
2019-06-27 23:51:51 阅读数 407 收藏更多分类专栏: python爬虫前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问 ...
python爬虫实战获取豆瓣排名前250的电影信息--基于正则表达式
一.项目目标爬取豆瓣TOP250电影的评分.评价人数.短评等信息,并在其保存在txt文件中,html解析方式基于正则表达式二.确定页面内容爬虫地址:https://movie.douban.co ...
python爬虫入门新手向实战 - 爬取猫眼电影Top100排行榜
本次主要爬取Top100电影榜单的电影名.主演和上映时间, 同时保存为excel表个形式, 其他相似榜单也都可以依葫芦画瓢首先打开要爬取的网址https://maoyan.com/board/4, ...
Python爬虫实战之Requests+正则表达式爬取猫眼电影Top100
import requests from requests.exceptions import RequestException import re import json # from multip ...
Python爬虫编程常见问题解决方法
Python爬虫编程常见问题解决方法: 1.通用的解决方案: [按住Ctrl键不送松],同时用鼠标点击[方法名],查看文档 2.TypeError: POST data should be bytes ...
Python爬虫教程-01-爬虫介绍
Spider-01-爬虫介绍 Python 爬虫的知识量不是特别大,但是需要不停和网页打交道,每个网页情况都有所差异,所以对应变能力有些要求爬虫准备工作参考资料精通Python爬虫框架Scrap ...
Python爬虫教程-00-写在前面
鉴于好多人想学Python爬虫,缺没有简单易学的教程,我将在CSDN和大家分享Python爬虫的学习笔记,不定期更新基础要求 Python 基础知识 Python 的基础知识,大家可以去菜鸟教程进行 ...
Python爬虫入门之如何在豆瓣中获取自己喜欢的TOP N电影信息
什么是爬虫按照一定规则自动的获取互联网上的信息(如何快速有效的利用互联网上的大量信息) 爬虫的应用搜索引擎(Google.百度.Bing等搜索引擎,辅助人们检索信息) 股票软件(爬取股票数据,帮助 ...

随机推荐

codeforces 111C/112E Petya and Spiders
题目: Petya and Spiders传送门: http://codeforces.com/problemset/problem/111/C http://codeforces.com/probl ...
vue仿追书神器，vue小说项目源码
vue-reader 一点阅读器!API源自追书神器,免费使用!目前已初步开发完成! Github项目地址:https://github.com/AntonySufer/vue-readle 欢迎is ...
ValueError: invalid literal for int() with base 10问题处理
问题描述: 在用pthon写脚本得过程中,发生错误,ValueError: invalid literal for int() with base 10,这种错误是值得类型转换错误,int()函数是可 ...
mysql捕捉所有SQL语句
MySQL可以通过开通general_log参数(可动态修改)来扑捉所有在数据库执行的SQL语句.显示参数:mysql> show variables like 'general%log%';+ ...
软件-Axure：Axure RP
ylbtech-软件-Axure:Axure RP Axure RP是一款专业的快速原型设计工具.Axure(发音:Ack-sure),代表美国Axure公司:RP则是Rapid Prototypin ...
Jmeter 5.1 从excel读取数据执行接口自动化
思路:数据在excel文件中进行维护,然后转换成csv格式,jme中读取数据执行: 1.将接口各数据在excel文件中进行维护,然后存为csv格式,我的数据如下: 2.jmeter脚本,配置csv文件 ...
让Tomcat支持php
在服务器上php的安装:1.下载php-4.4.2 for windows的压缩包2.解压缩到D:\software\php4423.将D:\software\php442增加到环境变量PATH中4. ...
MySQL数据库参数优化
概述最近在对各个系统的mysql做一些参数上的优化,也开了慢查询,准备后面针对特定sql再进一步优化.下面主要介绍一下一些优化的参数. 1.优化前mysql配置可以看到基本上是没怎么做优化的. 2 ...
【题解】小X的AK计划
题目描述虽然在小X的家乡,有机房一条街,街上有很多机房.每个机房里都有一万个人在切题.小X刚刷完CodeChef,准备出来逛逛.机房一条街有n个机房,第i个机房的坐标为xi,小X的家坐标为0.小X在 ...
1.etcd
etcd v3版接口命令 etcdctl --cacert=/etc/kubernetes/pki/etcd/ca.crt --cert=/etc/kubernetes/pki/etcd/heal ...

python爬虫https://www.imdb.com/chart/top的电影

python爬虫https://www.imdb.com/chart/top的电影的更多相关文章

随机推荐

热门专题