爬取迷你mp4各个电影信息

网站：www.minimp4.com

# coding=utf-8

import requests

from lxml import etree

class Minimpe_moves(object):

    def Getmovies(self,page):

        url = 'http://www.minimp4.com/movie/?page={}'.format(page)

        html = requests.get(url)

        htmml = etree.HTML(html.text)#解析网页

        href = htmml.xpath('//div[@class="meta"]/h1/a/@href')

        for url_moves in href:

            html1 = requests.get(url_moves)

            htmml1 = etree.HTML(html1.text)

            movie_name = htmml1.xpath('//div[@class="movie-meta"]/h1/text()')#提取电影名字

            #movie_actor =htmml1.xpath('//div[@class="movie-meta"]/p[@id="casts"]/a/text()')#爬取主演名字

            print (movie_name)

            Minimpe_moves.saveMovies(movie_name)

#语法糖　装饰器　静态方法

    @staticmethod

    def saveMovies(data):

        with open('movies.txt','a',encoding = 'utf-8') as f:

            f.write(data[0]+'\n')

#内置属性，别的文件引入这个文件时，无法执行下面代码

if __name__ == "__main__":

    minimp4 = Minimpe_moves ()

    for n in range(11):#爬取1到10页

        minimp4.Getmovies(n)

上图是各个电影主演，基本上每部电影的各个信息都能爬取下来，只需修改对应的xpath即可．

爬取迷你mp4各个电影信息的更多相关文章

使用selenium 多线程爬取爱奇艺电影信息
使用selenium 多线程爬取爱奇艺电影信息转载请注明出处. 爬取目标:每个电影的评分.名称.时长.主演.和类型爬取思路: 源文件:(有注释) from selenium import webd ...
使用Beautiful Soup爬取猫眼TOP100的电影信息
使用Beautiful Soup爬取猫眼TOP100的电影信息,将排名.图片.电影名称.演员.时间.评分等信息,提取的结果以文件形式保存下来. import time import json impo ...
Python爬虫教程-17-ajax爬取实例（豆瓣电影）
Python爬虫教程-17-ajax爬取实例(豆瓣电影) ajax: 简单的说,就是一段js代码,通过这段代码,可以让页面发送异步的请求,或者向服务器发送一个东西,即和服务器进行交互对于ajax: ...
爬虫学习（二）--爬取360应用市场app信息
欢迎加入python学习交流群 667279387 爬虫学习爬虫学习(一)-爬取电影天堂下载链接爬虫学习(二)–爬取360应用市场app信息代码环境:windows10, python 3.5 ...
使用python爬取MedSci上的期刊信息
使用python爬取medsci上的期刊信息,通过设定条件,然后获取相应的期刊的的影响因子排名,期刊名称,英文全称和影响因子.主要过程如下: 首先,通过分析网站http://www.medsci.cn ...
scrapy爬取全部知乎用户信息
# -*- coding: utf-8 -*- # scrapy爬取全部知乎用户信息 # 1:是否遵守robbots_txt协议改为False # 2: 加入爬取所需的headers: user-ag ...
利用xpath爬取招聘网的招聘信息
爬取招聘网的招聘信息: import json import random import time import pymongo import re import pandas as pd impor ...
第三百三十四节，web爬虫讲解2—Scrapy框架爬虫—Scrapy爬取百度新闻，爬取Ajax动态生成的信息
第三百三十四节,web爬虫讲解2—Scrapy框架爬虫—Scrapy爬取百度新闻,爬取Ajax动态生成的信息 crapy爬取百度新闻,爬取Ajax动态生成的信息,抓取百度新闻首页的新闻rul地址有多 ...
Python爬虫——使用 lxml 解析器爬取汽车之家二手车信息
本次爬虫的目标是汽车之家的二手车销售信息,范围是全国,不过很可惜,汽车之家只显示100页信息,每页48条,也就是说最多只能够爬取4800条信息. 由于这次爬虫的主要目的是使用lxml解析器,所以在信息 ...

随机推荐

前台图片Canvas压缩上传小结
需求来源:之前有个提交审核表单的业务,表单中含有大量附件图片,大约有20多张吧,为了省事,采用的同步上传,一次需要上传很多照片,本来单张图片限制为200KB,这样子总图片大小约为5MB左右,想想也可以 ...
静听网+python爬虫+多线程+多进程+构建IP代理池
目标网站:静听网网站url:http://www.audio699.com/ 目标文件:所有在线听的音频文件附:我有个喜好就是听有声书,然而很多软件都是付费才能听,免费在线网站虽然能听,但是禁ip ...
吴裕雄--天生自然 JAVASCRIPT开发学习：语法
<!DOCTYPE html> <html> <head> <meta charset="utf-8"> <title> ...
面向对象变成（OOP）-创建类和使用类
1.1.1对象的抽象:抽象是一种归纳或总结,对象是现实世界物体特征的实例. (1)一切皆是对象. (2)类是对象的抽象. 1.1.2 对象的使用: 当对象被抽象为类以后,就可以创建具体的实例来操作了. ...
51nod 1392：装盒子匈牙利+贪心
1392 装盒子基准时间限制:1 秒空间限制:131072 KB 分值: 160 难度:6级算法题收藏关注有n个长方形盒子,第i个长度为Li,宽度为Wi,我们需要把他们套放.注意一个盒子 ...
ping内网服务器新
#!/bin/bash ip="192.168.1."lastip=(200201202210211212220221222) #ip列表可以继续添加 ps () { ping ...
Unity3D一些基本的概念和一些基本操作
场景:整个游戏由场景组成,一个游戏至少要有一个场景,如果把所有的游戏画面放在一个场景里也是可以的,如果游戏非常非常的大,如果所有的东西都放到一个场景里那么结构就不是那么清晰了而且处理起来就会麻烦一些, ...
docker入门1---docker的简介和安装
Tomxin7 Simple, Interesting | 简单,有趣什么是Docker? 简介: Docker是一个开源的引擎,可以轻松的为任何应用创建一个轻量级的.可移植的.自给自足的容器.开发 ...
JS基础——脚本位置、数据类型、函数作用域
(一)脚本位置 JavaScript是嵌套到浏览器里的脚本语言:可放在3个位置: 1.写在头部(head里) <head> <meta charset="UTF-8& ...
Codeforces Round #622 (Div. 2)C2 Skyscrapers最大"尖"性矩形，思维||分治
题:https://codeforces.com/contest/1313/problem/C2 题意:给出n个数,分别代表第i个位置所能搭建的最大高度,问以哪一个位置的塔的高度为基准向左的每一个塔都 ...

爬取迷你mp4各个电影信息

爬取迷你mp4各个电影信息的更多相关文章

随机推荐

热门专题