python 爬虫系列04-电影天堂连接爬虫

学习的第四个爬虫

from lxml import etree

import requests

BASE_D = 'http://www.dytt8.net'

headers = {

    'User-Agent': "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:62.0) Gecko/20100101 Firefox/62.0"

}

def get_detail_urls(url):

    response = requests.get(url, headers=headers)

    text = response.text

    html = etree.HTML(text)

    detail_urls = html.xpath("//table[@class='tbspan']//a/@href")

    detail_urls = map(lambda url: BASE_D+url, detail_urls)

    return detail_urls

def parse_detail_page(url):

    movie = {}

    response = requests.get(url, headers=headers)

    text = response.content.decode('gbk')

    html = etree.HTML(text)

    title = html.xpath("//div[@class='title_all']//font[@color='#07519a']/text()")[0]

    # for x in title:

    #     print(etree.tostring(x,encoding='utf-8').encode('utf-8'))

    movie['title'] = title

    zoomE = html.xpath("//div[@id='Zoom']")[0]

    imgs = zoomE.xpath(".//img/@src")

    cover = imgs[0]

   # screenshot = imgs[1]

    movie['cover'] = cover

    #movie['screenshot'] = screenshot

    def parse_info(info,rule):

        return info.replace(rule,"").strip()

    infos = zoomE.xpath(".//text()")

    for index,info in enumerate(infos):

        # print(info)

        # print(index)

        # print("="*30)

        if info.startswith("◎年　　代"):

            info = parse_info(info, "◎年　　代")

            movie['year'] = info

        elif info.startswith("◎产　　地"):

            info = parse_info(info, "◎产　　地")

            movie['country'] = info

        elif info.startswith("◎类　　别"):

            info = parse_info(info, "◎类　　别")

            movie['category'] = info

        elif info.startswith("◎豆瓣评分"):

            info = parse_info(info, "◎豆瓣评分")

            movie['category'] = info

        elif info.startswith("◎片　　长"):

            info = parse_info(info, "◎片　　长")

            movie['duration'] = info

        elif info.startswith("◎导　　演"):

            info = parse_info(info, "◎导　　演")

            movie['director'] = info

        elif info.startswith("◎主　　演"):

            info = parse_info(info, "◎主　　演")

            actors = [info]

            for x in range(index+1, len(infos)):

                actor = infos[x].strip()

                if actor.startswith("◎"):

                    break

                actors.append(actor)

            movie['actors'] = actors

        elif info.startswith("◎简　　介 "):

            info = parse_info(info, "◎简　　介 ")

            for x in range(index+1, len(infos)):

                profile = infos[x].strip()

                movie["profile"] = profile

    download_url = html.xpath("//td[@bgcolor='#fdfddf']/a/@href")[0]

    movie['download_url'] = download_url

    return movie

def spider():

    base_url = "http://www.dytt8.net/html/gndy/dyzz/list_23_{}.html"

    movies = []

    for x in range(1,8):

        # print("="*30)

        # print(x)

        url = base_url.format(x)

        detail_urls = get_detail_urls(url)

        for detail_url in detail_urls:

            movie = parse_detail_page(detail_url)

            movies.append(movie)

            print(movie)

if __name__ =='__main__':

    spider()

python 爬虫系列04-电影天堂连接爬虫的更多相关文章

Python多线程爬虫爬取电影天堂资源
最近花些时间学习了一下Python,并写了一个多线程的爬虫程序来获取电影天堂上资源的迅雷下载地址,代码已经上传到GitHub上了,需要的同学可以自行下载.刚开始学习python希望可以获得宝贵的意见. ...
Python爬虫 -- 抓取电影天堂8分以上电影
看了几天的python语法,还是应该写个东西练练手.刚好假期里面看电影,找不到很好的影片,于是有个想法,何不搞个爬虫把电影天堂里面8分以上的电影爬出来.做完花了两三个小时,撸了这么一个程序.反正蛮简单 ...
爬虫系列 | 6、详解爬虫中BeautifulSoup4的用法
bs4,全称BeautifulSoup 4 , 它是Python独有的一种解析方式.也就是说只有Python语言才可以通过这种方式去解析数据. BeautifulSoup 3 只支持Python2,所 ...
爬虫day 04(通过登录去爬虫解决django的csrf_token)
#通过登录去爬虫 #首先要有用户名和密码 import urllib.request import http.cookiejar from lxml import etree head = { 'Co ...
Python3爬虫系列：理论+实验+爬取妹子图实战
Github: https://github.com/wangy8961/python3-concurrency-pics-02 ,欢迎star 爬虫系列: (1) 理论 Python3爬虫系列01 ...
一篇文章教会你利用Python网络爬虫获取电影天堂视频下载链接
[一.项目背景] 相信大家都有一种头疼的体验,要下载电影特别费劲,对吧?要一部一部的下载,而且不能直观的知道最近电影更新的状态. 今天小编以电影天堂为例,带大家更直观的去看自己喜欢的电影,并且下载下来 ...
python 全栈开发，Day134(爬虫系列之第1章-requests模块)
一.爬虫系列之第1章-requests模块爬虫简介概述近年来,随着网络应用的逐渐扩展和深入,如何高效的获取网上数据成为了无数公司和个人的追求,在大数据时代,谁掌握了更多的数据,谁就可以获得更高的 ...
【Python】理想论坛帖子读取爬虫1.04版
1.01-1.03版本都有多线程争抢DB的问题,线程数一多问题就严重了. 这个版本把各线程要添加数据的SQL放到数组里,等最后一次性完成,这样就好些了.但乱码问题和未全部完成即退出现象还在,而且速度上 ...
scrapy电影天堂实战(二)创建爬虫项目
公众号原文创建数据库我在上一篇笔记中已经创建了数据库,具体查看<scrapy电影天堂实战(一)创建数据库>,这篇笔记创建scrapy实例,先熟悉下要用到到xpath知识用到的xpat ...

随机推荐

redis的一些简介
Redis是Remote Dictionary Server的缩写,他本质上一个Key/Value数据库,与Memcached类似的NoSQL型数据库. 1. redis的数据类型: st ...
.net 序列化与反序列化 Serializable
序列化:序列化指的是将对象通过流的方式保存为一个文件. 反序列化则是将该文件还原成对象的过程. 序列化的作用:序列化可以跨语言跨平台传输数据,将某一对象序列化成通用的文件格式在进行传输. 比 ...
android onResultActivity不执行原因总结
插一个注意点.在用ArrayAdapter的时候数据那里的类型必须是List<String> 不能是ArrayList<String> 1.在A.Activity中调用star ...
SharePoint Server 2013 Excel Web Access无法显示
环境信息:SharePoint Server 2013 中文版,版本为15.0.4420.1017 Windows Server 2008 r2中文版 Sql Server 2012 问题描述:在Sh ...
wp后台更新瓷片
下载源码还有一种方式,更新瓷片方式 1. /// <summary> /// 定时更新磁贴 /// </summary> public class ShellUpdate { ...
六、Note开发工具Visual Studio Code下载安装以及Visual Studio Code的使用
专业的人干专业的事,我们搞Node总不能真的使用文本编辑器傻乎乎的搞吧,文本编辑器来开发Node程序,效率太低,运行Node程序还需要在命令行单独敲命令.如果还需要调试程序,就更加麻烦了.所以我们需要 ...
黑色主题-darkgreentrip
/* 整个页面 */ home,#main { margin:0px 0px 0px 0px; background:rgb(9, 9, 9, 0.9); } /* 头部高度 */ header { ...
Django之跨域请求同源策略
同源策略: 首先基于安全的原因,浏览器是存在同源策略这个机制的,同源策略阻止从一个源加载的文档或脚本获取或设置另一个源加载的文档的属性. 而如果我们要跳过这个策略,也就是说非要跨域请求,那么就需要通过 ...
samba服务器架设
#samba服务器架设方便线上linux服务器和windows服务器之间共享 1.关闭防火墙service iptables stop 2.关闭SELinuxsetenforce 0 3.安装samb ...
[Swift]八大排序算法（二）：快速排序
排序分为内部排序和外部排序. 内部排序:是指待排序列完全存放在内存中所进行的排序过程,适合不太大的元素序列. 外部排序:指的是大文件的排序,即待排序的记录存储在外存储器上,待排序的文件无法一次装入内存 ...

python 爬虫系列04-电影天堂连接爬虫

python 爬虫系列04-电影天堂连接爬虫的更多相关文章

随机推荐

热门专题