python爬虫--爬取cctv连续剧

 #encoding=utf-8

 import requests

 from bs4 import BeautifulSoup

 import re

 import os

 from aria2rpc import rpc_addUri

 class Cntv():

     def openUrl(self,url):

         """

         This method is used to open a web site

         :param url:Web site to request

         :return:Requested object

         """

         header = {

             "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.113 Safari/537.36"

         }

         response = requests.get(url, header)

         return response

         # pass

     def getEachEpisodeUrl(self):

         """

         Get the address of each episode of the TV play

         :return:urls lists

         """

         urls = []

         # response = requests.get(self.url)

         url = "http://tv.cctv.com/2014/07/07/VIDA1404730290373811.shtml"

         response = self.openUrl(url)

         html = response.content.decode('utf-8')

         soup = BeautifulSoup(html,'html.parser')

         title = soup.select(".text_mod h3")

         print(title[0].text)

         episodes = soup.select('.img a')

         # print(episodes)

         for each in range(1,len(episodes),3):

             print(episodes[each]['title'],"link:"+episodes[each]['href'])

             urls.append(episodes[each]['href'])

         print("Get Each Episode Url Come Over !!!")

         return urls

     def getEachDLUrl(self):

         urls = self.getEachEpisodeUrl()

         links = []

         for num,url in enumerate(urls):

             response = self.openUrl(url)

             html = response.text

             # soup = BeautifulSoup(html, 'html.parser')

             match = re.search(r'guid = "(\w+?)";', html)

             pid = match.group(1)

             # print(pid)

             link = "http://vdn.apps.cntv.cn/api/getHttpVideoInfo.do?pid=%s&tz=%s&from=%s&url=%s&idl=%s&idlr=%s&modifyed=%s" %(pid,'-8','000news',url,'','','false')

             links.append(link)

             print("获取第%d集" %(num))

             # print(urls)

         return links

     def getDLList(self):

         """

         Get the download address for each episode of the TV play

         :return:ownload address list

         """

         links = self.getEachDLUrl()

         # links = ["http://vdn.apps.cntv.cn/api/getHttpVideoInfo.do?pid=59381a0e55404cf5b101f7d3bcad2da8&tz=-8&from=000news&url=http://tv.cctv.com/2014/07/15/VIDE1405435161521590.shtml&idl=32&idlr=32&modifyed=false"]

         dl_urls = []

         for link in links:

             dl_url = []

             response = self.openUrl(link)

             # html = response.content.decode('utf-8')

             dl_list = response.json()['video']['chapters4']

             for each in range(len(dl_list)):

                 downloadurl = dl_list[each]['url']

                 dl_url.append(downloadurl)

                 print(downloadurl)

             dl_urls.append(dl_url)

         return dl_urls

     def _add_aria2_task(self, url, name):

         """

         :param url:download url

         :param name:dowmload tv name

         :return:

         """

         try:

             result = rpc_addUri(url, {'out': name})

             return result

         except Exception as e:

             print(e)

             return None

 # response.json()['video']['lowChapters'][0]['url']

 # response.json()['video']['chapters4'][0]['url']

 """

     def dlTv(self):

         dl_urls_list = self.getDLList()

         if os.path.exists("tv_list") == False:

             os.mkdir("tv_list")

         os.chdir("tv_list")

         for dl_urls in dl_urls_list:

             for dl_url in dl_urls:

                 print("download" + dl_url)

                 # response = self.openUrl(dl_url)

                 # with open("first.mp4",'ab') as tl:

                 #     tl.write(response.content)

             print("-"*20)

 """

 if __name__ == "__main__":

     cm = Cntv()

     # cm.getUrl()

     # cm.openUrl()

     lists = cm.getDLList()

     for num,list in enumerate(lists):

         for i,url in enumerate(list):

             cm._add_aria2_task(url, str(num+1)+'_'+str(i+1)+'.mp4')

python爬虫--爬取cctv连续剧的更多相关文章

Python爬虫 - 爬取百度html代码前200行
Python爬虫 - 爬取百度html代码前200行 - 改进版, 增加了对字符串的.strip()处理源代码如下: # 改进版, 增加了 .strip()方法的使用 # coding=utf-8 ...
用Python爬虫爬取广州大学教务系统的成绩（内网访问）
用Python爬虫爬取广州大学教务系统的成绩(内网访问) 在进行爬取前,首先要了解: 1.什么是CSS选择器? 每一条css样式定义由两部分组成,形式如下: [code] 选择器{样式} [/code ...
使用Python爬虫爬取网络美女图片
代码地址如下:http://www.demodashi.com/demo/13500.html 准备工作安装python3.6 略安装requests库(用于请求静态页面) pip install ...
Python爬虫|爬取喜马拉雅音频
"GOOD Python爬虫|爬取喜马拉雅音频喜马拉雅是知名的专业的音频分享平台,用户规模突破4.8亿,汇集了有声小说,有声读物,儿童睡前故事,相声小品等数亿条音频,成为国内发展最快.规模 ...
python爬虫爬取内容中，-xa0，-u3000的含义
python爬虫爬取内容中,-xa0,-u3000的含义 - CSDN博客 https://blog.csdn.net/aiwuzhi12/article/details/54866310
Python爬虫爬取全书网小说，程序源码+程序详细分析
Python爬虫爬取全书网小说教程第一步:打开谷歌浏览器,搜索全书网,然后再点击你想下载的小说,进入图一页面后点击F12选择Network,如果没有内容按F5刷新一下点击Network之后出现如下 ...
python爬虫—爬取英文名以及正则表达式的介绍
python爬虫—爬取英文名以及正则表达式的介绍爬取英文名: 一. 爬虫模块详细设计 (1)整体思路对于本次爬取英文名数据的爬虫实现,我的思路是先将A-Z所有英文名的连接爬取出来,保存在一个cs ...
一个简单的python爬虫,爬取知乎
一个简单的python爬虫,爬取知乎主要实现爬取一个收藏夹里所有问题答案下的图片文字信息暂未收录,可自行实现,比图片更简单具体代码里有详细注释,请自行阅读项目源码: # -*- cod ...
python爬虫-爬取百度图片
python爬虫-爬取百度图片(转) #!/usr/bin/python# coding=utf-8# 作者 :Y0010026# 创建时间 :2018/12/16 16:16# 文件 :spider ...

随机推荐

tcp/ip --- IP路由选择及子网寻址
IP路由选择当一个IP数据包准备好了的时候,IP数据包(或者说是路由器)是如何将数据包送到目的地的呢?它是怎么选择一个合适的路径来"送货"的呢? 最特殊的情况是目的主机和主机直连 ...
MyTest——边界检测
实现思路如下: Step1:大文件的内存映射,多线程数据读取,加快读取速度. Step2:点云数据预处理(抽希.去噪点). Step3:Step2处理后数据使用kdtree进行离散点排序. Step4 ...
Javascript - demo 与捷径
1.页面的后退.刷新.前进 function back(){ history.go(-1); // 后退 } function forward(){ history.go(+1); // 前进 1 页 ...
Win 7+Anaconda+tensorflow
Anaconda是一种拥有各种Python库的集成环境,也支持Windows.Mac和Linux系统. 1.安装 Anaconda 安装包:https://www.continuum.io/downl ...
Linux C 中 open close read write 使用实例
这里实现的是将文件cody.txt中的内容拷贝到to_cody.txt中去. 1 /* ======================================================== ...
Atitit。监听键盘上下左右方向键事件java js jquery c#.net
Atitit.监听键盘上下左右方向键事件java js jquery c#.net 1. Keyword1 2. 通用的实现流程1 3. Js的实现1 3.1. Bind control ,eve ...
Atitit.创建快捷方式 windows快捷方式的原理
Atitit.创建快捷方式 windows快捷方式的原理 1. Windows中有2种快捷方式的文件:1 2. Jshortcut2 2.1. 提示新不上jshortcut.dll2 2.2. 使用w ...
Atitit.虚拟机与指令系统的设计
Atitit.虚拟机与指令系统的设计 1. 两种计算模型 ,堆栈机和状态机(基于寄存器的虚拟机1 1.1.1. 堆栈机1 1.1.2. 状态机2 2. 为什么状态机比堆栈机快呢?3 2.1. Sta ...
jquery的ajax-serialize()
jQuery ajax - serialize() 方法 jQuery Ajax 参考手册实例输出序列化表单值的结果: $("button").click(function() ...
maven项目工程报错：cannot be resolved to a type
1.在本地仓库中,搜索“_maven.repositories”所有匹配项,并彻底删除 2.然后再删除“.lastUpdated”所有匹配项 3.最后再重新在eclipse中执行操作:update d ...

python爬虫--爬取cctv连续剧

python爬虫--爬取cctv连续剧的更多相关文章

随机推荐

热门专题