环境


　　python2.7 pycharm

　　课题：Python爬取视频（桌面版）---爬虫，桌面程序应用
　　优点：语法简洁，入门快，代码少，开发效率高，第三方库

　　1.图形用户界面---GUI
　　2.爬虫，爬取视屏下载
　　3.结合，展现在GUI

　　正则表达式：想要的东西 表达形式 模型
　　匹配findall（正则表达式，源码）
　　知识点：
　　1.如何创建一个窗口
　　2.如何进行填充 滚动条 点击按钮 文本框
　　3.解决网站禁止爬虫---加上头部信息（浏览器），伪装浏览器进行访问
　　4.打开网页获取源码 requests
　　5.获取视频 名称
　　6.下载并且展示

代码

#!/usr/bin/env python

# -*- coding:utf-8 -*-

# Author: benjaminYang

from Tkinter import *

from ScrolledText import ScrolledText #文本滚动条

import urllib,requests

import re

import threading   #多线程处理与控制

#import time         #

import sys

reload(sys)

sys.setdefaultencoding( "utf-8" )

url_name=[] #url+name

a=1 #页数

def get():

    global a #改变全局变量

    hd={

        'User - Agent': 'Mozilla / 5.0(Windows NT 6.1;WOW64) AppleWebKit / 537.36(KHTML, likeGecko) Chrome / 62.0.3202.94Safari / 537.36'

    }

    url='http://www.budejie.com/video/'+str(a)

    varl.set('已经获取第%s页的视屏'%(a))

    html=requests.get(url,headers=hd).text #发送get请求，获取源码

    # print html #网站全部源码

    url_content=re.compile(r'(<div class="j-r-list-c">.*?</div>.*?</div>)',re.S) #编译，提高效率,匹配换行符

    url_contents=re.findall(url_content,html)

    # print url_contents #视屏的名称+视屏的url

    for i in url_contents:

        url_reg=r'data-mp4="(.*?)">'

        url_items=re.findall(url_reg,i)

        # print url_items

        if url_items:#如果有视屏存在，我就匹配名字，如果是图片，我就跳过

            name_reg=re.compile(r'<a href="/detail-.{8}?.html">(.*?)</a>',re.S)

            name_items=re.findall(name_reg,i)

            # print name_items       #列表中的中文是可迭代对象都是Unicode格式

            for i,k in zip(name_items,url_items): #zip函数 将两个可迭代对象一一对应

                url_name.append([i,k])

                print i,k

    return url_name

id=1 #视屏个数

def write():

    global  id

    while id<10:

        url_name=get()#调用获取视屏+名字

        for i in url_name:

            #windows只能识别gbk 先将Unicode解码，然后再编码成gbk

            urllib.urlretrieve(i[1],'video\\%s.mp4'%(i[0]).decode('utf-8').encode('gbk'))#下载的方法urlretrieve

            text.insert(END,str(id)+'.'+i[1]+'\n'+i[0]+'\n')

            url_name.pop(0) #删除一个元素

            id+=1

    varl.set('Hi：视频链接和视频抓取完毕，over！。。')

def start():

    th=threading.Thread(target=write())#实例一条线程

    th.start()

root=Tk() #实例化一个变量

root.title('fuck下载真操蛋')

text= ScrolledText(root,font=('微软雅黑',10))

text.grid()#实现布局的一种方法

button=Button(root,text='开始爬取',font=('微软雅黑',10),command=start) #按钮绑定start函数

button.grid() #按钮

varl=StringVar()#通过tk方法绑定一个变量

label=Label(root,font=('微软雅黑',10),fg='red',textvariable=varl)

label.grid()

varl.set('熊猫已经准备......')

root.mainloop() #创建窗口指令

演示：

爬虫练习二：GUI+下载百思不得姐网站视频的更多相关文章

利用Selenium和Browsermob批量嗅探下载Bilibili网站视频
Rerence: http://www.liuhao.me/2016/09/20/selenium_browsermob_sniff_bilibili_video/ 日常生活中,用电脑看视频是非常频繁 ...
爬虫Scrapy框架-2爬取网站视频详情
爬取视频详情:http://www.id97.com/ 创建环境: movie.py 爬虫文件的设置: # -*- coding: utf-8 -*- import scrapy from movi ...
python爬虫：爬取网站视频
python爬取百思不得姐网站视频:http://www.budejie.com/video/ 新建一个py文件,代码如下: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 1 ...
python3爬虫（4）各种网站视频下载方法
python3爬虫(4)各种网站视频下载方法原创H-KING 最后发布于2019-01-09 11:06:23 阅读数 13608 收藏展开理论上来讲只要是网上(浏览器)能看到图片,音频,视频,都能够 ...
python爬虫公众号所有信息，并批量下载公众号视频
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: 数据分析实战 PS:如有需要Python学习资料的小伙伴可以加点击 ...
使用you-get下载视频网站视频或其他
使用you-get下载视频网站视频或其他文/玄魂目录使用you-get下载视频网站视频或其他前言 1.1 下载.安装依赖 exe安装 pip安装 Antigen安装 Git 克隆源码 Hom ...
Python 爬虫实例（13）下载 m3u8 格式视频
Python requests 下载 m3u8 格式视频最近爬取一个视频网站,遇到 m3u8 格式的视频需要下载. 抓包分析,视频文件是多个 ts 文件,什么是 ts文件,请去百度 ...
You-Get，多网站视频下载工具，非常方便
You-Get是一个非常优秀的网站视频下载工具.使用You-Get可以很轻松的下载到网络上的视频.图片及音乐. 按Win+R键打开运行,输入cmd,再输入命令 pip install you-get, ...
Adobe Edge Animate –修改Edge Commons Spotlight功能，使之能支持播放中国网站视频
Adobe Edge Animate –修改Edge Commons Spotlight功能,使之能支持播放中国网站视频版权声明: 本文版权属于北京联友天下科技发展有限公司. 转载的时候请注明版权 ...

随机推荐

4.bootstrap的form表单的form-group和form-control的区别与联系
1. form-group一般用于div form-control一般用于置于div中的标签元素,为了让控件在各种表单风格中样式不出错,需要添加类名“form-control”,如: <form ...
laravel5.5事件广播系统实例laravel-echo + redis + socket.io
目录 1. 广播配置说明 1.1 广播驱动配置 1.2 注册服务提供器 2. 驱动器配置 2.1 安装predis 2.2. 配置服务端 2.2.1 安装方法 2.2.2 初始化服务端 2.2.3 运 ...
剑指Offer - 九度1519 - 合并两个排序的链表
剑指Offer - 九度1519 - 合并两个排序的链表2013-11-30 22:04 题目描述: 输入两个单调递增的链表,输出两个链表合成后的链表,当然我们需要合成后的链表满足单调不减规则.(hi ...
19、AngularJs知识点总结 part-1
1.AngularJs AngularJs是一款JavaScript开源库,由Google维护,用来协助单一页面应用程序: AngularJs的目标是通过MVC模式增强基于浏览器的应用,使开发和测试变 ...
Python爬虫教程
Python爬虫(1):基本原理 Python爬虫(2):Requests的基本用法 Python爬虫(3):Requests的高级用法 Python爬虫(4):Beautiful Soup的常用方法 ...
Google浏览器历史版本下载地址和驱动器对应关系地址分享
Google浏览器历史版本下载地址https://www.slimjet.com/chrome/google-chrome-old-version.php google webdriver下载地址分享 ...
drf解决跨域问题使用 django-corse-headers扩展
跨域CORS 使用django-corse-headers扩展安装 pip install django-cors-headers 添加应用 INSTALLED_APPS = ( ... 'cors ...
Vue2 全局过滤器（vue-cli）
先看官方简介: 当前组件注册: export default { data () { return {} }, filters:{ orderBy (){ // doSomething }, uppe ...
201621123034 《Java程序设计》第11周学习总结
作业11-多线程 1. 本周学习总结 1.1 以你喜欢的方式(思维导图或其他)归纳总结多线程相关内容. 2. 书面作业本次PTA作业题集多线程 1. 源代码阅读:多线程程序BounceThread ...
201621123033 《Java程序设计》第3周学习总结
第三周作业 1. 本周学习总结初学面向对象,会学习到很多碎片化的概念与知识.尝试学会使用思维导图将这些碎片化的概念.知识点组织起来.请使用工具画出本周学习到的知识点及知识点之间的联系.步骤如下: 1 ...

爬虫练习二：GUI+下载百思不得姐网站视频

环境

代码

演示：

爬虫练习二：GUI+下载百思不得姐网站视频的更多相关文章

随机推荐

热门专题