【深度学习系列】一起来参加百度 PaddlePaddle AI 大赛吧！

　　写这个系列写了两个月了，对paddlepaddle的使用和越来越熟悉，不过一直没找到合适的应用场景。最近百度搞了个AI大赛，据说有四个赛题，现在是第一个----综艺节目精彩片段预测，大家可以去检测一下最近的学习成果啊！还有丰厚的奖金10W元软妹币哦！

这是啥比赛？

　　我们希望参赛选手使用PaddlePaddle深度学习框架、利用BROAD数据集、利用K-Lab，着手解决行业中的真实问题，从而让AI真正应用于行业、真正服务于行业。本次大赛，我们将目光放在电视综艺行业，希望选手们利用BROAD中全球首创的公开精彩片段标注数据集，帮助电视综艺的后期剪辑工作者们在给定的任一段长视频中识别出“精彩片段”——想为剪辑师们的辛苦工作给予些小小的辅助，别再连续熬夜啦

　　详细的赛题背景请戳这里！

数据集是啥？

　　在11月百度世界大会 AI 技术与平台论坛上，百度3D视觉首席科学家杨睿刚就宣布推出了百度 AI 公开数据集计划——BROAD（Baidu Research Open-Access Dataset），并宣布首批室外场景理解、视频精彩片段、阅读理解3个数据集即日起对公众公开。

　　这些数据或是首次发布的，或是目前国际同类型公开数据集中最大的：

室外场景理解数据集是世界范围内第一个带像素级语义标签的室外3D图像数据，来源于百度自动驾驶事业部。该数据集试图将感知能力从物体级感知升级到像素级感知，进而了解图片中所有像素的属性和来源，目标实现更精准、安全的自动驾驶。

视频精彩片段数据集主要来源于爱奇艺。视频类型为综艺节目，目前囊括近1500个长视频，视频总时长约1200小时，还从中手动收取出18000个精彩小视频，同时能够提供视频帧的图片特征序列，是全球首创的公开精彩片段标注数据集。

百度阅读理解数据集 DuReader是迄今为止规模最大的中文公开领域阅读理解数据集。数据集基于真实应用需求，所有问题都来源于百度搜索用户的真实问题，文档来自全网真实采样的网页文档和百度知道 UGC 文档，答案基于问题与文档由人工撰写生成。数据集标注了问题类型、实体和观点等丰富信息，弥补了现有主流数据集对于观点类问题覆盖不足的问题。首批发布的阅读理解数据集包含20万问题、100万文档及42万人工撰写的优质答案，并提供开源基线系统。DuReader 将为阅读理解技术研究提供有力支撑，希望加速相关技术和应用的发展。

　　在这个比赛中，我们用的是第二个：视频精彩片段数据集。戳这里可以下载！不过文件太大了，训练集有97G，验证和测试各有8，8G，在本机上做明显不太现实，所以kesci直接提供了数据集，在指定路径下就可以看到啦。我们可以直接运用Kesci的平台K-Lab来进行模型训练~大家可以在这里看一下提供的视频样例和数据集的说明~

　　一个小tips：大家一定要先报名，再创建比赛项目才能查看数据集哦！不然看不到！亲身经历，略坑 - -

如何报名？

　　在Kesci官网注册，然后报名，就可以啦！提交结果的时候要以团队的名义提交哦！团队可以是一个人，也可以组队，大家可以在比赛的qq群里拉人组队哦！（见比赛介绍）

赛题、日程与奖项

　　本次大赛分为两个阶段。

　第一比赛阶段：2017年12月28日0:00:00--2018年2月4日23:59:59

　此阶段中，K-Lab使用百度云计算优化型CPU，4核8GB内存。K-Lab单次运行时长为3小时。

任务：

训练：使用已抽取的约10%的视频数据训练集（共124个视频），学习视频帧的图片特征序列数据，在K-Lab中训练精彩片段检测模型。

验证：使用验证集的数据与开放的测评脚本K-Lab，评价训练好的模型在验证集视频上的预测结果。

输出结果：对测试集中的视频使用训练好的模型，得出预测结果，通过K-Lab上传结果到测评系统得到评价分数。

2018年1月14日23:59:59，第一比赛阶段中期截止，分数排名第一的队伍获得鼓励奖。

2018年1月15日0:00:00起，用户通过K-Lab上传结果的同时也需上传K-Lab notebook报告。

2018年2月4日23:59:59，第一比赛阶段截止，且报名截止。选拔使用了PaddlePaddle训练模型且上传了K-Lab notebook报告的队伍中，分数前50名的队伍晋级到第二比赛阶段。

第二比赛阶段：2018年2月9日0:00:00--2018年3月15日23:59:59

此阶段中，K-Lab的配置为GPU（百度免费提供的英伟达深度学习开发卡，CPU：6核40GB），单次运行时长为3小时。选手无需任何申请或安装，直接打开K-Lab在其中使用即可。

任务：

训练：选手必须使用PaddlePaddle训练模型，使用全量视频数据训练集（共1262个视频），学习视频帧的图片特征序列数据，在K-Lab中训练精彩片段检测模型。

验证：使用验证集的所有数据与开放的测评脚本K-Lab，评价训练好的模型在验证集视频上的预测结果。

输出结果：对测试集中的所有视频使用训练好的模型，得出预测结果，通过K-Lab上传结果与K-Lab notebook报告到测评系统得到评价分数。

2018年2月25日23:59:59，第二比赛阶段中期截止，分数排名第一的队伍获得鼓励奖。

2018年3月15日23:59:59，第二比赛阶段截止，百度专家对分数排名前10名的队伍评审K-Lab notebook报告，评选出一名一等奖（5万人民币），2名二等奖（各2万人民币），3名三等奖（各3千人民币）。

写在最后

　　其实刚看到这个题目的时候觉得有点难，因为这个属于比较新的领域，时序视频检测这个方向大家可以多搜搜论文，看看别人怎么实现的，先试着用最简单的方法做一下。不太建议完全不懂机器学习的人报名，小白可以先参加一些基础的练练手，如果对机器学习和深度学习有些了解的可以报名试试看。目前排名第一的大神已经开放了随机测试的视频，大家可以先用这个代码跑一下，看看提交的格式是啥样的。不管怎么说，重在参与啦~

【深度学习系列】一起来参加百度 PaddlePaddle AI 大赛吧！的更多相关文章

【深度学习系列】关于PaddlePaddle的一些避“坑”技巧
最近除了工作以外,业余在参加Paddle的AI比赛,在用Paddle训练的过程中遇到了一些问题,并找到了解决方法,跟大家分享一下: PaddlePaddle的Anaconda的兼容问题之前我是在服务 ...
【深度学习系列】PaddlePaddle垃圾邮件处理实战（二）
PaddlePaddle垃圾邮件处理实战(二) 前文回顾在上篇文章中我们讲了如何用支持向量机对垃圾邮件进行分类,auc为73.3%,本篇讲继续讲如何用PaddlePaddle实现邮件分类,将深度 ...
【深度学习系列3】 Mariana CNN并行框架与图像识别
[深度学习系列3] Mariana CNN并行框架与图像识别本文是腾讯深度学习系列文章的第三篇,聚焦于腾讯深度学习平台Mariana中深度卷积神经网络Deep CNNs的多GPU模型并行和数据并行框 ...
【深度学习系列2】Mariana DNN多GPU数据并行框架
[深度学习系列2]Mariana DNN多GPU数据并行框架本文是腾讯深度学习系列文章的第二篇,聚焦于腾讯深度学习平台Mariana中深度神经网络DNN的多GPU数据并行框架. 深度神经网络( ...
深度学习系列 Part(3)
这是<GPU学习深度学习>系列文章的第三篇,主要是接着上一讲提到的如何自己构建深度神经网络框架中的功能模块,进一步详细介绍 Tensorflow 中 Keras 工具包提供的几种深度神经网 ...
基于TensorFlow的深度学习系列教程 2——常量Constant
前面介绍过了Tensorflow的基本概念,比如如何使用tensorboard查看计算图.本篇则着重介绍和整理下Constant相关的内容. 基于TensorFlow的深度学习系列教程 1--Hell ...
使用腾讯云 GPU 学习深度学习系列之二：Tensorflow 简明原理【转】
转自:https://www.qcloud.com/community/article/598765?fromSource=gwzcw.117333.117333.117333 这是<使用腾讯云 ...
【深度学习系列】PaddlePaddle之手写数字识别
上周在搜索关于深度学习分布式运行方式的资料时,无意间搜到了paddlepaddle,发现这个框架的分布式训练方案做的还挺不错的,想跟大家分享一下.不过呢,这块内容太复杂了,所以就简单的介绍一下padd ...
【深度学习系列】用PaddlePaddle和Tensorflow进行图像分类
上个月发布了四篇文章,主要讲了深度学习中的"hello world"----mnist图像识别,以及卷积神经网络的原理详解,包括基本原理.自己手写CNN和paddlepaddle的 ...

随机推荐

项目实战7—Mysql实现企业级数据库主从复制架构实战
Mysql实现企业级数据库主从复制架构实战环境背景:公司规模已经形成,用户数据已成为公司的核心命脉,一次老王一不小心把数据库文件删除,通过mysqldump备份策略恢复用了两个小时,在这两小时中,公 ...
Wannafly挑战赛5 补题
A 珂朵莉与宇宙题目链接: https://www.nowcoder.com/acm/contest/36/A 思路: 科学暴力:枚举前缀和,同时计算前缀和里面可能出现的完全平方数,匹配前缀和与完 ...
HDU3792---Twin Prime Conjecture（树状数组）
Twin Prime Conjecture Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Ot ...
oracle中常用的 join on 相关和集合运算的总结
sql常用联合查询的 join on . left join(左连接) . right join (右连接).inner join (等值连接)以及常用的集合运算有:union.unionall.mi ...
appium测试准备记录
一获取应用程序包名(手机中不安装apk) windows 环境下: aapt工具使用aapt工具,适合给程序自动获取apk的相关信息. //aapt 是sdk自带的一个工具,在SDK/buildt ...
MySQL基数（索引基数）
基数是数据列所包含的不同值的数量.例如,某个数据列包含值1.3.7.4.7.3,那么它的基数就是4. 索引的基数相对于数据表行数较高(也就是说,列中包含很多不同的值,重复的值很少)的时候,它的工作效果 ...
【前端】Util.js-ES6实现的常用100多个javaScript简短函数封装合集（持续更新中）
Util.js (持续更新中...) 项目地址: https://github.com/dragonir/Util.js 项目描述 Util.js 是对常用函数的封装,方便在实际项目中使用,主要内容包 ...
svn文件回滚到某个历史版本号
转载请注明出处:http://blog.csdn.net/dongdong9223/article/details/50819642 本文出自[我是干勾鱼的博客] 有时候想要将svn中的某个文件回滚到 ...
Android数据存储之内部存储、外部存储
首先来介绍下什么是内部存储? 在Android平台下,有着自己独立的数据存储规则,在windows平台下,应用程序能够自由的或者在特定的訪问权限基础上訪问或改动其它应用程序下的文件资源. 可是在And ...
Automatic Preferred Max Layout Width is not available on iOS versions prior to
警告:Automatic Preferred Max Layout Width is not available on iOS versions prior to 8.0 如: 找到: : 改动为:

【深度学习系列】一起来参加百度 PaddlePaddle AI 大赛吧！

【深度学习系列】一起来参加百度 PaddlePaddle AI 大赛吧！的更多相关文章

随机推荐

热门专题