【深度学习系列】一起来参加百度 PaddlePaddle AI 大赛吧！

　　写这个系列写了两个月了，对paddlepaddle的使用和越来越熟悉，不过一直没找到合适的应用场景。最近百度搞了个AI大赛，据说有四个赛题，现在是第一个----综艺节目精彩片段预测，大家可以去检测一下最近的学习成果啊！还有丰厚的奖金10W元软妹币哦！

这是啥比赛？

　　我们希望参赛选手使用PaddlePaddle深度学习框架、利用BROAD数据集、利用K-Lab，着手解决行业中的真实问题，从而让AI真正应用于行业、真正服务于行业。本次大赛，我们将目光放在电视综艺行业，希望选手们利用BROAD中全球首创的公开精彩片段标注数据集，帮助电视综艺的后期剪辑工作者们在给定的任一段长视频中识别出“精彩片段”——想为剪辑师们的辛苦工作给予些小小的辅助，别再连续熬夜啦

　　详细的赛题背景请戳这里！

数据集是啥？

　　在11月百度世界大会 AI 技术与平台论坛上，百度3D视觉首席科学家杨睿刚就宣布推出了百度 AI 公开数据集计划——BROAD（Baidu Research Open-Access Dataset），并宣布首批室外场景理解、视频精彩片段、阅读理解3个数据集即日起对公众公开。

　　这些数据或是首次发布的，或是目前国际同类型公开数据集中最大的：

室外场景理解数据集是世界范围内第一个带像素级语义标签的室外3D图像数据，来源于百度自动驾驶事业部。该数据集试图将感知能力从物体级感知升级到像素级感知，进而了解图片中所有像素的属性和来源，目标实现更精准、安全的自动驾驶。

视频精彩片段数据集主要来源于爱奇艺。视频类型为综艺节目，目前囊括近1500个长视频，视频总时长约1200小时，还从中手动收取出18000个精彩小视频，同时能够提供视频帧的图片特征序列，是全球首创的公开精彩片段标注数据集。

百度阅读理解数据集 DuReader是迄今为止规模最大的中文公开领域阅读理解数据集。数据集基于真实应用需求，所有问题都来源于百度搜索用户的真实问题，文档来自全网真实采样的网页文档和百度知道 UGC 文档，答案基于问题与文档由人工撰写生成。数据集标注了问题类型、实体和观点等丰富信息，弥补了现有主流数据集对于观点类问题覆盖不足的问题。首批发布的阅读理解数据集包含20万问题、100万文档及42万人工撰写的优质答案，并提供开源基线系统。DuReader 将为阅读理解技术研究提供有力支撑，希望加速相关技术和应用的发展。

　　在这个比赛中，我们用的是第二个：视频精彩片段数据集。戳这里可以下载！不过文件太大了，训练集有97G，验证和测试各有8，8G，在本机上做明显不太现实，所以kesci直接提供了数据集，在指定路径下就可以看到啦。我们可以直接运用Kesci的平台K-Lab来进行模型训练~大家可以在这里看一下提供的视频样例和数据集的说明~

　　一个小tips：大家一定要先报名，再创建比赛项目才能查看数据集哦！不然看不到！亲身经历，略坑 - -

如何报名？

　　在Kesci官网注册，然后报名，就可以啦！提交结果的时候要以团队的名义提交哦！团队可以是一个人，也可以组队，大家可以在比赛的qq群里拉人组队哦！（见比赛介绍）

赛题、日程与奖项

　　本次大赛分为两个阶段。

　第一比赛阶段：2017年12月28日0:00:00--2018年2月4日23:59:59

　此阶段中，K-Lab使用百度云计算优化型CPU，4核8GB内存。K-Lab单次运行时长为3小时。

任务：

训练：使用已抽取的约10%的视频数据训练集（共124个视频），学习视频帧的图片特征序列数据，在K-Lab中训练精彩片段检测模型。

验证：使用验证集的数据与开放的测评脚本K-Lab，评价训练好的模型在验证集视频上的预测结果。

输出结果：对测试集中的视频使用训练好的模型，得出预测结果，通过K-Lab上传结果到测评系统得到评价分数。

2018年1月14日23:59:59，第一比赛阶段中期截止，分数排名第一的队伍获得鼓励奖。

2018年1月15日0:00:00起，用户通过K-Lab上传结果的同时也需上传K-Lab notebook报告。

2018年2月4日23:59:59，第一比赛阶段截止，且报名截止。选拔使用了PaddlePaddle训练模型且上传了K-Lab notebook报告的队伍中，分数前50名的队伍晋级到第二比赛阶段。

第二比赛阶段：2018年2月9日0:00:00--2018年3月15日23:59:59

此阶段中，K-Lab的配置为GPU（百度免费提供的英伟达深度学习开发卡，CPU：6核40GB），单次运行时长为3小时。选手无需任何申请或安装，直接打开K-Lab在其中使用即可。

任务：

训练：选手必须使用PaddlePaddle训练模型，使用全量视频数据训练集（共1262个视频），学习视频帧的图片特征序列数据，在K-Lab中训练精彩片段检测模型。

验证：使用验证集的所有数据与开放的测评脚本K-Lab，评价训练好的模型在验证集视频上的预测结果。

输出结果：对测试集中的所有视频使用训练好的模型，得出预测结果，通过K-Lab上传结果与K-Lab notebook报告到测评系统得到评价分数。

2018年2月25日23:59:59，第二比赛阶段中期截止，分数排名第一的队伍获得鼓励奖。

2018年3月15日23:59:59，第二比赛阶段截止，百度专家对分数排名前10名的队伍评审K-Lab notebook报告，评选出一名一等奖（5万人民币），2名二等奖（各2万人民币），3名三等奖（各3千人民币）。

写在最后

　　其实刚看到这个题目的时候觉得有点难，因为这个属于比较新的领域，时序视频检测这个方向大家可以多搜搜论文，看看别人怎么实现的，先试着用最简单的方法做一下。不太建议完全不懂机器学习的人报名，小白可以先参加一些基础的练练手，如果对机器学习和深度学习有些了解的可以报名试试看。目前排名第一的大神已经开放了随机测试的视频，大家可以先用这个代码跑一下，看看提交的格式是啥样的。不管怎么说，重在参与啦~

【深度学习系列】一起来参加百度 PaddlePaddle AI 大赛吧！的更多相关文章

【深度学习系列】关于PaddlePaddle的一些避“坑”技巧
最近除了工作以外,业余在参加Paddle的AI比赛,在用Paddle训练的过程中遇到了一些问题,并找到了解决方法,跟大家分享一下: PaddlePaddle的Anaconda的兼容问题之前我是在服务 ...
【深度学习系列】PaddlePaddle垃圾邮件处理实战（二）
PaddlePaddle垃圾邮件处理实战(二) 前文回顾在上篇文章中我们讲了如何用支持向量机对垃圾邮件进行分类,auc为73.3%,本篇讲继续讲如何用PaddlePaddle实现邮件分类,将深度 ...
【深度学习系列3】 Mariana CNN并行框架与图像识别
[深度学习系列3] Mariana CNN并行框架与图像识别本文是腾讯深度学习系列文章的第三篇,聚焦于腾讯深度学习平台Mariana中深度卷积神经网络Deep CNNs的多GPU模型并行和数据并行框 ...
【深度学习系列2】Mariana DNN多GPU数据并行框架
[深度学习系列2]Mariana DNN多GPU数据并行框架本文是腾讯深度学习系列文章的第二篇,聚焦于腾讯深度学习平台Mariana中深度神经网络DNN的多GPU数据并行框架. 深度神经网络( ...
深度学习系列 Part(3)
这是<GPU学习深度学习>系列文章的第三篇,主要是接着上一讲提到的如何自己构建深度神经网络框架中的功能模块,进一步详细介绍 Tensorflow 中 Keras 工具包提供的几种深度神经网 ...
基于TensorFlow的深度学习系列教程 2——常量Constant
前面介绍过了Tensorflow的基本概念,比如如何使用tensorboard查看计算图.本篇则着重介绍和整理下Constant相关的内容. 基于TensorFlow的深度学习系列教程 1--Hell ...
使用腾讯云 GPU 学习深度学习系列之二：Tensorflow 简明原理【转】
转自:https://www.qcloud.com/community/article/598765?fromSource=gwzcw.117333.117333.117333 这是<使用腾讯云 ...
【深度学习系列】PaddlePaddle之手写数字识别
上周在搜索关于深度学习分布式运行方式的资料时,无意间搜到了paddlepaddle,发现这个框架的分布式训练方案做的还挺不错的,想跟大家分享一下.不过呢,这块内容太复杂了,所以就简单的介绍一下padd ...
【深度学习系列】用PaddlePaddle和Tensorflow进行图像分类
上个月发布了四篇文章,主要讲了深度学习中的"hello world"----mnist图像识别,以及卷积神经网络的原理详解,包括基本原理.自己手写CNN和paddlepaddle的 ...

随机推荐

web更改AD用户密码
web更改AD用户密码 #web更改AD密码 #网站配置绑定域名ad.test.cn 功能,更改AD用户密码 #参考http://bbs.51cto.com/thread-1379675-1.htm ...
域名和ip不能访问的原因
centos的话可能默认可能会有firewalld,可以执行 systemctl stop firewalld systemctl disable firewalld 禁用后在看看,前提都是域名得备案 ...
微信原始demo
有可能下载最新的demo下载不到这个原版的精简demo了. 这里为大家提供一下.以下代码为原始未改动代码 01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 ...
实战-CentOS6.8配置nfs服务
如题 #服务端:请自行配置yum源命令操作:yum install nfs-utils rpcbind #配置文件编辑:vi /etc/exports /data 0.0.0.0 (rw,sync, ...
thinkphp5.0 微信公众号接入支付宝支付
---恢复内容开始--- 真是无力吐槽这个需求了,想骂客户,好端端的非要在微信公众号接入支付宝,都知道微信公众号是拒绝支付宝的,屏蔽了支付宝,所以在微信公众号接入支付宝的话就必须手动复制链接跳出微信内 ...
CDH集群搭建部署
1. 硬件准备使用了五台机器,其中两台8c16g,三台4c8g.一台4c8g用于搭建cmServer和NFS服务端,另外4台作为cloudera-manager agent部署CDH集群. ...
Spring任务调度之SpringTask基于XML和基于注解的使用示例
使用Spring的环境要求是:JDK1.8以上.Maven3.0以上. Maven依赖 SpringTask集成在SpringContext中,所以只需要SpringContext即可. 可以使用ma ...
使用js做创建图片及删除图片若有什么不对或不完整的地方，请大家提出来，谢谢
首先我们要在<body>中创建一个按钮<button>来用作点击创建图片,在<button>中写一个点击事件(随便命名), 在创建一个<div>存放图片 ...
hdu1570(排列和组合公式的应用)
题意: 给出字符A.则求全排列 A(n,m)=n!/(n-m)! 给出字符C.则求全组合 C(n,m)=n!/(m!*(n-m)!) http://acm.hdu.edu.cn/showproblem ...
Hadoop之SequenceFile
Hadoop序列化文件SequenceFile能够用于解决大量小文件(所谓小文件:泛指小于black大小的文件)问题,SequenceFile是Hadoop API提供的一种二进制文件支持.这样的二进 ...

【深度学习系列】一起来参加百度 PaddlePaddle AI 大赛吧！

【深度学习系列】一起来参加百度 PaddlePaddle AI 大赛吧！的更多相关文章

随机推荐

热门专题