UWP 手绘视频创作工具技术分享系列 - 有 AI 的手绘视频
AI(Artificial Intelligence)正在不断的改变着各个行业的形态和人们的生活方式,图像识别、语音识别、自然语言理解等 AI 技术正在自动驾驶、智能机器人、人脸识别、智能助理等领域中发挥着越来越重要的作用。
那么当手绘视频遇到 AI,有 AI 的手绘视频领域,有 AI 的 UWP 手绘视频创作工具,会发生些什么呢?我们从12月23日的一次发布会开始讲起吧:

在本次发布会上,来画视频发布了正式上线的 iOS Android 手绘视频 App 和一系列新功能,二更、同道大叔、Prezi 创始人等也带来了短视频行业的精彩分享,而在 AI 方面,更是发布了两大核心功能:智能配音和智能绘画。
众所周知,在视频中,图像和声音是最重要的两个因素,而对应到手绘视频中,则是配音和手绘素材:
1. 配音
首先来说配音,在配音方面,来画与科大讯飞进行了深度合作。科大讯飞是国内外语音识别和语音生成领域领先的人工智能公司,而本次合作也是科大讯飞在短视频领域的首次尝试,双方都对本次合作寄予了很高的期待。过往大家想制作一个短视频时,配音需要专业配音人员完成。因为我们很多人的声音或者对语速、语音的控制完成不了专业的要求。但依靠来画和科大讯飞完成的智能配音功能,如下图的操作方式,用户只需要输入简单的文字以及你想使用谁的声音。比如葛优、林志玲或者其他人的声音,可以设置基本语速,还可以做相应停顿,就可以一键生成视频中需要的配音,把它结合到手绘视频中。
由于手绘视频不像拍摄视频那样对配音的音画同步要求那么严格,我们在实现时更多的是针对手绘视频的每个分镜头进行配音生成,让每个分镜头的配音是和当前画面同步的。针对每个分镜头,可以设置不同的语音来源,不同的语速,配合转场动画设置不同的停顿时间。
在技术实现上,借助科大讯飞的 tts 技术,获得每个分组的 mp3 语音文件,在手绘视频预览和生成时,把多个 mp3 文件合成到视频文件的音轨中,设置不同的音量和语音开始时间、语音长度等信息。为保证语音生成的成功率(时长和同步方面),在输入文字后,可以根据文字数量,以及设置的语速和停顿时间,来预估语音的时长,减少反复转换尝试。

2. 手绘素材

在技术实现方面,智能识别是图像识别的深度学习,具体说是手绘草稿的识别范畴;在算法模型的训练方面,我们对接近 400 个分类的 4000w 个 SVG 数据进行了数据清洗和标注、训练,目前算法对于常见图形的识别效果很好,随着这一功能的上线,后面也会加强更多分类的数据采集和训练工作;而智能优化和智能生成,除了对于草稿的图像识别,还有对于绘制图形的路径理解和目标图形的路径理解,这也是后面突破的重点方向。
结合了配音功能和手绘素材智能识别的 UWP 来画视频将会在接下来发布,欢迎大家下载使用,多提宝贵意见。
对这两个方面感兴趣的朋友,欢迎和我交流,谢谢!
UWP 手绘视频创作工具技术分享系列 - 有 AI 的手绘视频的更多相关文章
- UWP 手绘视频创作工具技术分享系列 - 全新的 UWP 来画视频
从2017年11月开始,我们开始规划和开发全新的来画Pro,在12月23日的短视频峰会上推出了预览版供参会者体验,得到了很高的评价和关注度.吸取反馈建议后,终于在2018年1月11日正式推出了全新版本 ...
- UWP 手绘视频创作工具技术分享系列
开篇先来说一下写这篇文章的初衷. 初到来画,通读了来画 UWP App 的代码,发现里面确实有很多比较高深的技术点,同时也是有很多问题的,扩展性,耦合,性能,功能等等.于是我们决定从头重构这个产品,做 ...
- UWP 手绘视频创作工具技术分享系列 - Ink & Surface Dial
本篇作为技术分享系列的第四篇,详细讲一下手绘视频中 Surface Pen 和 Surface Dial 的使用场景. 先放一张微软官方商城的图,Surface 的使用中结合了 Surface Pen ...
- UWP 手绘视频创作工具技术分享系列 - 手绘视频与视频的结合
本篇作为技术分享系列的第三篇,详细讲一下手绘视频中结合视频的处理方式. 随着近几年短视频和直播行业的兴起,视频成为了人们表达情绪和交流的一种重要方式,人们对于视频的创作.编辑和分享有了更多的需求.而视 ...
- UWP 手绘视频创作工具技术分享系列 - SVG 的解析和绘制
本篇作为技术分享系列的第一篇,详细讲一下 SVG 的解析和绘制,这部分功能的研究和最终实现由团队的 @黄超超 同学负责,感谢提供技术文档和支持. 首先我们来看一下 SVG 的文件结构和组成 SVG ( ...
- UWP 手绘视频创作工具技术分享系列 - 文字的解析和绘制
本篇作为技术分享系列的第二篇,详细讲一下文字的解析和绘制,这部分功能的研究和最终实现由团队共同完成,目前还在寻找更理想的实现方式. 首先看一下文字绘制在手绘视频中的应用场景 文字是手绘视频中很重要的表 ...
- UWP 手绘视频创作工具技术分享系列 - 手绘视频导出
手绘视频最终的生成物是视频文件,前面几篇主要讲的是手绘视频的创作部分,今天讲一下手绘视频的导出问题.主要以 UWP 为例,另外会介绍一些 Web 端遇到的问题和解决方法. 如上所述,手绘视频在创作后, ...
- UWP 手绘视频创作工具技术分享系列 - 位图的绘制
前面我们针对 SVG 的解析和绘制做了介绍,SVG 是图片的一种形式,而另一种很重要的图片是:位图,包括 png.jpeg.bmp 等格式.位图的基本规则是,组成的基本元素是像素点,由宽度 * 高度个 ...
- 恒天云技术分享系列5 – 虚拟化平台性能对比(KVM & VMware)
恒天云技术分享系列:http://www.hengtianyun.com/download-show-id-14.html 概述 本性能测试报告将详细陈述各虚拟化平台基准性能测试的主要结论和详细结果. ...
随机推荐
- 十招让Ubuntu 16.04用起来更得心应手(转)
ubuntu 16.04是一种长期支持版本(LTS),是Canonical承诺发布五年的更新版.也就是说,你可以让这个版本在电脑上运行五年! 这样一来,一开始就设置好显得特别重要.你应该确保你的软件是 ...
- MySQL slave_exec_mode 参数说明
背景: 今天无意当中看到参数slave_exec_mode,从手册里的说明看出该参数和MySQL复制相关,是可以动态修改的变量,默认是STRICT模式(严格模式),可选值有IDEMPOTENT模式(幂 ...
- 微信小程序语音与讯飞语音识别接口(Java)
项目需求,需要使用讯飞的语音识别接口,将微信小程序上传的录音文件识别成文字返回 而微信小程序上传的文件格式是silk的,而讯飞接口能识别wav 格式的文件,所以需要将小程序上传的silk文件转成wav ...
- Selenium中如何使用xpath更快定位
在学习Selenium路上,踩了也不少坑,这是我最近才发现的一个新写法,好吧,"才发现"又说明我做其他事了.对的,我现在还在加班! 开车~~~ 例子:知乎网 标签:Python3. ...
- 【NOIP2014提高组】联合权值
https://www.luogu.org/problem/show?pid=1351 既然是一棵树,就先转化成有根树.有根树上距离为2的点对,路径可能长下面这样: 枚举路径上的中间点X. 第一种情况 ...
- 使用java类破解MyEclipse
今天在网上查资料的时候无意中发现使用java类破解MyEclipse的注册码问题.跟大家分享一下 1.建立JAVA Project,随便命名,只要符合规则就行 2.在刚刚建好的Project右击src ...
- JSONPath使用
JSONPath是fastjson在1.2.0之后支持的.JSONPath是一个很强大的功能.关于JSONPath的介绍请查看官方文档 JSONPath. 官方文档上给出了详细的说明以及使用.但是官方 ...
- JavaScript 插件的书页翻转效果
Flipbooks书页面翻转成为在网页设计中最流行的交互动画之中的一个. 他们能够用在 Flash,网页或者在线杂志中.使用书页动画或者页面翻转的网页设计效果展示他们的产品,更加直观有效. 结合 HT ...
- 【Android Studio快捷键】之导入对应包声明(import packages)
可能import 单个声明的快捷键大家都非常easy找到.Alt+Enter.可是假设我要一次性import文件里全部的声明.这个快捷键是什么呢,找啊找的,就是没找到,曾经在Eclipse是Ctrl+ ...
- 01_GIT基础、安装
1 为什么选择GIT 分布式,强调个体 公共server压力和数据量都不会太大 速度快.灵活 随意两个开发人员之间能够非常easy的解决冲突 离线工作 每日工作备份 能够吃懊悔药 2 GIT基 ...