一站式机器学习平台TI-ONE是什么?——云+未来峰会开发者专场回顾
欢迎大家前往腾讯云+社区,获取更多腾讯海量技术实践干货哦~
背景:5月23-24日,以“焕启”为主题的腾讯“云+未来”峰会在广州召开,广东省各级政府机构领导、海内外业内学术专家、行业大咖及技术大牛等在现场共议云计算与数字化产业创新发展。
腾讯云AI平台技术负责人王才华博士在腾讯“云+未来”峰会的「开发者专场」做了主题为“智能钛・一站式机器学习 TI-ONE:腾讯云上的机器(深度)学习IDE”的技术内容分享。
最近大家有没有看漫威的《复仇者联盟3》?其中钢铁侠的战甲就是用金属钛制造的,钛具有质量轻,高强度的特点,而TI-ONE是人工智能平台,因此我们用了科技感十足的名字“智能钛”来形容它。

首先说说为什么需要TI-ONE?
人工智能的重要性不需要我再强调,Andrew Ng 在Spark Summit 2017上提出《AI: The new Electricity》. 各大公司也相争提出自己的机器学习平台,比如说微软的CNTK,Google的Tensorflow等等。但是回答为什么需要TI-ONE这个问题,还要从云计算的特点和机器学习的生命周期出发。在云上,我们偏向云服务化,基础设施服务化,平台服务化,算法服务化,机器学习算法也不例外。
但是机器学算法有一个漫长的生命周期,从数据获取到数据预处理再到选择一个框架并编写算法,然后训练得到一个模型,最后用这个模型进行预测。在云上我们还要对模型进行服务化。如此漫长的过程,所以我们需要加速机器学习的生命周期,加速模型的服务化,这就是我们需要TI-ONE的原因。

具体而言,TI-ONE提供了如下功能:
首先整合了数据预处理平台,提高数据预处理效率。
支持主流机器学习框架,内置常用算法,以拖拽的方式就能完成算法开发。
支持自动调参,支持多个层面的协作,支持了一键模型部署和服务化,还有在线推理。
用开发者的语言来说, TI-ONE就是腾讯云上的机器学习IDE。

什么是TI-ONE?
我将从架构,工作流,调参,协作,部署等这几个方面进行分享。

TI-ONE是一个层次架构,最下层是COS存储层,存储层之上是GaiaStack资源调度层,GaiaStack赋予TI One很多商业特性,后面我会展开分享。调度层之上是架构层,我们整合了Tensorflow,PyTorch,XGBoost,Angel和Spark等,其中Angel是腾讯自研的,Spark是腾讯增强的。算法方面,我们集成了大量的常用算法,既有CNN、RNN、DBN等深度学习算法,也有的GBDT、FFM等传统机器学习算法。用户可以用这些算法训练自己的模型,支持业务,比如图象识别、语音识别、精准推荐和实时风控等等。

TI-ONE为用户提供了一个图形化开发界面,以拖拽方式就能开发一个机器学习算法,这里我给一个例子,
- 从COS层或本地文件系统中获得数据
- 对数据进行预处理
- 对数据进行切分,这里需要指出的是,这里是将数据切分成训练集和验证集,而不是测试集
- 然后用拖拽的方式选择一种算法,以逻揖回归为例
- 设置算法需要的参数
- 训练得到模型
如果要验证这个算法也很简单,只要:
- 从存储层中获得数据
- 对数据进行预处理
- 输入到模型
- 算法评估
运行完成后会给出混淆矩阵和AUC值。

调参是机器学习的重要环节,而且非常具有技巧性,TI-ONE提供了自动化的调参工具,特点是通过参数组合产生多个实例,然后并行运行这些实例,从这些实例中选出效果最好的一个。
举个例子,假设你要训练一个随机森林,你要决定森林中树的棵数和训练每棵树所需要的特征数,只要给定一个参数组合,然后交给TI-ONE,TI-ONE可以帮你选择最好的组合。在另一些情况下,我们可能需要对一些正则化超参调优,我们只要给定一个范围,然后交给TI-ONE,TI-ONE就可以帮助我们选择最优的参数。

协作对于机器学习也很重要,TI-ONE提供了多个层面的协作。
第一是模型层面的分享,训练好的模型可以分享给你的同事。比如你们俩同时对同一个业务开发算法,想比较谁的精度更高,就可以互相分享这个模型。
第二是工作流层面的分享,工作流就是机器学习生命周期,分享工作流,就是分享整个机器学习生命周期。假设你前面做了一个皮肤推荐的任务,后来要做装备推荐的任务,基本上只要小改动就可以了。
第三是服务层面的共享,模型部署好后还可以共享,你可以把模型分享给后台人员,让他(她)帮你定位问题。

部署和服务是云上机器学习和传统学习的不同之处。TI-ONE提供了一键式部署工具。我们可以将训练好的模型部署成Application, 然后装载成多个实例,一个实例中还允许有不同版本。第三方的用户和模型的开发者就可以用REST API去调用,非常方便。
前面我们讲了TI-ONE的特点,开发者肯定想知道它背后的设计之道。我喜欢用冰山理论来解释事物背后的原理,前面看到的不管是工作流,还是调参,协作和部署工具,这些只是冰山一角,水下面是什么呢?

我们认为一部分原因是整合,我们整合了COS存储,整合了GaiaStack调度,整合了常用的机器学习框架和算法,但是仅仅整合还是不够,我们还需要自主研究构建差异化的竞争力,这个就是TI-ONE的特别之处。

第一个特别之处是Angel,Angel腾讯自研的机器学习的框架,它克服了Spark将模型放在单个节点的不足,通过对底层数学库的优化,它可以支持万亿级参数的模型,放眼业界,能支持如此大模型的计算框架也是凤毛菱角。
算法方面,我们实现了常用的传统机器学习算法,比如逻辑回归,SVM等等,其中还有一些是我们原创的, 如LAD* 就是我们发表在VLDB上的成果。
性能方面,我们比较了Angel和Spark, XGBoost等平台,发现Angel性能表现非常强悍。有些算法的性能是Spark的20+倍。

第二个特别之处是图计算算法,我们知道图计算领域有三个主要玩家,即Pregel,GraphLab,和GraphX,而Pregel是谷歌闭源,GraphLab是商业软件,只有GraphX是开源软件。但是GraphX更新慢,算法少,鉴于这种情况,我们就基于GraphX增加了很多图计算算法,有节点评价算法,社区发现算法,统计特征算法,经过细致的优化,这些算法都支持了千亿级规模的关系链。

第三个特别之处是支持用户自定义算法,前面提到我们集成了非常多的算法,有深度学习算法,也有传统学习机器算法,有回归算法,有分类算法,推荐算法等等,但是对于一些高级用户来说还是不够,所以我们允许用户自定义算法到TI-ONE执行,虽然是一个小功能,但是给用户带来很大的灵活性。
前面我们谈到了TI-ONE的功能和特别之处,现在要谈一谈商业用户比较关心的性质,严格来讲这个性质不是TI-ONE本身的,而是GaiaStack赋予的。

第一个是专用集群,当用户数据量较大时,我们可以提供多个完整集群让他使用,当用户的数据比较小的时候,可以多个用户共享集群,我们做了很好的多租户,用户的资源和数据隔离。支持热升级,业务不中断,用户无感知。支持主备自动切换的高可用,当服务量增大时,会自动加载新的实例,并自动负载均衡。
最后我们看看用户,我们公司内外都有很多的用户,在公司内比如腾讯游戏、微信、应用宝、QQ音乐等等都是我们的用户。

最后发个福利,大家可以通过扫码来获得试用或者文档。

更多有关TI-ONE详情,请点击下方获取。
问答
相关阅读
此文已由作者授权腾讯云+社区发布,原文链接:https://cloud.tencent.com/developer/article/1136172?fromSource=waitui
一站式机器学习平台TI-ONE是什么?——云+未来峰会开发者专场回顾的更多相关文章
- 新时代运维重器 Tencent Hub 最佳实践——云+未来峰会开发者专场回顾
		欢迎大家前往腾讯云+社区,获取更多腾讯海量技术实践干货哦~ 演讲者:邹辉 腾讯云 PaaS 产品总监 背景:5月23-24日,以"焕启"为主题的腾讯"云+未来" ... 
- TXSQL:云计算时代数据库核弹头——云+未来峰会开发者专场回顾
		欢迎大家前往腾讯云+社区,获取更多腾讯海量技术实践干货哦~ 5月23-24日,以"焕启"为主题的腾讯"云+未来"峰会在广州召开,广东省各级政府机构领导.海内外业 ... 
- 万物智联,腾讯云 IoT 边缘计算揭秘——云+未来峰会开发者专场回顾
		欢迎大家前往腾讯云+社区,获取更多腾讯海量技术实践干货哦~ 背景:现在是万物互联的时代,智能穿戴设备,智能家居,无人商业,改变了我们的生活方式.预计到2021年,全球物联网设数将达到150亿,超过手机 ... 
- 日调度万亿次,微服务框架TSF大规模应用——云+未来峰会开发者专场回顾
		欢迎大家前往腾讯云+社区,获取更多腾讯海量技术实践干货哦~ 演讲者:张浩 腾讯云中间件产品负责人 背景:众多开发者中,一定经历类似的甜蜜烦恼,就是当线上业务规模越来越大,系统分支发展越来越多的时候,初 ... 
- 腾讯云AI平台张文杰:构建一站式机器学习服务平台
		欢迎大家前往腾讯云+社区,获取更多腾讯海量技术实践干货哦~ 5月24日,以"无界数据无限智能"为主题的腾讯"云+未来"峰会AI大数据分论坛在广州拉开帷幕.此次分 ... 
- 阿里重磅开源全球首个批流一体机器学习平台Alink,Blink功能已全部贡献至Flink
		11月28日,Flink Forward Asia 2019 在北京国家会议中心召开,阿里在会上发布Flink 1.10版本功能前瞻,同时宣布基于Flink的机器学习算法平台Alink正式开源,这也是 ... 
- Train-Alypay-Cloud:蚂蚁大数据平台培训开课通知(第三次)- 培训笔记3(机器学习平台)
		ylbtech-Train-Alypay-Cloud:蚂蚁大数据平台培训开课通知(第三次)- 培训笔记3(机器学习平台) 机器学习平台 一站式可视化机器学习 https://pai.cloud.ali ... 
- CODING 2.0 服务升级:一站式服务体系助力企业研发上云
		近日,CODING 在 KubeCon 2019 上海站上正式推出了 DevOps 的一站式解决方案: CODING 2.0,除了进行 产品 及 产品理念 的升级,还对用户服务进行了整体升级,主要涵盖 ... 
- 一站式自动化测试平台 http://www.Autotestplat.com
		Autotestplat 一站式自动化测试平台及解决方案 自动化平台开发 3.1 自动化平台开发方案 3.1.1 功能需求 支持 API.AppUI.WebUI 性能等自动化测试,集成实现测试用例管理 ... 
随机推荐
- Echarts X轴内容过长自动隐藏,鼠标移动上去显示全部名称方法
			最近公司做项目,使用echarts做开发,碰到一些数据的名称很长导致图例展示的效果不是很好,自己写了一个方法,当X轴内容过长时自动隐藏,鼠标移动上去显示全部名称 样例: 图二是鼠标移动到名称显示的,怎 ... 
- [LeetCode 题解]: ZigZag Conversion
			前言 [LeetCode 题解]系列传送门: http://www.cnblogs.com/double-win/category/573499.html 1.题目描述 The string ... 
- C#多线程编程实战1.1创建线程
			using System;using System.Collections.Generic;using System.Linq;using System.Text;using System.Threa ... 
- HttpRunnerManager接口自动化测试框架在win环境下搭建教程
			近几日一直在研究如何把接口自动化做的顺畅,目前用的是轻量级jmeter+ant+Jenkins自动化测试框架,目前测试界的主流是python语言,所以一直想用搭建一个基于python的HttpRunn ... 
- 求解任意图的最小支配集(Minimun Dominating Set)
			给定一个无向图G =(V,E),其中V表示图中顶点集合,E表示边的集合.G的最小控制顶点集合为V的一个子集S∈V:假设集合R表示V排除集合S后剩余顶点集合,即R∩S=∅,R∪S=V:则最小控制顶点集合 ... 
- “全栈2019”Java第七十四章:内部类与静态内部类相互嵌套
			难度 初级 学习时间 10分钟 适合人群 零基础 开发语言 Java 开发环境 JDK v11 IntelliJ IDEA v2018.3 文章原文链接 "全栈2019"Java第 ... 
- [agc004f]Namori 贪心
			Description  现在给你一张NN个点MM条边的连通图,我们保证N−1≤M≤NN−1≤M≤N,且无重边和自环.  每一个点都有一种颜色,非黑即白.初始时,所有点都是白色的.  想通过执行 ... 
- bzoj1800飞行棋
			题目链接 简单模拟 真的不敢相信ahoi09年的题竟然是这个难度 首先,一个必须要知道的定理是:圆上只有直径所对的圆周角是直角. 然后就很显然了, 只有两条不重合的直径上的四个点才能组成一个矩形, 所 ... 
- bzoj2754:[SCOI2012]喵星球上的点名(后缀自动机)
			Description a180285幸运地被选做了地球到喵星球的留学生.他发现喵星人在上课前的点名现象非常有趣. 假设课堂上有N个喵星人,每个喵星人的名字由姓和名构成.喵星球上的老师会选择M个串 ... 
- 如何实现 Python 中 selnium 模块的换行
			如何实现 Python 中 selnium 模块的换行 三种方法: 直接调用 .submit() 方法,常使用在用户密码登录中 # driver.find_element_by_xpath('//*[ ... 
