昇腾AI计算,618冲动消费也不怕
摘要:近期大热的图像识别处理核赔技术,可应对剁手党们冲动购物之后汹涌而至的退货场景。那么,这背后运用的技术原理是怎样? AI计算平台又能否重构企业业务引擎呢?
随着AI技术的挖掘与应用落地,也为每一年的电商大促带来了更多新鲜和惊喜。双11、618等活动走到今天已经有十多年的时间了,从开始的价格战到现如今的全方位的购物体验的比拼,电商大促已不再是个单纯的购物狂欢,更是对电商行业方方面面的一次全面“大阅兵”。
电商大促其中,有关计算机视觉技术的应用也是层出不穷。基于CV进行以图搜图的“拍照购”,用户在互联网或现实中看到了感兴趣的商品,可以拍照或截图,通过拍照购在电商平台中搜索同款;电商大促节过后,随之而来的则是“退货潮”。针对这种情况,电商金融平台将引入图像识别技术处理核赔,以应对大批剁手党冲动购物之后汹涌而至的退货要求。那么,这背后应用的技术运行的原理是怎样的? AI计算平台能否满足客户的需求,重构企业业务引擎呢?
从卷积神经网络中的矩阵乘法(GEMM)说起
说起AI业务,就不得不提最经典的AlexNet。AlexNet模型于2012年提出,其被认为是计算机视觉领域最有影响力的模型之一。AlexNet网络主要包含八层,前五层是卷积层,最后三层是全连接层。 配合pooling及norm运算,以下列出所有卷积层和全连接层的参数规模以及每层的浮点计算量,从图中可以看出AlexNet网络的参数规模达到了6千万量级,计算量达到720MFlops。通过在横向比较几个经典的分类网络,参数规模以及计算量都是巨大的。那么从计算量的角度来看计算中99%以上都是卷积运算,本质都是矩阵运算。

在如此级别的规模参数及计算量下,矩阵运算如何加速,成为了视觉计算领域亟需解决的问题。举例:一个典型的16*16的两个矩阵乘运算,在不同硬件上是如何进行计算的?
在CPU中矩阵乘需要做3个for循环,每一位依次进行乘加运算,理论上需要16*16*16*2的时钟周期。
GPU中矩阵乘做了相关的优化,GPU是可以直接进行向量的乘加运算,那么上述运算可以拆解为16*16个乘加运算,即需要256个时钟周期。
昇腾处理器提供专门的矩阵乘运算单元,一个时钟周期就可以完成一次矩阵乘运算。其凭借着在AI推理上的优异性能以及超低功耗,被应用于昇腾AI计算解决方案。
昇腾AI计算解决方案,力算云上新视界
昇腾AI计算解决方案以极致算力,端边云融合、全栈创新,开放生态的硬核实力,助力行业客户在图片分类、目标检测、人体检测、人脸识别、车辆检测等AI 视觉类计算领域取得亮眼的成绩。

在IAAS层,昇腾AI计算解决方案可提供昇腾Ai推理实例——包括Ai1,KAi1,及可用于Ai训练的裸机实例KAt1。Ai1正在热卖中,点击购买。
在算子层,昇腾AI计算解决方案可支持主流框架TensorFlow与Caffe的算子,以及自定义算子的能力。基于算子层还提供Matrix标准化接口,用户可以通过基于Matrix标准化接口构建昇腾业务引擎。
同时,用户还可以使用华为昇腾Serving,对外提供RestFull API或gRPC请求,轻松解耦业务。上层再配合AI容器服务,轻松实现弹性伸缩,大大缩短业务部署周期。
如何用Matrix接口实现业务引擎
用户可以使用标准的Matrix接口实现业务引擎,通过SDK方式对外释放昇腾AI加速能力。
Matrix为通用业务流程执行引擎,运行于操作系统之上,业务应用之下。可以屏蔽操作系统差异,为应用提供统一的标准化接口,包括流程编排接口(支持C/C++语言、Python语言)和模型管家接口(支持C++语言)。
对于一个典型的业务流,通常包含数据读取,数据的预处理(图片的解码,前处理),模型推理,数据后处理等过程。
那么在Matrix框架中,可以把上述每个过程抽象为一个engine,engine就是特定功能的计算引擎。若干engine构成Graph,Graph负责对engine进行管理。Matrix是一个通用的业务流程执行引擎,能够管理Graph的生成,执行以及销毁。
Matrix计算流程
关于Matrix的计算流程,我们从创建流程、执行流程、销毁流程展开来看。
创建流程,如红色箭头所示:
根据Graph配置创建Graph对象。

上传离线模型文件和配置文件到Device侧。
初始化engine,推理Engine通过离线模型管家(AIModelManager)的Init接口加载模型。
执行流程,如灰色箭头所示:
输入数据
预处理Engine调用dvpp的api接口,进行数据预处理,例如对视频/图像进行编解码、抠图、缩放。
推理Engine调用离线模型管家(AIModelManager)的Process接口进行推理计算。
推理Engine调用Matrix提供的SendData接口将推理结果返回给DestEngine。DestEngine通过回调函数将推理结果返回给APP。
销毁流程,如蓝色箭头所示:
结束程序,销毁Graph对象。
Matrix数据流向和调用流程的双BUFF加成
数据流“0”拷贝
我们可以看到,在Matrix框架中数据流的传输性能是至关重要的。
在框架中单独提供了一套内存分配和释放接口,包括HIAI_DMalloc/HIAI_DFree、 HIAI_DVPP_DMalloc/HIAI_DVPP_DFree,支持C/C++语言。
其中,
HIAI_DMalloc/HIAI_DFree接口主要用于申请内存,再配合SendData接口从Host侧搬运数据到Device侧;
HIAI_DVPP_DMalloc/HIAI_DVPP_DFree接口主要用于申请Device侧DVPP使用的内存。
通过调用HIAI_DMalloc/HIAI_DFree、 HIAI_DVPP_DMalloc/HIAI_DVPP_DFree接口申请内存,能够尽量少拷贝,减少流程处理时间。
HIAI_Dmalloc在跨侧传输以及模型推理阶段,性能最优,主要优势体现在:
申请的内存是可以用于数据搬运对的,这样可以避免Matrix与数据传输模块间的数据拷贝。
申请的内存可以直接使能模型推理零拷贝机制,减少数据拷贝时间。
HIAI_DVPP_Dmalloc接口体现在:
申请的内存可以给DVPP使用,同时可以在DVPP使用完后透传给模型推理时使用。
如果不需要做模型推理,申请的内存中的数据可以直接回传给Host侧。

对用户友好的Host-Device的数据传输
在Host-Device间数据传输情况下,用HIAI_REGISTER_SERIALIZE_FUNC对自定义数据类型进行序列化/反序列化,可以实现高性能数据传输,节省传输时间。
Matrix通过“控制信息+数据信息”的形式描述要传输的数据,控制信息指用户自定义的数据类型,数据信息指需要传输的数据内容。为保证Host和Device之间的数据传输,Matrix提供如下机制:
在传输数据前,用户可调用HIAI_REGISTER_SERIALIZE_FUNC宏注册用户自定义数据类型、用户自定义序列化函数、用户自定义反序列化函数。
用户在本端调用SendData接口发送数据后,Matrix会做如下处理,处理流程如下:
调用用户自定义的序列化函数对控制信息序列化,将序列化后的控制信息放入内存(ctrlBuf)。
通过DMA(Direct Memory Access)映射将控制信息拷贝一份存放到对端的内存中,并保持本端与对端之间控制信息的映射关系。 指向数据信息的内存(dataBuf)指针已通过SendData接口的入参传入,dataBuf是由用户调用HIAI_DMalloc/HIAI_DVPP_DMalloc接口申请的,申请该内存后系统将本端的数据信息通过DMA映射拷贝一份存放到对端的内存中,并保持本端与对端之间数据信息的映射关系。
拼装消息发送给对端,主要将ctrlBuf的地址及大小、dataBuf的地址及大小发送到对端。
对端收到消息后,Matrix会调用用户自定义的反序列化函数解析对端已获取到的控制信息和数据信息,并将解析后的数据发送给对应的接收Engine进行处理。
对端解析数据后,控制信息已使用完成,因此可以释放掉存放控制信息的内存(ctrlBuf),但由于存放控制消息的内存是在本端申请的,因此对端需要给本端发送释放ctrlBuf的消息。
本端收到消息后,释放ctrlBuf。
Engine在收到数据并完成所有处理后,便可以释放dataBuf了,但由于Matrix并不知道用户何时会使用完dataBuf,因此需要用户在实现反序列化函数时,dataBuf以智能指针返回并绑定析构器hiai::Graph::ReleaseDataBuffer。当智能指针结束生命周期析构时,便会自动调用析构器给本端发送释放dataBuf内存消息。
本端收到消息后,释放dataBuf。

以上,我们详细介绍了如何使用Matrix接口构建业务引擎,同时用户还可以集成昇腾Serving对外提供标准RestFull API或者gRPC请求,提供解耦的标准推理接口能力。或者配合AI容器服务,提供弹性伸缩,易于部署的能力,模型热替换的能力。

昇腾AI计算,618冲动消费也不怕的更多相关文章
- 【读一本书】《昇腾AI处理器架构与编程》--神经网络基础知识(2)
1 卷积神经网络:输入层 之前提到多层感知机的参数太多,导致训练耗时长并且对图像处理也不具有优势,因此大神们 就提出了多层神经网络,其中最经典的是卷积神经网络(Convolution Neural N ...
- Serverless助力AI计算:阿里云ACK Serverless/ECI发布GPU容器实例
ACK Serverless(Serverless Kubernetes)近期基于ECI(弹性容器实例)正式推出GPU容器实例支持,让用户以serverless的方式快速运行AI计算任务,极大降低AI ...
- 【华为昇腾】 序言:从昇腾AI软硬件平台聊起
2021年是很值得纪念的一年,从上半年开始跟随导师编写有关华为昇腾软件栈CANN的教材,一年的时间反复迭代 终于快要出版了. 这一系列博客可以视作我从编者的角度,重新梳理的全书思路.明年入职商汤之后要 ...
- 用昇腾AI护航“井下安全”
摘要:基于CANN(异构计算架构)打造的"智能矿山安全生产管理平台",能够更便捷和更高效地服务于更多矿山安全生产建设. 本文分享自华为云社区<华为携手云话科技助力矿山智能化, ...
- 未来已来,腾讯AI计算网络
欢迎大家前往腾讯云+社区,获取更多腾讯海量技术实践干货哦~ 作者:由鹅厂网事发表在云+社区 "鹅厂网事"由深圳市腾讯计算机系统有限公司技术工程事业群网络平台部运营,我们希望与业界各位志同道合的伙伴交流 ...
- 中国最强AI超级服务器问世,每秒提供AI计算2000万亿次
https://mp.weixin.qq.com/s/1EVczHp11OJ4GEjeE3z5cA 业内唯一以“AI计算”为核心的人工智能大会昨天发布了一份重要报告. 9月12日,<中国AI计算 ...
- 服务端、实时、大数据、AI计算
服务端.实时.大数据.AI计算,各种各样的计算,计算机本质是什么,计算机的本质是 利用compute的计算速度为人提供更优的计算结果. 所以实时也好,准实时.离线.AI本质上是两个维度,实时准实时强调 ...
- 昇腾AI 软硬件全栈平台
昇腾AI 软硬件全栈平台
- 端云协同,打造更易用的AI计算平台
内容来源:华为开发者大会2021 HMS Core 6 AI技术论坛,主题演讲<端云协同,HUAWEI HiAI Foundation打造更易用的AI计算平台>. 演讲嘉宾:华为海思AI技 ...
随机推荐
- 如何下载xshell家庭版
xshell是一个强大的安全终端模拟软件,它支持SSH1, SSH2, 以及Microsoft Windows 平台的TELNET 协议,加上友好炫酷的操作界面,深受广大码农的喜爱,是后端开发程序猿操 ...
- 剑指Offer之旋转数组的最小数字
题目描述 把一个数组最开始的若干个元素搬到数组的末尾,我们称之为数组的旋转.输入一个非递减排序的数组的一个旋转,输出旋转数组的最小元素.例如数组{3,4,5,1,2}为{1,2,3,4,5}的一个旋转 ...
- 4 CSS文本属性
CSStext(文本)属性可定义文本外观,比如文本颜色,对齐文本,装饰文本,文本缩进,行间距等 4.1文本颜色 color属性用于定义文本颜色. div { color: red; } 颜色表示方法: ...
- akka-typed(2) - typed-actor交流方式和交流协议
akka系统是一个分布式的消息驱动系统.akka应用由一群负责不同运算工作的actor组成,每个actor都是被动等待外界的某种消息来驱动自己的作业.所以,通俗点描述:akka应用就是一群actor相 ...
- super调用父类的属性方法
super:可以用来修饰属性 方法 构造器 当子类与父类中有同名的属性时,可以通过 super.此属性 显式的调用父类声明的属性 若想调用子类的同名的属性“this.此属性” 2.当子类重 ...
- 逃离CSDN
2012年2月18日,从CSDN搬家到这里.对于搬家的理由,总觉得该说点什么.我是在2012年1月29日又开始写博客的,在此之前我的CSDN博客闲置了10个月.从1月29日开始,不到1个月的时间建立了 ...
- css 禁用浏览器滚动条,初始最外层包含容器 wrapper
浏览器默认的视窗会随着滚动条滚动,绝对定位的元素会随着滚动条滚动,为了解决这个问题我们需要禁止浏览器的滚动条,然后在代码的最外层初始化一个 div(最外层包含容容器代替默认的视窗),是滚动天出现在最外 ...
- 用TensorFlow搭建一个万能的神经网络框架(持续更新)
我一直觉得TensorFlow的深度神经网络代码非常困难且繁琐,对TensorFlow搭建模型也十分困惑,所以我近期阅读了大量的神经网络代码,终于找到了搭建神经网络的规律,各位要是觉得我的文章对你有帮 ...
- Mysql查询语句,select,inner/left/right join on,group by.....[例题及答案]
创建如下表格,命名为stu_info, course_i, score_table. 题目: 有如图所示的三张表结构,学生信息表(stu_info),课程信息表(course_i),分数信息表(sco ...
- Java实现 洛谷 P6183 [USACO10MAR]The Rock Game S(DFS)
P6183 [USACO10MAR]The Rock Game S 输入输出样例 输入 3 输出 OOO OXO OXX OOX XOX XXX XXO XOO OOO PS: 因为每一位只有两种可能 ...