背景知识

近些年随着机器学习、深度学习等技术的不断发展,人工智能在越来越多的场景得到了应用,如人脸识别、图像识别、语音识别、语音生成、自然语言处理、决策分析等等,让机器拥有了听、说、看和思考的能力,很大程度上解放了原来需要耗费的巨大人力,提高了生产力。

正因为如此,现在越来越多的行业和场景,想要拥有人工智能,作为自己业务的重要部分。在过去,想要实现自己的人工智能,需要组建人工智能算法团队、采集大量的数据并做标记、再经过长时间大数据量的训练后得出模型,这是一个漫长且高成本的过程。尤其是大量的数据采集和标记,对于大部分团队来说是不现实的。所以后来市面上就出现了很多把某项人工智能能力封装好的 SDK,这些团队把模型训练封装后,以收取授权费的方式提供给使用方,在这方面人脸识别 SDK 和 OCR SDK 算是较早成型的产品,Face++ 和商汤等团队都做过这样的实现。这样就很大程度上降低了人工智能引入的成本,让应用场景可以快速落地和运行,不过这种实现慢慢的也展现出一些弊端,因为数据模型本身的体积大、不易更新等问题,应用在接入几个不同能力的 SDK 后,体积就会变得很大,而且只能通过重新发布才能接入新的 SDK,所以后来就出现了基于云服务的 API 形式,运算过程和模型都在云端,应用中只需要通过认证和 API 调用就可以完成人工智能服务的使用,随着 5G 网络传输速度的提升和云服务器运算能力的不断提升,云服务中的人工智能被广泛的运用起来。

在各大云服务中,AWS、Azure、Google Cloud 和国内的阿里云、腾讯云、京东云、百度云等都提供了很丰富的人工智能服务。而 Microsoft Azure 认知服务,算是其中实现全面性和效果都很不错的一个,我们针对它做一下更详细的分析。

服务概述

Azure 认知服务是基于微软 Azure 云服务的 AI 能力的集合,开发者可以使用它快速使用人工智能服务,主要分为视觉、语音、语言、Web 搜索和决策五个部分,每个部分包含了一下服务能力。

官网介绍:https://azure.microsoft.com/zh-cn/services/cognitive-services/

1. 视觉

视觉是现在市面上非常常用的 AI 能力,国内的 AI 四小龙旷视、商汤、云从、依图都是从计算机视觉,或者更具体的人脸识别开始的。视觉主要会覆盖人脸识别、人脸检测、人体检测、物体识别、证件识别、文字识别等等。

而微软 Azure 认知服务的定义是识别和确定你的图片、视频和数字墨迹内容,为它们添加描述文字和索引,并审查这些内容,服务范围包括了:计算机视觉、自定义视觉服务、人脸、表单识别器、墨迹识别器和视频索引器。

计算机视觉 - 通用的计算机图像识别分类能力,对开发者提供的图像进行处理并返回图像的信息,包括标签、分类和识别等,通常会用于图像分类、图像打标签和图像三鉴等;

自定义视觉服务 - 自定义视觉是一种认知服务,用于生成、部署和改进自己的图像分类器。 这项服务的特点是支持用户自定义的图像数据集和标签分类,对于没有机器学习训练环境的开发者还是很实用的;

人脸 - 人脸相关的 AI 能力,主要包括人脸检测和人脸识别。这项能力被广泛的应用在人群分析、人脸身份验证、刷脸支付、根据人脸的相册分组等场景;

表单识别器 - 该服务使用机器学习技术从表单文档中识别和提取文本、键值对和表数据。 它会引入表单中的文本并输出包含原始文件中的关系的结构化数据;

墨迹识别器 - 识别输入中的形状和手写内容,以墨迹笔划为输入内容,输出为识别后的结果数据;

视频索引器 - 根据多个通道(语音、声乐、视觉对象)使用机器学习模型来提取视频中的深度见解,在很多 UGC 视频平台中,可以方便的为用户作品进行索引和标签化,并能很方便的检测视频的合法合规性等;

2. 语音

语音服务也是用途很广泛的服务能力,国内的讯飞、思必驰等公司都是在语音方面很有建树的公司,语音服务一般会包括语音识别、语音合成等方向。

微软的语音服务,主要包括语音识别、语音合成、发音人识别和检测等,服务包括:语音服务、说话人识别。

语音服务 - 语音服务主要包括语音识别、语音合成、语音翻译、语音助手等功能;常见的语音搜索就是利用了语音识别功能,而语音合成主要用户机器由文字合成语音,高德的地图播报使用的就是语音合成功能,语音翻译主要是实现对语音输入进行分析和翻译,而语音助手比如 Siri、Cortana 等利用的就是 bot 对用户语音的识别和分析等;

说话人识别 - 说话人识别主要包括说话人检测和说话人识别能力,分别为了解决是不是真人在说话和是谁在说话的问题,常用在语音验证信息的真人验证和说话人身份识别;

3. 语言

语言服务主要用于语言内容理解、文本内容分析等,通过该服务可以很好地进行语言内容的理解和关键信息分析提取、语言的情绪分析等。

微软的语言服务,主要包括语言理解、QnA Maker、文本分析、文本翻译。

语言理解 - 可将自定义机器学习智能应用到自然语言文本,以便预测整体含义并提炼出相关的详细信息;

QnA Maker - 一个基于云的自然语言处理 (NLP) 服务,它可以轻松地基于数据创建自然对话层。 使用该服务可以基于自定义的信息知识库 (KB),针对任何给定的自然语言输入查找最适当的回答;

文本分析 - 一种基于云的服务,它对原始文本提供高级自然语言处理,并且包含四项主要功能:情绪分析、关键短语提取、语言检测和实体识别;

文本翻译 - 文本翻译是一种基于云的机器翻译服务,使用先进的神经机器翻译技术并提供统计机器翻译技术;

4. 搜索

搜索服务的应用场景很多,可以实现对网页、文字、图像、视频和新闻能内容的搜索,在很多应用场景中可以基于搜索内容做进一步处理。

微软的搜索服务包括必应新闻搜索、必应视频搜索、必应 Web 搜索、必应自动建议、必应自定义搜索、必应实体搜索、必应图像搜索、必应视觉搜索、必应当地企业搜索和必应拼写检查。通过这些服务的名称,很容易能发现服务的能力范围,比如必应视频搜索,就是基于搜索词对视频内容和标签进行的搜索,而必应图像搜索,显然是针对图像集的搜索。

5. 决策

决策服务主要是基于 AI 能力对决策进行支持,包括对决策风险的分析和检测,基于数据对决策进行数据支撑分型、个性化分析决策支撑等场景。

微软的决策服务包括异常探测器、内容审查器和个性化体验创建服务。

异常探测器 - 可以使用异常检测器 API 来监视并检测与机器学习配合使用的时序数据中的异常。 异常检测器 API 可以自动标识最佳适配模型并将其应用到数据,不限行业、场景或数据量,通过这种方式进行适应;

内容审查器 - 一项认知服务,用于检查文本、图像和视频中是否存在可能的违规性内容、有风险内容或其他令人不适的内容,该审查器会用到文本分析和图像检测、视频索引器等基础能力;

个性化体验创建服务 - 根据你提供的有关内容和上下文的实时集合信息,从内容项中选择最佳项,常见的应用场景包括千人千面的个性化推荐等;

结语

上面通过简单的文字描述,介绍了 Azure 认知服务的概况,接下来会针对各种不同的服务进行更深入的分析、基础使用方式介绍和基于实际场景的用法分析等。

Azure 认知服务概述的更多相关文章

  1. 技术博客:Azure 认知服务

    Azure 认知服务 1.概述 ​ 微软认知服务(Microsoft Cognitive Services)集合了多种智能API以及知识API,使每个开发人员无需具备机器学习的专业知识就能接触到 AI ...

  2. Azure 认知服务 (2) 计算机视觉API - 分析图像

    <Windows Azure Platform 系列文章目录> 在上一节内容中,笔者介绍了微软认知服务的概览. 在本节中,笔者将详细介绍微软认知服务中的一种:计算机视觉 (Computer ...

  3. Azure 认知服务 (5) 计算机视觉API - 使用C#代码实现读取图片中的文字(OCR)功能

    <Windows Azure Platform 系列文章目录> 在笔者之前的文章:Azure 认知服务 (4) 计算机视觉API - 读取图片中的文字 (OCR) 介绍了使用用户界面,在海 ...

  4. Azure 认知服务 (4) 计算机视觉API - 读取图片中的文字 (OCR)

    <Windows Azure Platform 系列文章目录> 微软Azure认知服务的计算机视觉API,还提供读取图片中的文字功能 在海外的Windows Azure认知服务的读取图片功 ...

  5. Azure认知服务之Face API上手体验

    Azure认知服务:Face API Face API是Azure认知服务之一,Face API有两个主要功能: 人脸检测 Face API可在图像中以高精度人脸位置检测多达64个人脸.图像可以通过文 ...

  6. Azure 认知服务 (3) 计算机视觉API - 分析图像,使用C#代码

    <Windows Azure Platform 系列文章目录> 在上一节中Azure 认知服务 (2) 计算机视觉API - 分析图像,笔者介绍了如何使用API测试控制台进行调试. 本章将 ...

  7. Azure认知服务的实际应用-资讯采集推送

    Azure认知服务的实际应用-资讯采集推送 演示 实现的是通过使用各种azure服务,每天自动获取资讯.博客,定时推送到公众号的功能! 微信公众号搜索TechViews,或直接扫描二维码关注,每天推送 ...

  8. Azure 认知服务--计算机视觉 API - 分析图像

    在本节中,笔者将详细介绍 Azure 认知服务中的一种:计算机视觉 (Computer Vision) API. 我的一个客户有需求,他们需要消费者与自己的产品合照,然后上传到服务器并转发到朋友圈. ...

  9. Azure认知服务之表格识别器

    认知服务 Azure 认知服务的目标是帮助开发人员创建可以看.听.说.理解甚至开始推理的应用程序. Azure 认知服务中的服务目录可分为五大主要支柱类别:视觉.语音.语言.Web 搜索和决策.开发人 ...

随机推荐

  1. lnmp一键安装,安装php时失败

    查看安装日志 直接cd进入根目录报错内容:configure: error: mcrypt.h not found. Please reinstall libmcrypt 解决办法如下#使用wget可 ...

  2. Java面向对象程序设计第8章3-5

    Java面向对象程序设计第8章3-5 3.String类型有什么特点? 一旦赋值,便不能更改其指向的字符对象 如果更改,则会指向一个新的字符对象 不能为null 4.String什么时候进行值比较,什 ...

  3. 深入CAS的底层实现机制,以及对应的使用风险

    概述 CAS(Compare-and-Swap),即比较并替换,是一种实现并发算法时常用到的技术,Java并发包中的很多类都使用了CAS技术.CAS也是现在面试经常问的问题,本文将深入的介绍CAS的原 ...

  4. 使用spring框架创建最简单的java web程序(IDEA商业版)

    项目目录如下(IDEA社区版好像无法识别webapp目录?原因见https://www.cnblogs.com/bityinjd/p/9284378.html): 工具:  IDEA 1.首先使用ma ...

  5. 公子奇带你一步一步了解Java8中Lambda表达式

    在上一篇<公子奇带你一步一步了解Java8中行为参数化>中,我们演示到最后将匿名实现简写为 (Police police) -> "浙江".equals(poli ...

  6. java基础之----非空判断

    大家好,第一次写博客,一直想写博客,用于自我总结,也用于帮助新同学成长. 平常我们开发的时候,用到很多非空判断,但是很多同学用到的地方不是很准确,这里,我把自己平时遇到的坑跟大家说说.我废话不多,只想 ...

  7. echo 传义序列

    echo 传义序列:\a 警示字符\b 退格\c 输出中忽略最后的换行符\f 清屏\n 换行\r 回车\t 水平制表符\v 垂直制表符\\ 反斜杠字符\0ddd 将字符表示成1到3位的八进制数值

  8. AcWing 251. 小Z的袜子| 分块+莫队

    传送门 题目描述 作为一个生活散漫的人,小Z每天早上都要耗费很久从一堆五颜六色的袜子中找出一双来穿. 终于有一天,小Z再也无法忍受这恼人的找袜子过程,于是他决定听天由命. 具体来说,小Z把这N只袜子从 ...

  9. 基于Arduino的按键控制LED实验

    I/O 口的意思即为INPUT 接口和OUTPUT 接口,到目前为止我们设计的小灯实验都还只是应用到Arduino 的I/O 口的输出功能,这个实验我们来尝试一下使用Arduino的I/O 口的输入功 ...

  10. TensorFlow——批量归一化操作

    批量归一化 在对神经网络的优化方法中,有一种使用十分广泛的方法——批量归一化,使得神经网络的识别准确度得到了极大的提升. 在网络的前向计算过程中,当输出的数据不再同一分布时,可能会使得loss的值非常 ...