技术博客：Azure 认知服务

Azure 认知服务

1.概述

微软认知服务（Microsoft Cognitive Services）集合了多种智能API以及知识API，使每个开发人员无需具备机器学习的专业知识就能接触到 AI。借助这些API，可以将看、听、说、搜索、理解和加速决策的能力嵌入到应用中，并且能理解和解读我们通过自然交流方法所传达的需求，使开发者可以开发出更智能，更有吸引力的产品。

Azure 认知服务中的服务目录可分为五大主要支柱类别：视觉、语音、语言、Web 搜索和决策。

视觉API

服务名称	服务说明
计算机视觉	使用计算机视觉服务，你可以访问用于处理图像并返回信息的高级算法。
自定义视觉服务	通过自定义视觉服务可以生成自定义图像分类器。
人脸	使用人脸服务可访问高级人脸算法，从而实现人脸属性检测和识别。
表单识别器（预览版）	表单识别器从表单文档中识别并提取键值对和表数据；然后输出结构化数据，包括原始文件中的关系。
墨迹识别器（预览版）	使用墨迹识别器可以识别和分析数字墨迹笔划数据、形状和手写内容，并输出包含所有已识别实体的文档结构。
视频索引器	使用视频索引器从视频中提取见解。

语音API

服务名称	服务说明
语音服务	语音服务将支持语音的功能添加到应用程序。
说话人识别 API（预览版）	说话人识别 API 为说话人识别和验证提供算法。

语言API

服务名称	服务说明
语言理解 LUIS	使用语言理解服务 (LUIS)，应用程序可以理解用户以自己的语言表达的内容。
QnA Maker	通过 QnA Maker，可以从半结构化内容生成问答服务。
文本分析	文本分析提供对原始文本的自然语言处理，用于情绪分析、关键短语提取和语言检测。
文本翻译	文本翻译近乎实时地提供基于机器的文本翻译。

搜索API

服务名称	服务说明
必应新闻搜索	必应新闻搜索返回确定与用户查询相关的新闻文章列表。
必应视频搜索	必应视频搜索返回确定与用户查询相关的视频列表。
必应 Web 搜索	必应 Web 搜索返回确定与用户查询相关的搜索结果列表。
必应自动建议	通过必应自动建议，可向必应发送部分搜索查询词，并取回建议的查询列表。
必应自定义搜索	借助必应自定义搜索，可以为关注的主题创建定制的搜索体验。

决策API

服务名称	服务说明
异常探测器（预览版）	使用异常检测器可以监视并检测时序数据中的异常。
内容审查器	内容审查器监视可能的冒犯性、不可取和危险内容。
个性化体验创建服务	个性化体验创建服务可让你选择要显示给用户的最佳体验，并从其实时行为中学习信息。

在我们的项目中，主要使用到的是语言API中的文本分析，用于处理用户上传到服务器的已填好的表单，通过处理OCR识别出来的JSON文件，整合相关字段的文本内容和位置信息，使用此API以确定文本所对应的实体，比如名字、地址、邮箱、电话号码等，以便于进一步实现表单的自动生成和模型预测。此API可以有效识别文本中的实体并将其分类为名字、地址、日期/时间、数量等，已知实体也可以在 Web 上识别并链接到更多信息，其智能化的特性使本项目减少了在表单tag时的繁琐操作，可以很好的优化用户体验。

2.文本分析API

文本分析 API 是一种基于云的服务，它对原始文本提供高级自然语言处理，并且包含四项主要功能：情绪分析、关键短语提取、命名实体识别和语言检测。

情绪分析：通过在原始文本中分析有关积极和消极情绪的线索，使用情绪分析确定客户如何看待你的品牌或主题。此 API 针对每个文档返回介于 0 和 1 之间的情绪评分，1 是最积极的评分。分析模型已使用 Microsoft 提供的大量文本正文和自然语言技术进行预先训练。对于选定的语言，该 API 可以分析和评分提供的任何原始文本，并直接将结果返回给调用方应用程序。

关键短语提取：自动提取关键短语，以快速识别要点。例如，针对输入文本“The food was delicious and there were wonderful staff”，该 API 会返回谈话要点：“food”和“wonderful staff”。

命名实体识别：识别文本中的实体并将其分类为人员、地点、组织、日期/时间、数量、百分比、货币等。已知实体也可以在 Web 上识别并链接到更多信息。

语言检测：可以检测输入文本是用哪种语言编写的，并以多种语言、变体、方言和一些区域/文化语言报告请求中提交的每个文档的单一语言代码。语言代码与表示评分强度的评分相搭配。

本项目具体涉及到的是命名实体识别，对于其他类型API的使用未做深入分析，感兴趣的可以自行探索~(在线体验网站亲测好用)

2.1Azure资源获取

文本分析资源的密钥和终结点是调用此API的必备条件，因此需要为其创建 Azure 资源。然后获取生成的密钥，以便对请求进行身份验证。团队开发中我们使用的是同一个Azure账户，创建资源后即可在Azure门户中查找到相关密钥和终结点。

subscription_key = "<paste-your-text-analytics-key-here>"

endpoint = "<paste-your-text-analytics-endpoint-here>"

如无Azure账号，也可免费获取在七天内有效的试用密钥。注册之后，它将在 Azure 网站上提供。

2.2规划请求

请求中需包含原始非结构化文本形式的 JSON 数据(输入必须是JSON)，架构十分简单，包括以下列表中描述的元素：

元素	有效值	选项	使用情况
`id`	数据类型为字符串，但实际上文档 ID 往往是整数。	必选	系统使用你提供的 ID 来构建输出。为请求中的每个 ID 生成语言代码、关键短语和情绪分数。
`text`	非结构化原始文本，最多 5,120 个字符。	必选	对于语言检测，可以使用任何语言来表示文本。对于情绪分析、关键短语提取和实体标识，此文本必须使用支持的语言。
`language`	支持语言的 2 字符 ISO 639-1 代码	不定	需要情绪分析、关键短语提取、实体链接；语言检测为可选。排除语言检测不会有任何错误，但没有它会削弱分析。语言代码应对应你提供的 `text`。

示例：

documents = {"documents": [

{"id": "1", "text": "Microsoft was founded by Bill Gates and Paul Allen on April 4, 1975, to develop and sell BASIC interpreters for the Altair 8800."}

]}

2.3发布请求

对文本分析 API 的调用为 HTTP POST/GET 调用，可以用任何语言表示，和团队开发语言一致，在这里我们使用Python(Python 3.7)实现该调用。将此请求发布到注册期间建立的终结点，并追加所需的资源：命名实体识别，即将 /text/analytics/v2.1/entities 追加到文本分析基终结点，形成语言检测 URL)

entities_url = endpoint + "/text/analytics/v2.1/entities"

使用请求库将文档发送到 API。将订阅密钥添加到 Ocp-Apim-Subscription-Key 标头，并发送带 requests.post() 的请求。

headers = {"Ocp-Apim-Subscription-Key": subscription_key}

response = requests.post(entities_url, headers=headers, json=documents)

entities = response.json()

2.4处理响应

调用此API时数据不会存储在帐户中，会立即返回结果，输出将会根据 ID 以单个 JSON 文档的形式返回，因此需要在本地流式处理或存储响应。返回样例：

{

   "documents" : [

      {

         "id" : "1",

         "entities" : [

            {

               "name" : "Microsoft",

               "matches" : [

                  {

                     "wikipediaScore" : 0.49897989655674446,

                     "entityTypeScore" : 1.0,

                     "text" : "Microsoft",

                     "offset" : 0,

                     "length" : 9

                  }

               ],

               "wikipediaLanguage" : "en",

               "wikipediaId" : "Microsoft",

               "wikipediaUrl" : "https://en.wikipedia.org/wiki/Microsoft",

               "bingId" : "a093e9b9-90f5-a3d5-c4b8-5855e1b01f85",

               "type" : "Organization"

            },

		.......

         ]

      }

   ],

   "errors" : []

}

本项目的后续处理中，需要将识别出来的实体type与表单中的文本整合起来，按照一定的格式构造出新的表单，以用于模型训练。

3.相关问题

3.1识别粒度

文本分析API现已发布的有两个版本：

最新稳定版 API - v2.1
最新预览版 API - v3.0-Preview.1

此文档写明了两个版本对实体识别类型的差异以及增加的功能。在API使用的过程中，我们想要实现将类似于"1020 Enterprise Way Sunnayvale, CA 87659"的文本段识别为"Address"，但是在实际调用过程中，该API将字段里的每个单词分离，分别识别为"Quantity","Location","Quantity"，并且自动忽略了"Enterprise Way"字段，无法实现地缘政治实体的识别，只能提取出位置信息。但是在在线体验网站上，却能将该字段整体识别为"Address":

一开始使用的是2.1版本，但是将其更新为3.0版本也并未解决此问题，所以目前采取的处理方式是一旦识别到"Location"即将其处理为"Address"。可能出现的问题是由于实体识别的粒度不够精细，导致表单生成数据不合理的问题。

3.2安全性

由于实体识别过程涉及到表单中真实姓名、地址、邮箱等信息，所以调用该API的安全性也是必须得考虑的问题，需要了解发送给认知服务的数据是如何处理的。通过查阅相关文档，微软认知服务对于数据的隐私和安全性有比较完善的保护体系，由 Azure 基础结构提供支持，提供了企业级的安全性、可用性、合规性及可管理性，可参阅符合性产品/服务和隐私详细信息。此文档概述了 Azure 认知服务安全的各个方面，例如使用传输层安全性、身份验证、安全配置敏感数据，以及客户密码箱客户数据访问，再加上密钥管理和身份验证等操作，提供了比较全面的隐私和安全保护。