鸿蒙(HarmonyOS)原生AI能力之文本识别

原生智能介绍

  • 在之前开发中,很多场景我们是通过调用云端的智能能力进行开发。例如文本识别、人脸识别等。

  • 原生即指将一些能力直接集成在本地鸿蒙系统中,通过不同层次的AI能力开放,满足开发者的不同场景下的诉求,降低应用开发门槛,帮助开发者快速实现应用智能化

有哪些原生智能能力

  • 基础视觉服务
  • 基础语音服务
  • 端侧模型部署
  • 端侧推理
  • 意图框架
  • .........

基础视觉服务 - Core Vision Kit

  • Core Vision Kit(基础视觉服务)是机器视觉相关的基础能力,接下来要导入的类,都在@kit.VisionKit中例如本篇要讲的文字识别即是如此。

文本识别介绍与使用

  • 概念:将图片中的文字给识别出来

  • 使用 textRecognition 实现文本识别

  • 限制:

    • 仅能识别5种语言类型

      • 简体中文、繁体中文、英文、日文、韩文
  • 使用步骤

    1. 导入textRecognition

      import { textRecognition } from '@kit.CoreVisionKit'
    2. 实例化visionInfo对象,用来准备待识别的图片(需PixelMap类型)

      let visionInfo: textRecognition.VisionInfo = {
      pixelMap: '待识别图片'
      };
    3. 实例化TextRecognitionConfiguration对象,设置识别配置(目前仅有是否开启朝向检测一项配置)

      let textConfiguration: textRecognition.TextRecognitionConfiguration = {
      // 是否开启朝向检测
      isDirectionDetectionSupported: false
      };
    4. 调用textRecognition的recognizeText接口传入以上两个对象,开启识别并对识别结果进行处理,得到的是TextRecognitionResult类型结果,这个对象的value属性即为识别结果

      textRecognition.recognizeText(visionInfo, textConfiguration)
  • 这里解释一下这几步

    • 你需要用textRecognition,所以需要先找到它,也即导入,这没什么好说的

    • 你需要用它来帮你识别图片,那你是不是应该把需要识别的图片给它?所以第一个参数就是给他传递一个图片,只不过这个图片只能传PixelMap类型的(这就是为什么上篇我要写PixMap的原因),但是这个图片不能直接传,要包装成VisionInfo类型的对象(虽然目前为止,这个对象只有这一个属性,但保不齐未来会加)

      然后就是设置一下它识别的相关参数,它目前也只有一个参数,叫isDirectionDetectionSupported,设置是否开启朝向检测,因为有的图片可能是正的,有的图片可能是反的斜的。所以对于反的斜的图片如果这项开启为true,则会检测的更为准确。但是经过猫林老师肉测,其实开不开启扫描反的斜的图片,得到的结果都差不多了。所以可以看自己选择。顺便一提,这个参数可以不传,不传默认是true。然后猫林老师觉得:未来随着API发展,可能会多一些参数也说不准

    • 最后即为调用其进行识别的方法,也即recognizeText开始识别

    • 根据上面所说的,其实上面说的四步,也可以极简改为两步,代码如下

      import { textRecognition } from '@kit.CoreVisionKit'
      
      textRecognition.recognizeText({ pixelMap: '待识别图片' })
      • 解释:这里就相当于没传第二个参数,它默认值即为true,也即开启朝向检测。
    • 至于如何读取相册图片,以及把图片解码变成PixelMap,不是今天分享的主题,且之前猫林老师有两篇文章分别讲过不会的可以看之前文章,所以这里直接给代码(可看注释)

      // 1. 使用PhotoViewPicker选择相册图片
      let photoPicker = new photoAccessHelper.PhotoViewPicker();
      // 2. 使用select方法开始选择图片
      photoPicker.select({
      // 设置只选择图片
      MIMEType: photoAccessHelper.PhotoViewMIMETypes.IMAGE_TYPE,
      // 设置最大只能选择1张
      maxSelectNumber: 1
      })
      .then((res: photoAccessHelper.PhotoSelectResult) => {
      // res参数里的photoUris属性即为选择的图片结果数组(因为可以选择多张),每个元素得到的是临时路径
      // 用fs打开这个路径
      let fileSource = fileIo.openSync(res.photoUris[0], fileIo.OpenMode.READ_ONLY);
      // 使用createImageSource方法将图片文件流常见成图片源码
      let imageSource = image.createImageSource(fileSource.fd);
      // 再使用createPixelMap方法,将图片源码制作成PixelMap类型
      const pixelMap = imageSource.createPixelMapSync()
      // 后续使用textRecognition的recognizeText那一套代码进行识别即可
      })

文本识别展示案例

  • 我们来实现如下图的效果

    • 界面上从上往下放:

      • Image:显示选择的待识别图片
      • Button:选择相册里的图片
      • Button:开始识别按钮
      • TextArea:显示识别后的结果,使用TextArea的原因是它对比Text会多一个滚动效果(防止内容过多显示不全)
  • 结合上面说的使用方法,最终文本识别代码如下

    import { photoAccessHelper } from '@kit.MediaLibraryKit'
    import { fileIo } from '@kit.CoreFileKit'
    import { image } from '@kit.ImageKit'
    import { textRecognition } from '@kit.CoreVisionKit' @Entry
    @Component
    struct Index {
    @State text: string = '识别结果'
    @State imgPixelMap: PixelMap | null = null build() {
    Column({ space: 20 }) {
    Button('打开图片')
    .width('85%')
    .onClick(async () => {
    const uri = await this.selectPhoto()
    if (uri) {
    const pixelMap = await this.getPixMap(uri)
    this.imgPixelMap = pixelMap
    }
    }) Button('开始识别')
    .width('85%')
    .onClick(() => {
    this.recognize()
    }) Image(this.imgPixelMap)
    .objectFit(ImageFit.Contain)
    .height('45%') Text(this.text)
    .width('85%')
    .layoutWeight(1)
    .border({ style: BorderStyle.Dotted, width: 5, color: Color.Red })
    }
    .width('100%')
    .height('100%')
    } async selectPhoto() {
    try {
    // 实例化照片选择器
    const picker = new photoAccessHelper.PhotoViewPicker()
    // 选择图片
    const uris = await picker.select({
    MIMEType: photoAccessHelper.PhotoViewMIMETypes.IMAGE_TYPE,
    maxSelectNumber: 1
    })
    return uris.photoUris[0] } catch {
    console.log('err')
    return null
    }
    } // 根据图片路径转PixelMap
    async getPixMap(uri: string) {
    try {
    const imgSrc = await fileIo.open(uri, fileIo.OpenMode.READ_ONLY)
    let source = image.createImageSource(imgSrc.fd)
    return source.createPixelMapSync()
    } catch {
    console.log('error' + uri)
    return null
    }
    } // 文字识别
    async recognize() {
    const info: textRecognition.VisionInfo = {
    pixelMap: this.imgPixelMap!
    }
    const res = await textRecognition.recognizeText(info, {
    isDirectionDetectionSupported: false
    })
    this.text = res.value
    }
    }

总结

  • 今天猫林老师给大家分享了鸿蒙提供的原生AI能力。其实听起来名字很高大上,用起来非常简单。这是因为鸿蒙帮我们做了高度封装,我们无须再关注OCR的相关知识,只需要使用鸿蒙提供的接口即可。所以,华为为了推广鸿蒙,发展鸿蒙生态,真的为开发者想了好多。这样的华为,你爱了吗?
  • 友情提醒:本篇内容只适合用真机测试,模拟器无法出效果。
  • P.S:根据猫林老师肉测,在API12版本中的Mac模拟器成功出效果。其他版本都不行。所以建议有条件还是上真机。

鸿蒙(HarmonyOS)原生AI能力之文本识别的更多相关文章

  1. 最全华为鸿蒙 HarmonyOS 开发资料汇总

    开发 本示例基于 OpenHarmony 下的 JavaScript UI 框架,进行项目目录解读,JS FA.常用和自定义组件.用户交互.JS 动画的实现,通过本示例可以基本了解和学习到 JavaS ...

  2. 个人永久性免费-Excel催化剂功能第86波-人工智能之图像OCR文本识别全覆盖

    在上一年中,Excel催化剂已经送上一波人工智能系列功能,鉴于部分高端用户的需求,再次给予实现了复杂的图像OCR识别,包含几乎所有日常场景,让公司个人手头的图像非结构化数据瞬间变为可进行结构化处理分析 ...

  3. 课程报名 | 基于模型训练平台快速打造 AI 能力

    我们常说的 AI 通用能力往往不针对具体的行业应用,而是主要解决日常或者泛化的问题,很多技术企业给出的方案是通用式的,比如通用文字识别,无论识别身份证.驾驶证.行驶证等,任何一张图片训练后的模型都会尽 ...

  4. AI时代的OCR识别技术浅析

    人工智能这个词可谓是耳熟能详,近几年人工智能热潮再次席卷而来,引起轰动的要数google的AlphaGo,相继打败了围棋界的韩国选手李世石以及世界冠军柯洁,见证了人工智能发展的里程碑式的变革,人工智能 ...

  5. 解锁云原生 AI 技能 - 开发你的机器学习工作流

    按照上篇文章<解锁云原生 AI 技能 | 在 Kubernetes 上构建机器学习系统>搭建了一套 Kubeflow Pipelines 之后,我们一起小试牛刀,用一个真实的案例,学习如何 ...

  6. 鸿蒙应用程序Ability(能力)看这一篇就够

    本节概述 什么是Ability Ability分类 Ability生命周期 Ability之间跳转 什么是Ability Ability意为能力,是HarmonyOS应用程序提供的抽象功能.在Andr ...

  7. 公有云上构建云原生 AI 平台的探索与实践 - GOTC 技术论坛分享回顾

    7 月 9 日,GOTC 2021 全球开源技术峰会上海站与 WAIC 世界人工智能大会共同举办,峰会聚焦 AI 与云原生两大以开源驱动的前沿技术领域,邀请国家级研究机构与顶级互联网公司的一线技术专家 ...

  8. pytesser图片文本识别

    python图片文本识别使用的工具是PIL和pytesser.因为他们使用到很多的python库文件,为了避免一个个工具的安装,建议使用pythonxy,这个工具的介绍可参考baidu. pytess ...

  9. 超简单集成华为HMS ML Kit文本识别SDK,一键实现账单号自动录入

    前言   在之前的文章<超简单集成华为HMS Core MLKit通用卡证识别SDK,一键实现各种卡绑定>中我们给大家介绍了华为HMS ML Kit通用卡证识别技术是如何通过拍照自动识别卡 ...

  10. 手把手带你体验鸿蒙 harmonyOS

    wNlRGd.png 前言 本文已经收录到我的 Github 个人博客,欢迎大佬们光临寒舍: 我的 GIthub 博客 学习导图 image.png 一.为什么要尝鲜 harmonyos? wNlfx ...

随机推荐

  1. CTF中特别小的EXE是怎么生成的

    我们在打CTF时候,出题的爷爷们给出的exe都很小 就10k左右,有的甚至就5k,那时候我很郁闷啊.现在我也能了啊哈哈 不多bb按如下操作: 我们来看看正常的release生成的代码 #include ...

  2. Android10.0系统启动之Launcher(桌面)启动流程-[Android取经之路]

    Launcher的启动经过了三个阶段: 第一个阶段:SystemServer完成启动Launcher Activity的调用 第二个阶段:Zygote()进行Launcher进程的Fork操作 第三个 ...

  3. 把数字转换RMB形式

    方法1 : var str = '12345679' let strNew = str.replace(/\B(?=(?:\d{3})+\b)/g, ',') // 匹配单词边界替换为逗号 方法2: ...

  4. 0602-nn.Module

    0602-nn.Module 目录 一.nn.Module 1.1 构建一层网络--全连接层 1.2 构建多层网络--多层感知机 pytorch完整教程目录:https://www.cnblogs.c ...

  5. 《你不知道的JavaScript》读书笔记(一):JS是如何查找变量的

    这本书之前囫囵地看了一遍,确实点明了很多以前不清不楚的点,但是仅仅看一遍是没什么用的,最近面试遇到不少原理相关的题感觉答得不理想,回头看下其实以前都理解过,但是没有记下来,正好结合实际的问题来再学习一 ...

  6. 使用 Cilium 作为网络插件部署 K8s + KubeSphere

    Cilium 简介 Cilium 是一个用于容器网络领域的开源项目,主要是面向容器而使用,用于提供并透明地保护应用程序工作负载(如应用程序容器或进程)之间的网络连接和负载均衡. Cilium 在第 3 ...

  7. Bitmap 和 布隆过滤器傻傻分不清?你这不应该啊

    大家好,我是小富- 有个兄弟私下跟我说,他在面试狗东时,有一道面试题没回答上来:Redis 的Bitmap和布隆过滤器啥区别与关系? 其实就是考小老弟对这两种工具的底层数据结构是否了解,不算太难的题. ...

  8. 使用notepad++批量在每行首尾添加内容

    1 简介 在程序员开发过程中,一个不错的工具是notepad++,该工具为notepad的增强,增强了许多的功能,包括程序员喜欢的列块编辑模式,支持众多的插件,例如json格式化,支持markdown ...

  9. hydra爆破工具

    hydra爆破工具 命令详细: 1.破解ssh: hydra -l 用户名 -p 密码字典 -t 线程 -vV -e ns ip ssh hydra -l 用户名 -p 密码字典 -t 线程 -o s ...

  10. duxapp放弃了redux,在duxapp中局部、全局状态的实现方案

    全局状态 全局状态是一个很实用的功能,例如管理用户信息,组件间状态共享等功能都需要用到全局状态,react有很多成熟的全局状态管理工具,但是很多写起来太过麻烦,duxapp提供了几种应对不同场景的全局 ...