iOS 10 语音识别Speech Framework详解

最近做了一个项目，涉及到语音识别，使用的是iOS的speech Framework框架，在网上搜了很多资料，也看了很多博客，但介绍的不是很详细，正好项目做完，在这里给大家详解一下speech Framework的运用，使用的语言是Swift，文章结尾会给OC语言的网址，可以参照。

首先要做的准备，将开发的app版本设置为iOS 10，这是苹果在iOS 10 发布出来的时候新增的内容，低于这版本用不了，同时运行的设备系统也得保持在iOS 10 及以上。

废话不多说，先上代码。

语音识别需要用户给予权限，在info.plist文件中增加两个key:

NSMicrophoneUsageDescription - 这个 key 用于指定录音设备授权信息。注意，只有在用户点击麦克风按钮时，这条信息才会显示。
NSSpeechRecognitionUsageDescription - 这个 key 用于指定语音识别授权信息。

这里就不做UI了，将机制写出来，大家可以根据自己的需要完善。

import UIKit

import Speech

// 引用的框架是Speech,需要遵循的协议有两个

class ViewController: UIViewController ,SFSpeechRecognizerDelegate, SFSpeechRecognitionTaskDelegate {

    // 语音识别对象,这里直接给出识别语言(中文)

    private let speechRecognizer = SFSpeechRecognizer(locale: Locale.init(identifier: "zh_CN"))!

    // 识别请求

    private var recognitionRequest: SFSpeechAudioBufferRecognitionRequest?

    // 识别任务

    private var recognitionTask: SFSpeechRecognitionTask?

    // 设备音频

    private let audioSession = AVAudioSession.sharedInstance()

    // 声音输入引擎

    private let audioEngine = AVAudioEngine()

    // 麦克风按钮是否可点，取决于用户权限

    private var micButtonEnabled = false

    // 语音识别结果

    private var recordResult:String = ""

    // 说话间隔时间

    private var timer:Timer!

    override func viewDidLoad() {

        super.viewDidLoad()

        speechRecognizer.delegate = self

        // 语音识别权限请求

        SFSpeechRecognizer.requestAuthorization { (authStatus) in

            switch authStatus {

            case .authorized:

                // 通过授权

                self.micButtonEnabled = true

                break

            case .denied:

                // 拒绝授权

                self.micButtonEnabled = false

                break

            case .restricted:

                // 权限受限制

                self.micButtonEnabled = false

                break

            case .notDetermined:

                // 权限不明确

                self.micButtonEnabled = false

                break

            }

        }

    }

    // 这里就会出现一个问题，比如说用户同意了语音识别权限，麦克风按钮可点，返回桌面进入设置，找到本应用，关闭语音识别权限，然后再进入app，发现麦克风按钮还是可点的，这就尴尬啦，所以页面出现时还要判断当前权限

    override func viewWillAppear(_ animated: Bool) {

        // 获取当前语音识别权限

        AVAudioSession.sharedInstance().requestRecordPermission { (permiss:Bool) in

            self.micButtonEnabled = permiss

        }

    }

    // 开始语音识别（这是我们自己写的方法，在麦克风按钮事件中调用这个函数）

    func startRecording(){

        // 判断音声引擎是否在运行

        if !audioEngine.isRunning {

            recordResult = "" // 接收识别结果的String赋为空

            recording()

        }

    }

    // 语音识别终止

    func stopRecording(){

        if (recognitionRequest != nil) {

            recognitionRequest?.endAudio()

        }

    }

    // 语音识别详细内容

    func recording() {

        // 判断目前有无识别任务，取消之前所有任务

        if recognitionTask != nil {

            recognitionTask?.cancel()

            recognitionTask = nil

        }

        do {

            // 设置设备音频

            try audioSession.setCategory(AVAudioSessionCategoryRecord) // 将音频设置为录音

            try audioSession.setMode(AVAudioSessionModeMeasurement)

            try audioSession.setActive(true, with: .notifyOthersOnDeactivation)

        } catch {

            print("audioSession properties weren't set because of an error.")

        }

        // 初始化识别请求

        recognitionRequest = SFSpeechAudioBufferRecognitionRequest()

        guard let inputNode = audioEngine.inputNode else {

            fatalError("Audio engine has no input node")

        }

        guard let recognitionRequest = recognitionRequest else {

            fatalError("Unable to create an SFSpeechAudioBufferRecognitionRequest object")

        }

        recognitionRequest.shouldReportPartialResults = true

        // 登机语音识别任务

        recognitionTask = speechRecognizer.recognitionTask(with: recognitionRequest, delegate: self)

        // 麦克风获取语音片断

        let recordingFormat = inputNode.outputFormat(forBus: )

        // 追加后续输入的语音

        inputNode.installTap(onBus: , bufferSize: , format: recordingFormat) { (buffer, when) in

            self.recognitionRequest?.append(buffer)

        }

        audioEngine.prepare()

        do {

            // 开始录音

            try audioEngine.start()

        } catch {

            print("audioEngine couldn't start because of an error.")

        }

    }

    /******* 以下都是代理方法 *******/

    // 判断当前是否连接网络

    func speechRecognizer(_ speechRecognizer: SFSpeechRecognizer, availabilityDidChange available: Bool) {

        // 这里有两点不足，1：只有关闭或打开网络的操作时这个函数才执行，如果我一直不改变网络状态，这个函数等于没用。假设我点击语音按钮时判断available是否为true，false时弹出alert提示没网，那么设备没联网的状态下打开app且不改变网络状态，点击语音按钮就不会提示，这就需要程序员自己判断了。2：这个函数判断不了当前连接的网络是否有效，比如连了一个无效的wifi，available还是为true

    }

    // 录音过程中获取到声音

    func speechRecognitionTask(_ task: SFSpeechRecognitionTask, didHypothesizeTranscription transcription: SFTranscription) {

        // 这个代理方法非常重要，录音过程中检测到声音就会执行，比如说了话之后让他自动结束语音，就可以在此加上计时器timer。

         if(timer != nil && timer.isValid){

            timer.invalidate()

            timer = nil

         }

         timer = Timer.scheduledTimer(withTimeInterval: , repeats: true, block: { (Timer) in

            self.stopRecording()

         })

        //只要在说话，计时器就不会走，停止说话计时器开始走，停止2两秒不说话，则录音就会自动结束开始识别成文本，时间可以自己设置

    }

    // 开始识别语音

    func speechRecognitionTaskFinishedReadingAudio(_ task: SFSpeechRecognitionTask) {

        // 将声音转成文字，这个函数里面可以什么都不用写

    }

    // 录音结束之后的识别处理

    func speechRecognitionTask(_ task: SFSpeechRecognitionTask, didFinishRecognition recognitionResult: SFSpeechRecognitionResult) {

        print(recognitionResult) // 输出的是一个数组，里面是所有识别出来的结果

        recordResult = recognitionResult.bestTranscription.formattedString // 获取最优的结果，这里看情况，不一定是你需要的那个，也可以做一个tableView，让用户自己选结果

    }

    // 语音转文本结束

    func speechRecognitionTask(_ task: SFSpeechRecognitionTask, didFinishSuccessfully successfully: Bool) {

        // 语音识别结束后，在这里释放对象

        audioEngine.stop()

        audioEngine.inputNode?.removeTap(onBus: )

        self.recognitionRequest = nil

        self.recognitionTask = nil

        do {

            // 添加这个代码是因为涉及到文本转语音的需求。语音识别会让音频处于录音状态，这个时候要朗读文本的话根本没有声音，所以需要添加这个设置。

            try audioSession.setCategory(AVAudioSessionCategoryAmbient)

        }catch let error as NSError{

            print(error.code)

        }

        if(timer != nil){

            timer.invalidate()

            timer = nil

        }

        // 在这里，大家拿到了recordResult，就可以做想做的事啦

    }

}

这是比较完整的代理方法，网上还有另一种方法，我就直接复制粘贴过来了：

func startRecording() {

    if recognitionTask != nil {

        recognitionTask?.cancel()

        recognitionTask = nil

    }

    let audioSession = AVAudioSession.sharedInstance()

    do {

        try audioSession.setCategory(AVAudioSessionCategoryRecord)

        try audioSession.setMode(AVAudioSessionModeMeasurement)

        try audioSession.setActive(true, with: .notifyOthersOnDeactivation)

    } catch {

        print("audioSession properties weren't set because of an error.")

    }

    recognitionRequest = SFSpeechAudioBufferRecognitionRequest()

    guard let inputNode = audioEngine.inputNode else {

        fatalError("Audio engine has no input node")

    }

    guard let recognitionRequest = recognitionRequest else {

        fatalError("Unable to create an SFSpeechAudioBufferRecognitionRequest object")

    }

    recognitionRequest.shouldReportPartialResults = true

    recognitionTask = speechRecognizer.recognitionTask(with: recognitionRequest, resultHandler: { (result, error) in

        var isFinal = false

        if result != nil {

            // 此处获取语音识别结果，处理获取到识别结果之后的事

            self.textView.text = result?.bestTranscription.formattedString

            isFinal = (result?.isFinal)!

        }

        if error != nil || isFinal {

            self.audioEngine.stop()

            inputNode.removeTap(onBus: )

            self.recognitionRequest = nil

            self.recognitionTask = nil

            self.microphoneButton.isEnabled = true

        }

    })

    let recordingFormat = inputNode.outputFormat(forBus: )

    inputNode.installTap(onBus: , bufferSize: , format: recordingFormat) { (buffer, when) in

        self.recognitionRequest?.append(buffer)

    }

    audioEngine.prepare()

    do {

        try audioEngine.start()

    } catch {

        print("audioEngine couldn't start because of an error.")

    }

    textView.text = "Say something, I'm listening!"

}

两种方法之间识别结果都是一样的，但第二种方法比较死板，无法设置自动结束语音，适应不了更多需求。

以上就是我对Speech Framework的个人理解，希望对广大同行有所帮助。

最后再贴一个OC版本的连接，别人写的，也是第一种方法，可以一起参考一下：https://my.oschina.net/u/2340880/blog/751442

iOS 10 语音识别Speech Framework详解的更多相关文章

iOS 开发之照片框架详解之二 —— PhotoKit 详解（下）
本文链接:http://kayosite.com/ios-development-and-detail-of-photo-framework-part-three.html 这里接着前文<iOS ...
iOS 开发之照片框架详解
转载自:http://kayosite.com/ios-development-and-detail-of-photo-framework.html 一. 概要在 iOS 设备中,照片和视频是相当重 ...
iOS 开发之照片框架详解之二 —— PhotoKit 详解（上）
转载自:http://kayosite.com/ios-development-and-detail-of-photo-framework-part-two.html 一. 概况本文接着 iOS 开 ...
iOS百度地图简单使用详解
iOS百度地图简单使用详解百度地图 iOS SDK是一套基于iOS 5.0及以上版本设备的应用程序接口,不仅提供展示地图的基本接口,还提供POI检索.路径规划.地图标注.离线地图.定位.周边雷达等丰 ...
iOS 视图控制器转场详解
iOS 视图控制器转场详解前言的前言唐巧前辈在微信公众号「iOSDevTips」以及其博客上推送了我的文章后,我的 Github 各项指标有了大幅度的增长,多谢唐巧前辈的推荐.有些人问我相关的问题 ...
iOS 开发之照片框架详解(2)
一. 概况本文接着 iOS 开发之照片框架详解,侧重介绍在前文中简单介绍过的 PhotoKit 及其与 ALAssetLibrary 的差异,以及如何基于 PhotoKit 与 AlAssetLib ...
IOS数据库操作SQLite3使用详解(转)
iPhone中支持通过sqlite3来访问iPhone本地的数据库.具体使用方法如下1:添加开发包libsqlite3.0.dylib首先是设置项目文件,在项目中添加iPhone版的sqlite3的数 ...
《iOS 7 应用开发实战详解》
<iOS 7 应用开发实战详解> 基本信息作者: 朱元波管蕾出版社:人民邮电出版社 ISBN:9787115343697 上架时间:2014-4-25 出版日期:2014 年5 ...
ASP.NET MVC深入浅出系列(持续更新) ORM系列之Entity FrameWork详解（持续更新）第十六节：语法总结(3)(C#6.0和C#7.0新语法) 第三节：深度剖析各类数据结构(Array、List、Queue、Stack)及线程安全问题和yeild关键字各种通讯连接方式设计模式篇第十二节: 总结Quartz.Net几种部署模式(IIS、Exe、服务部署【借
ASP.NET MVC深入浅出系列(持续更新) 一. ASP.NET体系从事.Net开发以来,最先接触的Web开发框架是Asp.Net WebForm,该框架高度封装,为了隐藏Http的无状态模 ...

随机推荐

Ninject之旅之十三：Ninject在ASP.NET MVC程序上的应用（附程序下载）
摘要: 在Windows客户端程序(WPF和Windows Forms)中使用Ninject和在控制台应用程序中使用Ninject没什么不同.在这些应用程序里我们不需要某些配置用来安装Ninject, ...
mybatis入门-动态sql
什么是动态sql 判断的动态sql mybatis核心就是对sql语句进行灵活操作,通过表达式进行判断,对sql进行灵活拼接.组装. 现有需求如下:需要查询用户,输入的是用户类,如果用户的性别类不为空 ...
Swift 内存管理详解
Swift内存管理: Swift 和 OC 用的都是ARC的内存管理机制,它们通过 ARC 可以很好的管理对象的回收,大部分的时候,程序猿无需关心 Swift 对象的回收. 注意: 只有引用类型变量所 ...
JavaScript处理json格式数据
JSON即JavaScript对象标记,是一种轻量级的数据交换格式,非常适用于服务器与JavaScript的交互.JSON是基于纯文本的数据格式. JSON是JavaScript的原生格式,可以使用J ...
Java面向对象知识点
对象:一切客观存在的事物都是对象语法部分: 类的概念:1.类是对象的抽象 2.类是客观事物在人脑中的主观反应 3.类是对象的模板类的设计: 属性:定义位置:类以内,方法以外实例变量:1 有默认值 ...
VS2008 + WDK 配置及其编译错误
VS2008 + SP1 + Win7 X64 1. 安装WDK,并配置系统环境变量:WDKROOT-D:\WinDDK\7600.16385.1 2. 启动VS2005,在菜单栏“工具”-“选项”内 ...
Linux学习笔记（1）
一.介绍 Linux系统作为服务器操作器的两大优点是其稳定性以及安全性:常见的Linux系统有以下几种: Debian(1993年下半年出的Linux分支) Ubuntu(目前互联网公司使用的比较多的 ...
jsp的九大内置对象和四个作用域
request 请求对象类型 javax.servlet.ServletRequest 作用域 Request response ...
javascipt : filter
过滤 var List = sizes.filter(function (size) { return size.id == 12; }); sizes = [ {id : 10,,stock:130 ...
关于hosts文件的原理与制作
由于需要整理的关于hosts的文件关于hosts文件的原理与制作1.什么是hosts文件hosts文件是一个没有扩展名的系统文件,hosts文件用于存储计算机网络中节点信息的文件,它是可以将主机名映 ...

iOS 10 语音识别Speech Framework详解

iOS 10 语音识别Speech Framework详解的更多相关文章

随机推荐

热门专题