使用说明
本文介绍如何在你的项目中集成和使用微软实时语音转写&翻译(多语种)插件(以下简称“微软转写及翻译插件”)。
技术原理
微软转写及翻译插件是对微软语音 SDK 核心 API 的封装。通过声网 SDK v4.x 提供的 setExtensionPropertyWithVendor
方法,传入指定的 key
和 value
参数,你可以快速集成微软的语音转写能力。
setExtensionPropertyWithVendor
方法的 key
参数与微软的 API 名称完全对应,value
参数以 JSON 格式包装该 API 的部分或全部参数。因此,调用该方法时只要传入指定的 key
和 value
,就可以调用对应的微软 API,实现语音转写的有关功能。
前提条件
iOS 开发环境需满足以下要求:
- Xcode 9.0 或以上版本。
- 运行 iOS 9.2 或以上版本、搭载 arm64 的真机(非模拟器)。
示例项目
微软转写及翻译插件提供了一个 GitHub 示例项目,你可以前往克隆或下载并进行体验。
平台 | 语言 | 示例项目 |
---|---|---|
Android | Java | Microsoft/android |
iOS | Objective-C | Microsoft/ios |
运行步骤
参考以下步骤快速跑通示例项目:
-
克隆仓库:
Shellgit clone https://github.com/AgoraIO-Community/AgoraMarketPlace.git
-
进入声网控制台 > 云市场页面,下载微软转写及翻译插件的 iOS 插件包。解压后,将所有
.framework
库文件保存到Microsoft/ios/ExtensionExample
。 -
在终端中进入
Microsoft/ios
目录,运行以下命令使用 CocoaPods 安装依赖:Shellpod install
-
在 Xcode 中打开项目
Microsoft/ios/ExtensionExample.xcworkspace
。 -
打开
Config.h
文件,进行如下修改:- 将
<YOUR_APP_ID>
替换为你的 App ID。获取 App ID 请参考开通服务。 - 将
<YOUR_SUBSCRIPTION>
和<YOUR_REGION>
分别替换为你的 Azure 资源密钥和 Azure 资源所在区域。获取方式详见使用 Azure 门户创建认知服务资源。
Objective-CNSString *const appID = @"<YOUR_APP_ID>";
NSString *const subscription = @"<YOUR_SUBSCRIPTION>";
NSString *const region = @"<YOUR_REGION>"; - 将
-
连接一台 iOS 真机(非模拟器),运行项目。
预期效果
运行成功后,示例项目会安装到你的设备上。
- 启动 App,你可以在界面上看到 enableExtension 和 Start ASR 按钮
- 点击 enableExtension 开启插件。
- 点击 Start ASR 开始语音转写。此时 Start ASR 按钮会变成 Stop ASR 按钮。
- 点击 Stop ASR 结束语音转写。
- 点击 Start Translating 开始语音翻译。此时 Start Translating 按钮会变成 Stop Translating 按钮。
- 点击 Stop Translating 结束语音翻译。
集成和调用流程
本节介绍如何集成声网 SDK 和插件,并调用核心 API 实现转写和翻译功能。
1. 集成 SDK 和插件
开始前,你需要在项目中分别集成声网音频 SDK 和微软转写及翻译插件。
1.1 集成声网音频 SDK
微软转写及翻译插件需要与声网音频 SDK v4.x 搭配使用。参考以下文档集成音频 SDK v4.x 并实现基础的语音通话:
1.2 获取 Azure 资源的密钥和区域
参考免费试用语音服务获取你的 Azure 资源密钥和区域。后续初始化插件时,需要传入你的密钥和区域。
1.3 集成插件
参考以下步骤在你的项目中集成微软转写及翻译插件:
-
进入声网控制台 > 云市场页面下载微软转写及翻译插件的 iOS 插件包。
-
解压后,将插件包中所有的
.framework
库文件保存到你的项目文件夹下。以如下项目结构为例,你可以把库文件保存到<ProjectName>
路径下。Shell.
├── <ProjectName>
├── <ProjectName>.xcodeproj -
在 Xcode 中添加动态库,确保所有动态库的 Embed 属性设置为 Embed & Sign。
1.4 升级插件
声网云市场推荐你更新插件版本前使用数据库工具 (如 SQLite) 来实现插件版本管理,从而确保插件版本与对应的资源包版本一致。因为当插件版本和资源包版本未对齐时,会出现 App 闪退、崩溃等现象。
以下是用 SQLite 来进行插件版本管理的示例:
- 使用 SQLite 数据库自行维护插件包和资源包的版本信息。
- 每次项目初始化时,自动检测当前项目使用的资源包版本:
- 如果无记录文件或记录的资源包版本为旧,则更新资源。成功更新后,回写最新资源包版本信息到 SQLite。
- 如果记录的资源包版本与当前匹配,则正常实现业务。
如果你的项目已经集成过声网云市场提供的第三方插件,并需要更新插件,可以参考以下步骤来保证更新后的可用性。
以下升级流程以相芯美颜特效插件为例:
-
参考集成插件章节下载所需平台最新版本的插件包和资源包。
-
删除项目内旧版本的插件包及其资源包后,再将新版插件和资源包放入对应位置。或者直接在对应目录下用新版插件和资源包替换旧版。
-
删除设备上用老版本插件和资源包编译的 App,重新编译你的项目并运行。
编译 App 时,系统会优先使用连接设备上存在的资源包。请务必在删除旧版本应用程序后再进行编译和运行,否则可能会出现插件版本与资源包不匹配的情况,从而导致各种意外问题。
2. 启用插件
创建并初始化 AgoraRtcEngineKit
后,首先调用 enableExtensionWithVendor
启用插件,再调用其它 API(enableVideo
、joinChannelByToken
等)。
AgoraRtcEngineConfig *config = [AgoraRtcEngineConfig new];
// 监听插件事件,用于接收 onEvent 回调
config.eventDelegate = self;
self.agoraKit = [AgoraRtcEngineKit sharedEngineWithConfig:config
delegate:self];
// 开启插件
[self.agoraKit enableExtensionWithVendor:@"Microsoft"
extension:@"Speech_Recognition"
enabled:self.enable];
3. 初始化语音转写
调用 setExtensionPropertyWithVendor
方法,指定 key
为 init_speech_recognition
并在 value
中传入 subscription
和 region
等参数。
NSError *error;
NSData *data = [NSJSONSerialization dataWithJSONObject:@{
// 传入 Azure 资源密钥
@"subscription": subscription,
// 传入 Azure 资源所在区域
@"region": region,
// 指定源语言
@"source_languages": @[
@"zh-CN", @"en-US"
],
// 开启语种自动检测
@"enable_auto_detect": true
}
options:NSJSONWritingPrettyPrinted
error:&error];
[self.agoraKit
setExtensionPropertyWithVendor:@"Microsoft"
extension:@"Speech_Recognition"
key:@"init_speech_recognition"
value:[[NSString alloc] initWithData:data encoding:NSUTF8StringEncoding]];
4. 初始化语音翻译
调用 setExtensionPropertyWithVendor
方法,指定 key
为 init_translate_recognition
并在 value
中传入 subscription
等参数。
NSError *error;
NSData *data = [NSJSONSerialization dataWithJSONObject:@{
// 传入 Azure 资源密钥
@"subscription": subscription,
// 指定源语言
@"source_languages": @[
@"zh-CN", @"en-US"
],
// 指定目标语言
@"target_languages": @[
@"fr", @"ja"
],
// 开启语种自动检测
@"enable_auto_detect": true
}
options:NSJSONWritingPrettyPrinted
error:&error];
[self.agoraKit
setExtensionPropertyWithVendor:@"Microsoft"
extension:@"Speech_Recognition"
key:@"init_speech_recognition"
value:[[NSString alloc] initWithData:data encoding:NSUTF8StringEncoding]];
5. 开始转写
调用 setExtensionPropertyWithVendor
,指定 key
为 start_continuous_recognition_async
。
[self.agoraKit setExtensionPropertyWithVendor:@"Microsoft"
extension:@"Speech_Recognition"
key:@"start_continuous_recognition_async"
value:@"{}"];
成功开始识别后,微软转写及翻译插件会通过 onEvent
回调返回识别结果。识别结果的含义详见 onEvent 回调。
6. 开始翻译
调用 setExtensionPropertyWithVendor
,指定 key
为 start_continuous_translate_async
。
[self.agoraKit setExtensionPropertyWithVendor:@"Microsoft"
extension:@"Speech_Recognition"
key:@"start_continuous_translate_async"
value:@"{}"];
成功开始识别后,微软转写及翻译插件会通过 onEvent
回调返回识别结果。识别结果的含义详见 onEvent 回调。
7. 结束转写和翻译
需要结束转写时,调用 setExtensionPropertyWithVendor
方法并指定 key
为 stop_continuous_recognition_async
、stop_continuous_translate_async
。
[self.agoraKit setExtensionPropertyWithVendor:@"Microsoft"
extension:@"Speech_Recognition"
key:@"stop_continuous_recognition_async"
value:@"{}"];
[self.agoraKit setExtensionPropertyWithVendor:@"Microsoft"
extension:@"Speech_Recognition"
key:@"stop_continuous_translate_async"
value:@"{}"];