2025/07/29 18:41:06

音频设置最佳实践

在实时互动场景中，人与 AI 的对话在对话节奏、发言连续性和语音语调方面与人与人之间的对话存在显著差异。因此，为获得更好的对话体验，针对 AI 与人对话场景的音频设置显得尤为重要。

使用实时互动 iOS/Android SDK 接入对话式 AI 引擎时，你可以参考本文提供的音频设置最佳实践，提升对话的流畅度和可靠性，确保在复杂网络环境中提供更好的用户体验。

服务端设置

调用服务端 API 创建对话式智能体时，音频相关参数采用默认值即可获得最佳音频体验。

客户端设置

集成必需动态库

对话式 AI 引擎最佳音频体验需要使用到以下插件动态库，请确保在项目中集成并加载这些动态库：

Android
iOS

AI 降噪插件：libagora_ai_noise_suppression_extension.so
AI 回声消除插件：libagora_ai_echo_cancellation_extension.so

集成方式请参考减小 App 体积。

AI 降噪插件：AgoraAiNoiseSuppressionExtension.xcframework
AI 回声消除插件：AgoraAiEchoCancellationExtension.xcframework

集成方式请参考减小 App 体积。

设置最佳音频参数

客户端侧的最佳音频设置可通过以下两种方式实现：

（推荐）调用客户端组件 API：适用于 4.5.1 及以上版本的实时互动 SDK。
调用实时互动 SDK API：适用于 4.3.1 及以上版本的实时互动 SDK。

方案一：使用客户端组件 API

声网提供一套灵活可扩展、标准化的对话式 AI 引擎客户端组件（以下简称组件）。该组件支持 iOS、Android、Web 平台，封装了多个场景化 API，你只需要调用这些 API 即可结合声网实时互动 (RTC) SDK 和实时消息 (RTM) SDK 的能力实现以下功能：

前提条件

开始前，请确保完成以下准备工作：

已集成 RTC v4.5.1 及以上版本 SDK，且在 App 中实现了基本的实时音视频功能、获取了相关设备的使用权限。请参考实现音视频互动。
已在控制台为项目启用 RTM 服务，并在 App 中实现了基本的实时消息功能。请参考实现收发消息。
已参考实现对话式智能体实现与智能体对话的基本逻辑。
确保 RTC 可用、RTM 已登录，且 RTC 和 RTM 实例的生命周期大于组件的生命周期。组件内部不负责维护 RTC，RTM 的初始化、生命周期以及鉴权/登录状态的逻辑。

集成组件

Android
iOS
Web

将 convoaiApi 文件夹拷贝到你的项目中，并在后续调用组件 API 前引入组件。你可以前往组件结构了解各个文件作用。

convoaiApi

将 ConversationalAIAPI 文件夹拷贝到你的项目中，并在后续调用组件 API 前引入组件。你可以前往组件结构了解各个文件作用。

ConversationalAIAPI

将 conversational-ai-api 文件拷贝到你自己的项目中，并在后续调用组件 API 前引入组件。你可以前往组件结构了解各个文件作用。

conversational-ai-api

初始化组件

为 RTC 和 RTM 实例创建配置对象，之后创建组件实例：

Android
iOS

Kotlin
// 为 RTC 和 RTM 实例创建配置对象
val config = ConversationalAIAPIConfig(
    rtcEngine = rtcEngineInstance,
    rtmClient = rtmClientInstance,
    enableLog = true
)
// 创建组件实例
val api = ConversationalAIAPIImpl(config)

Swift
/// 为 RTC 和 RTM 实例创建配置对象
let config = ConversationalAIAPIConfig(
    rtcEngine: rtcEngine, 
    rtmEngine: rtmEngine,
    enableLog: true
)
/// 创建组件实例
convoAIAPI = ConversationalAIAPIImpl(config: config)

设置最佳音频参数

Android
iOS

加入 RTC 频道前，调用 loadAudioSettings 方法设置最佳音频参数。组件内部会监听 RTC 音频路由改变回调，并在音频路由发生变化时再次调用该方法设置最佳音频参数。

Kotlin
api.loadAudioSettings()
rtcEngine.joinChannel(token, channelName, null, userId)

Swift
convoAIAPI.loadAudioSettings()
rtcEngine.joinChannel(rtcToken: token, channelName: channelName, uid: uid, isIndependent: independent)

智能体加入频道

调用 POST 创建对话式智能体接口，并完成以下参数设置：

advanced_features.enable_rtm: true —— （必选）启动 RTM 服务
parameters.data_channel: "rtm" —— （必选）开启 RTM 数据传输通道
parameters.enable_metrics: true —— （按需开启）接收智能体性能数据
parameters.enable_error_message: true —— （按需开启）接收智能体错误事件

调用成功后，智能体会加入指定 RTC 频道，用户可以开始与智能体互动。

销毁组件实例

结束 AI 对话场景后或关闭 App 前，你需要销毁组件实例，以释放组件的所有资源。

Android
iOS

Kotlin
api.destroy()

Swift
convoAIAPI.destroy()

方案二：调用实时互动 SDK API

设置音频相关参数

注意

本节设置适用于 4.3.1 及以上版本的实时互动 SDK。对于 4.3.1 以下版本的 SDK，推荐升级至 4.5.1 及以上版本，或联系技术支持了解配置方式。

Android
iOS

为获得最佳 AI 对话音频体验，你需要完成以下音频相关设置：

设置音频场景：在初始化引擎时将音频场景设置为 AI 对话场景。你也可以在加入频道前调用 setAudioScenario 方法将音频场景设置为 AI 对话场景。
设置音频相关参数：在加入频道前和音频路由变化（触发 onAudioRouteChanged 回调）时，调用 setParameters 方法设置音频相关参数。主要包括音频 3A（回声消除(AEC)、降噪(ANS) 和增益控制(AGC)）插件的开关，以及音频采样率、音频处理模式等设置。各参数推荐设定的值参考示例代码。

注意

由于 4.3.1 ~ 4.5.0 版本的 SDK 不支持 AI 对话场景，可修改音频场景为合唱场景 (AUDIO_SCENARIO_CHORUS) 以提升音频体验，但无法对齐 4.5.1 及以上版本的音频体验。如需获得最佳音频体验，请升级 SDK 至 4.5.1 及以上版本。

以下示例代码封装了一个 setAudioConfigParameters 函数用于设置音频相关参数，并在加入频道前和音频路由发生变化时调用：

Kotlin
private var rtcEngine: RtcEngineEx? = null
private var mAudioRouting = Constants.AUDIO_ROUTE_DEFAULT

// 设置音频配置参数
private fun setAudioConfigParameters(routing: Int) {
    mAudioRouting = routing
    rtcEngine?.apply {
        setParameters("{\"che.audio.aec.split_srate_for_48k\":16000}")
        setParameters("{\"che.audio.sf.enabled\":true}")
        setParameters("{\"che.audio.sf.stftType\":6}")
        setParameters("{\"che.audio.sf.ainlpLowLatencyFlag\":1}")
        setParameters("{\"che.audio.sf.ainsLowLatencyFlag\":1}")
        setParameters("{\"che.audio.sf.procChainMode\":1}")
        setParameters("{\"che.audio.sf.nlpDynamicMode\":1}")

        if (routing == Constants.AUDIO_ROUTE_HEADSET // 0
            || routing == Constants.AUDIO_ROUTE_EARPIECE // 1
            || routing == Constants.AUDIO_ROUTE_HEADSETNOMIC // 2
            || routing == Constants.AUDIO_ROUTE_BLUETOOTH_DEVICE_HFP // 5
            || routing == Constants.AUDIO_ROUTE_BLUETOOTH_DEVICE_A2DP) { // 10
            setParameters("{\"che.audio.sf.nlpAlgRoute\":0}")
        } else {
            setParameters("{\"che.audio.sf.nlpAlgRoute\":1}")
        }
        
        setParameters("{\"che.audio.sf.ainlpModelPref\":10}")
        setParameters("{\"che.audio.sf.nsngAlgRoute\":12}")
        setParameters("{\"che.audio.sf.ainsModelPref\":10}")
        setParameters("{\"che.audio.sf.nsngPredefAgg\":11}")
        setParameters("{\"che.audio.agc.enable\":false}")
    }
}

// 创建并初始化 RTC 引擎
fun createRtcEngine(rtcCallback: IRtcEngineEventHandler): RtcEngineEx {
    val config = RtcEngineConfig()
    config.mContext = AgentApp.instance()
    config.mAppId = ServerConfig.rtcAppId
    config.mChannelProfile = Constants.CHANNEL_PROFILE_LIVE_BROADCASTING
    // 设置音频场景为 AI 对话场景(4.5.1 及以上版本支持)
    // 4.3.1 ~ 4.5.0 版本设为合唱场景 AUDIO_SCENARIO_CHORUS
    config.mAudioScenario = Constants.AUDIO_SCENARIO_AI_CLIENT
    // 注册音频路由变化回调
    config.mEventHandler = object : IRtcEngineEventHandler() {
        override fun onAudioRouteChanged(routing: Int) {
            super.onAudioRouteChanged(routing)
            // 设置音频相关参数
            setAudioConfigParameters(routing)
        }
    }
    try {
        rtcEngine = (RtcEngine.create(config) as RtcEngineEx).apply {
            // 加载音频插件
            loadExtensionProvider("ai_echo_cancellation_extension")
            loadExtensionProvider("ai_noise_suppression_extension")
        }
    } catch (e: Exception) {
        Log.e("CovAgoraManager", "createRtcEngine error: $e")
    }
    return rtcEngine!!
}

// 加入频道
fun joinChannel(rtcToken: String, channelName: String, uid: Int, isIndependent: Boolean = false) {

    // 初始化音频配置参数
    setAudioConfigParameters(mAudioRouting)

    // 配置频道选项并加入频道
    val options = ChannelMediaOptions()
    options.clientRoleType = CLIENT_ROLE_BROADCASTER
    options.publishMicrophoneTrack = true
    options.publishCameraTrack = false
    options.autoSubscribeAudio = true
    options.autoSubscribeVideo = false       
    val ret = rtcEngine?.joinChannel(rtcToken, channelName, uid, options)
}

为获得最佳 AI 对话音频体验，你需要完成以下音频相关设置：

设置音频场景：在初始化引擎时将音频场景设置为 AI 对话场景。你也可以在加入频道前调用 setAudioScenario 方法将音频场景设置为 AI 对话场景。
设置音频相关参数：在加入频道前和音频路由发生变化（触发 rtcEngine:didAudioRouteChanged: 回调）时，调用 setParameters 方法设置音频相关参数。主要包括音频 3A（回声消除(AEC)、降噪(ANS) 和增益控制(AGC)）插件的开关，以及音频采样率、音频处理模式等设置。各参数推荐设定的值参考示例代码。

注意

由于 4.3.1 ~ 4.5.0 版本的 SDK 不支持 AI 对话场景，可修改音频场景为合唱场景 (AgoraAudioScenarioChorus) 以提升音频体验，但无法对齐 4.5.1 及以上版本的音频体验。如需获得最佳音频体验，请升级 SDK 至 4.5.1 及以上版本。

以下示例代码封装了一个 setAudioConfigParameters 函数用于设置音频相关参数，并在加入频道前和音频路由发生变化时调用：

Swift
class RTCManager: NSObject {
    private var rtcEngine: AgoraRtcEngineKit!
    private var audioDumpEnabled: Bool = false
    private var audioRouting = AgoraAudioOutputRouting.default
    
    // 设置音频相关参数
    private func setAudioConfigParameters(routing: AgoraAudioOutputRouting) {
        audioRouting = routing
        rtcEngine.setParameters("{\"che.audio.aec.split_srate_for_48k\":16000}")
        rtcEngine.setParameters("{\"che.audio.sf.enabled\":true}")
        rtcEngine.setParameters("{\"che.audio.sf.stftType\":6}")
        rtcEngine.setParameters("{\"che.audio.sf.ainlpLowLatencyFlag\":1}")
        rtcEngine.setParameters("{\"che.audio.sf.ainsLowLatencyFlag\":1}")
        rtcEngine.setParameters("{\"che.audio.sf.procChainMode\":1}")
        rtcEngine.setParameters("{\"che.audio.sf.nlpDynamicMode\":1}")
        if routing == .headset ||
            routing == .earpiece ||
            routing == .headsetNoMic ||
            routing == .bluetoothDeviceHfp ||
            routing == .bluetoothDeviceA2dp {
            rtcEngine.setParameters("{\"che.audio.sf.nlpAlgRoute\":0}")
        } else {
            rtcEngine.setParameters("{\"che.audio.sf.nlpAlgRoute\":1}")
        }
        rtcEngine.setParameters("{\"che.audio.sf.ainlpModelPref\":10}")
        rtcEngine.setParameters("{\"che.audio.sf.nsngAlgRoute\":12}")
        rtcEngine.setParameters("{\"che.audio.sf.ainsModelPref\":10}")
        rtcEngine.setParameters("{\"che.audio.sf.nsngPredefAgg\":11}")
        rtcEngine.setParameters("{\"che.audio.agc.enable\":false}")
    }
}

extension RTCManager: RTCManagerProtocol {
    
    func createRtcEngine(delegate: AgoraRtcEngineDelegate) -> AgoraRtcEngineKit {
        let config = AgoraRtcEngineConfig()
        config.appId = AppContext.shared.appId
        config.channelProfile = .liveBroadcasting
        // 设置音频场景为 AI 对话场景(4.5.1 及以上版本支持)
        // 4.3.1 ~ 4.5.0 版本支持合唱场景 .chorus
        config.audioScenario = .aiClient
        rtcEngine = AgoraRtcEngineKit.sharedEngine(with: config, delegate: delegate)
        // 注册音频路由变化回调
        rtcEngine.addDelegate(self)
        return rtcEngine
    }
    
    func joinChannel(rtcToken: String, channelName: String, uid: String) {
        
        // 初始化音频配置参数
        setAudioConfigParameters(routing: audioRouting)

        // 配置频道选项并加入频道
        let options = AgoraRtcChannelMediaOptions()
        options.clientRoleType = .broadcaster
        options.publishMicrophoneTrack = true
        options.publishCameraTrack = false
        options.autoSubscribeAudio = true
        options.autoSubscribeVideo = false
        let ret = rtcEngine.joinChannel(byToken: rtcToken, channelId: channelName, uid: UInt(uid) ?? 0, mediaOptions: options)           
    }
}

// 实现 AgoraRtcEngineDelegate 接口，处理音频路由变化回调
extension RTCManager: AgoraRtcEngineDelegate {
    public func rtcEngine(_ engine: AgoraRtcEngineKit, didAudioRouteChanged routing: AgoraAudioOutputRouting) {
        setAudioConfigParameters(routing: routing)
    }
}

参考信息

示例项目

声网提供开源的示例代码，你可以参考设置音频相关参数。

Android
iOS

CovRtcManager.kt

组件结构

客户端组件文件夹的结构和各文件作用如下：

信息

以下文件和文件夹即为集成客户端组件所需全部内容，无需拷贝其他文件。

Android
iOS
Web

IConversationalAIAPI.kt — API 接口及相关数据结构和枚举
ConversationalAIAPIImpl.kt — ConversationalAI API 主要实现逻辑
ConversationalAIUtils.kt — 工具函数与事件回调管理
subRender/
- v3/ — 字幕部分模块
  - TranscriptionController.kt — 字幕控制器
  - MessageParser.kt — 消息解析器

ConversationalAIAPI.swift — API 接口及相关数据结构和枚举
ConversationalAIAPIImpl.swift — ConversationalAI API 主要实现逻辑
Transcription/
- TranscriptionController.swift — 字幕控制器

index.ts — API 类
type.ts — API 接口及相关数据结构和枚举
utils/index.ts — API 工具函数
utils/events.ts — 事件管理类，可以拓展该类以轻松实现事件监听和播报
utils/sub-render.ts — 字幕部分模块

音频设置最佳实践

服务端设置

客户端设置

集成必需动态库

设置最佳音频参数

方案一：使用客户端组件 API

前提条件

集成组件

初始化组件

设置最佳音频参数

智能体加入频道

销毁组件实例

方案二：调用实时互动 SDK API

设置音频相关参数

参考信息

示例项目

组件结构

API 参考

RTC SDK API

客户端组件 API

服务端设置​

客户端设置​

集成必需动态库​

设置最佳音频参数​

方案一：使用客户端组件 API​

前提条件​

集成组件​

初始化组件​

设置最佳音频参数​

智能体加入频道​

销毁组件实例​

方案二：调用实时互动 SDK API​

设置音频相关参数​

参考信息​

示例项目​

组件结构​

API 参考​

RTC SDK API​

客户端组件 API​

服务端设置

客户端设置

集成必需动态库

设置最佳音频参数

方案一：使用客户端组件 API

前提条件

集成组件

初始化组件

设置最佳音频参数

智能体加入频道

销毁组件实例

方案二：调用实时互动 SDK API

设置音频相关参数

参考信息

示例项目

组件结构

API 参考

RTC SDK API

客户端组件 API