发版说明
v1.3
该版本于 2025 年 4 月 16 日发布。
自该版本起,你可以在控制台购买加油包,用于抵扣对话式 AI 引擎服务的实际用量,同时享受一定折扣,详见计费说明。
用户和智能体之间的对话消息、智能体创建和停止的时间戳等会被存储在智能体的短期记忆中。该版本新增了以下两种方式获取智能体的短期记忆:
- 调用 GET 获取智能体短期记忆接口获取指定运行中智能体的短期记忆。
- 通过声网消息通知服务订阅智能体短期记忆事件,当智能体停止时,声网将通过 Webhook 回调的方式自动发送智能体的短期记忆到你的业务服务器。
自该版本起,对话式 AI 引擎支持智谱 AI 大模型,你可以在调用 POST 创建对话式智能体接口时,将 llm.url
设置为智谱 AI 大模型的 API 地址来接入智谱 AI 大模型。
该版本升级了 POST 播报自定义信息接口,新增了两种与播报行为打断逻辑相关的配置:
priority
:配置播报行为的优先级。支持配置打断并播报(高)、追加播报(中)和空闲时播报(低)三种优先级。interruptable
:配置是否允许人声打断智能体播报。
POST 创建对话式智能体新增 silence_timeout
和 llm.silence_message
参数,用于设置智能体最大静默时间和静默提示消息。智能体创建成功,且用户加入频道后,智能体不处于倾听、思考或说话状态的持续时间称为智能体静默时间,静默时间达到设定值后,智能体将播报中填写的静默提示消息。
- GET 获取智能体短期记忆
- POST 创建对话式智能体新增
silence_timeout
和llm.silence_message
参数 - POST 播报自定义信息新增
priority
和interruptable
参数
v1.2
v1.1
该版本于 2025 年 3 月 19 日发布。
POST 创建对话式智能体新增 enable_rtm
和 agent_rtm_uid
字段,用于为对话式智能体开启 RTM 功能。开启后,智能体可以结合 RTM SDK 提供的能力,获取用户的说话状态、选中的文字、个性签名、得分等自定义上下文信息,并将这些信息传递给智能体,引导智能体输出更符合用户需求的内容。详见传递自定义信息。
为了帮助你快速接入自定义大模型,该版本上线了自定义大模型文档,你可以参考文档中的示例代码将自定义大模型接入到对话式 AI 引擎中,实现检索增强生成(RAG)、多模态、工具调用等进阶能力。
POST 创建对话式智能体新增 enable_rtm
和 agent_rtm_uid
字段
v1.0 GA
该版本于 2025 年 3 月 5 日发布。
声网对话式 AI 引擎于 2025 年 3 月 5 日正式 GA 发布,并公布了产品定价:声网对话式 AI 引擎的计费规则,详见计费说明。
为了取得最好的对话体验效果,新版本声网对话式 AI 引擎建议与以下声网 SDK 搭配使用:
- 声网 RTC Native SDK,v4.5.1 及以上版本
- 声网 RTC Web SDK,4.23.2 及以上版本
- 声网 RTSA C SDK,1.9.x 及以上版本
自该版本起,声网提供开源的字幕处理模块,你只需要将模块集成到项目中,并调用模块的 API 即可快速实现实时字幕功能,将用户与智能体的对话内容实时以文本输出并显示到终端界面上,详见实时字幕。
该版本新增对话式 AI 引擎消息通知服务,你可以在声网控制台设置消息通知服务地址,订阅智能体创建、停止或出错事件。当订阅的事件发生时,声网会调用你设置的回调地址,将事件详情发送至你的业务服务器。详见消息通知服务。
该版本新增热词功能,添加热词可以显著提升对话式 AI 引擎在专有词汇上的识别准确率。目前该功能处于 Beta 发布阶段,请联系技术支持开通。
v1.0 Public Beta
该版本于 2025 年 2 月 18 日发布。本次发版聚焦于提供自然流畅、低延迟、高可靠的实时语音对话能力,助力开发者快速构建智能化、沉浸式的交互体验。
- 为了取得最好的对话体验效果,已联系声网技术支持获取指定版本的实时互动 SDK。
- 目前仅支持使用中文和英文与 AI 互动,其他语种需求联系技术支持反馈。
- 目前单一 App ID 的并发用户数 (Peak Concurrent Users) 限制为 20, 如需提升配额,请联系技术支持申请。
支持与 AI 进行自然流畅的实时语音对话,如同与真人交流,提供低延迟、极速响应的交互体验。
SDK 会智能识别和消除背景噪音,即使在嘈杂的公共场所,都能够确保声音传输的清晰度,为用户提供高质量的对话体验。
智能抑制背景人声,精准保留对话人清晰语音,确保在多人声环境中仍能实现清晰、专注的交互体验。
支持用户随时打断 AI 并快速响应,实现自然过渡和流畅对话,避免机械式交互。
针对与 AI 智能体对话场景优化的传输算法,支持在弱网环境(如 80% 丢包率)下仍能稳定传输语音数据,确保对话的连续性和可靠性,适应多样化的复杂网络环境。
支持全球主流的 LLM(大语言模型)、TTS(语音合成) 适配,快速实现灵活编排,满足不同场景和业务需求,提供高度定制化的 AI 智能体对话解决方案。
支持用户与 AI 智能体的对话内容实时以文本输出并显示到终端界面上。
支持 iOS、Android、Web、 小程序、以及各类嵌入式硬件等客户端,提供跨平台的一致性和无缝集成体验,满足不同场景的应用需求。