2025/09/25 16:32:06
场景介绍
声网对话式 AI 开发套件是一套针对智能硬件的完备对话式 AI 解决方案。它提供即开即用的便捷体验,帮助开发者迅速验证、将对话式 AI 集成到智能硬件中,实现“让智能硬件开口说话”的目标。该方案适用于多种场景,包括 AI 玩具、教育硬件、陪伴设备、穿戴个人助手和家居语音助手。
方案架构
声网对话式 AI 智能硬件解决方案基于媒体流加速 RTSA(声网专为 IoT 行业设计的 RTC 客户端产品)和对话式 AI 引擎构建。方案技术架构如下图:
方案优势
极致 AI 对话体验
- 对话延迟低至 650 ms,打断响应低至 340 ms,接近真人对话速度
- 多模态交互体验:内置麦克风、摄像头、传感器接口,提供文本、音频、视频和触控交互功能
- 屏蔽 95% 环境噪声,实现精准识别
全球化能力赋能企业出海
- 覆盖 200+ 国家和地区的实时传输网络,大网端到端延时中位数低至 76 ms
- 35+ 语言支持,实现一套方案覆盖全球多区域
- 满足海外合规要求,满足 ISO (27001/27018 等)、GDPR、CCPA、HIPAA 等国际隐私法规
先进算法保障复杂环境下的流畅对话
- AI 降噪算法:屏蔽 95% 环境噪声,咖啡馆、火车站也能实现精准识别,避免交互失误
- BHVS 和声纹算法:背景人声过滤算法、声纹识别算法,保证多人对话场景主讲人锁定
- 优雅打断算法:让 AI 实时感知用户插话意图,精准判断何时说话、何时停止,还原自然对话节奏
- 弱网对抗算法:具备 80% 抗丢包能力,在地铁、地下室,仍能保障语音交互不中断,维持对话连贯性
灵活扩展,一站式解决方案方便快速验证支持
- 灵活的大模型支持:支持通义千问、豆包、Deepseek 等多种 AI 服务,以及自研大模型
- 主流 AI 与芯片支持:兼容多种主流通信标准,支持博通、乐鑫、展锐、君正、瑞芯微 RK、Sigmastar 等厂商的产品
- 极速产品原型送样:1 小时跑通示例项目,1 天完成产品原型送样;软硬件开源,快速完成从设计到上市全流程
平台兼容
声网对话式 AI 开发套件支持各类主流 Wi-Fi、LTE Category 1 通信标准、图像信号处理器(ISP 芯片),涵盖博通、乐鑫、展锐、君正、瑞芯微 RK、Sigmastar 等多家知名厂商的产品。具体支持的厂商品牌和芯片型号可以联系技术支持了解。
开发套件介绍
为了让您的想法快速商业化落地,声网与芯片原厂合作推出了一系列开发套件。本节介绍各系列开发套件的核心能力。
- R1 套件
R1 套件基于博通集成 BK7258,开源了软件和硬件资料,拥有丰富的板载资源,如麦克风、扬声器、摄像头、LCD 屏幕、陀螺仪等,适用于各种对话式 AI 应用场景。
设计架构
完整的 R1 套件包含硬件设备和软件架构两大模块,各自包含的内容如下:
-
硬件功能模块
-
软件包架构
开发套件功能
| 功能 | 描述 |
|---|---|
| 全双工多模态交互 |
|
| 高性能硬件 |
|
| 低功耗与便携设计 |
|
| 多传感器交互融合 |
|
| 开发者友好生态 |
|
适用场景
| 场景 | 描述 |
|---|---|
| AI 玩具 |
|
| AI 教育硬件 |
|
| AI 陪伴设备 |
|
| 家居语音助手 |
|
| 穿戴设备-个人助手 |
|
计费
声网对话式 AI 开发套件基于媒体流加速 RTSA 和对话式 AI 引擎构建。相关计费策略可以参考如下文档: