针对当前语音转录翻译场景中术语难翻译、口音难识别、多人交叉打断式对话、嘈杂环境等行业痛点,声网推出了超低延时、高准确率、成本收益更高的实时转录翻译服务。此外,在实时转写、翻译的基础上,搭配大语言模型 LLM 的能力,以及声网实时互动 RTC、实时消息 RTM、灵动课堂等服务,还可以构建更多的垂直应用场景。
技术架构
声网实时转录翻译服务的技术架构如下图所示:
功能与场景
你可以使用实时转录翻译服务实现如下功能和业务场景:
| 业务场景 | 功能描述 |
|---|
| 语言教育 |
- 实现语言学习中常用的实时翻译、转写功能,有效提升学习效率
- 实现例如隐藏式字幕等高级会员专属功能,还能增加业务收入
|
| 语言教育 | 将语音转写后的文本提供给 LLM,进而提供更多功能,例如:
- 实时语言分析
- 实时翻译
- 语言水平评估
- 交互式练习环节
- 情境化及个性化学习体验
|
| 智能手表 | 将语音消息和童话内容转换为文字,便于家长监护。 |
| 社交聊天室 |
- 实时转录翻译:将语音实时转换为文字,使所有参与者都能参与对话。
- 房间话题展示:在房间浏览器中显示生成的话题,帮助用户快速找到感兴趣的内容。
- 实时翻译:实时翻译多种语言的对话,让不同语言背景的用户无缝交流。
- 内容审核:通过关键词过滤监控对话中的不当内容。
- 情绪分析:分析文本以判断参与者情绪,并相应调整话题或审核策略。
|
| 体育赛事直播 |
- 实时字幕生成:为体育解说提供实时字幕,确保所有观众都能无障碍观看。
- AI 精彩片段生成:基于解说内容自动生成比赛关键时刻的集锦与摘要。
- 多语言实时翻译:将解说内容实时翻译成多种语言,服务全球观众。
- 粉丝互动增强:通过文字内容实现解说员/球员与观众的实时问答,AI 生成互动回复提升参与感。
- 精准广告投放:根据实时解说话题推送相关广告,提升广告精准度和转化率。
|
| 虚拟展会 |
- 实时字幕服务:为听障用户及静音场景提供字幕支持,确保所有观众的无障碍访问。
- 带字幕回放:支持大型活动录像带字幕回放功能,保障内容持续可访问性与参与度。
|
服务优势
| 优势 | 描述 |
|---|
| 易集成 |
- 核心 API 仅 2 个,无 SDK 版本限制。
- 将转写、隐藏式字幕、云录制、翻译等服务进行了功能整合,仅需要设置参数就能实现相关功能。
|
| 超低延时、高准确率 | 自研转录翻译调度引擎,中文转录首字延时达到 808 ms,转译错误率达到 3.34%,均优于行业水平。 |
| 多人嘈杂环境表现优异 |
- 适配多人交叉打断式对话(例如多人语聊、会议)的复杂场景,保证转录和翻译的准确性。
- 声网独有的音频降噪技术,能识别噪音环境下的语音,让转录翻译更精准。
|