数字化会议智能语音识别

系统解决方案

武汉蓝图伟业科技有限公司

2016 年 12 月

第 1 页 共 15 页

目 录

1、系统概述 3

2 、服务器需求分析 4

3 、系统原理 5

4 、系统优势 6

4.1 一体化服务6

4.2 音视频无损传输、实时、稳定6

4.3 设备多重备份7

4.4 协议兼容7

4.5 多画面自定义合成8

4.6 高拓展性8

4.7 提升工作效率8

4.8 自由定制方言语音模型8

5 、系统配置清单10

第 2 页 共 15 页

1、系统概述

随着人工智能的迅速发展,语音识别的技术越来越成为国内外研究机构的焦点。智能化会

议转写系统是以语音识别及图像识别为研究对象,通过语音信号处理、模式识别和智能图像识

别让机器自动识别、理解人类口述的语言。

当会议系统遇见语音识别,原本只能记录视频、音频等非结构化数据的会议系统瞬间变为

可以记录结构化文本数据的会议“记录员”,不但能快速生成会议记录,还能通过搜索文字追

溯会议音视频节点,大幅提升了会议系统在办公会议中的作用。

智能化会议转写系统利用语音识别技术及图像识别,可将相关人员的发言信息或图像识别

转换成文字信息,并生成文本文件、录音文件,以便于相关人员查阅,并将语音识别页面实时

展现在业务系统的管理界面上,以便于人员同步查看和用词条修正的操作来校正识别出现错误

的内容。场景录音在结束后自动保存在系统里,人员也可以通过回听历史的录音记录来校对语

音识别结。

第 3 页 共 15 页

2 、服务器需求分析

1) 性能需求

 支持最多40 通道RTSP 连接,并同时对其中的8 个通道进行识别,识别结果采用实时反馈

(RT)模式,单个句子实时率<0.3。

2) 稳定性与高可用需求

 支持7*24 小时连续稳定运行;

 支持开机自启动运行;

 支持服务健康管理,能够自动检测系统各个服务进程,如果服务进程消失则自动重启进程,

如连续三次不能启动则报错,系统自动进入降级运行模式,不影响其他模式的正常工作;

 预留负载均衡模块设计。

3) 容错需求

 产品各功能应提供对应API 供上层JAVA Web 应用调用;

 产品无法正常启动或运行时,因提供报错信息;

 产品各功能模块相对独立,单个模块故障不影响其他模块正常使用。单个功能模块无法正

常启动或运行时,应支持降级运行。

第 4 页 共 15 页

3 、系统原理

a. 会议室内的鹅颈麦克风通过音频线连接音频处理器,音频处理器将处理好的音频流发送给

语音转写终端。

b. 语音转写终端通过公司内网将网络音频流发送给后台语音识别服务器。

c. 语音识别服务器负责将音频识别为文字,发送给记录人员电脑上的客户端软件。

d. 记录人员通过客户端软件可以实时查看、编辑、修改识别出的文字内容。

第 5 页 共 15 页

4 、系统优势

4.1 一体化服务

拥有自主核心技术、丰富的产品设计、生产经验和可持续研发能力,可为客户提供研发、

生产、销售、服务为一体的综合解决方案。

4.2 音视频无损传输、实时、稳定

音频方面,使用了先进的音频处理芯片,具有强大的数字音频处理能力。并且可以使用软

件通过以太网对其处理功能进行设置,提供了一种简单、灵活的控制方式。48K 采样率能有效

还原真实音质,声音效果更加真实,清晰。

视频方面,视频编码支持H264/H265 压缩标准,支持720P、1080P 超清视频图像传输,500W

及以下的分辨率,2-6 路高清视频输出。信号稳定,实时同步。

第 6 页 共 15 页

4