更新: 2019-05-11
小编: wenxiang
(图自:Microsoft Research)
虚拟麦克风阵列可将现有设备(如配备普通麦克风的手机或笔记本电脑等),动态组合成一个更大的阵列。
具体说来是,该系统基于连续音频流对齐、盲波束成形、语音识别、分割聚类(Diarization)、以及系统融合等技术来实现。
(截图 via MSPU)
借助七组音频流输入,微软研究院已实现 22.3% 的错字率。在近距离麦克风的非重叠语段上,更是可以将错字率控制在 3% 以内。
至于系统支持的用户数量,则取决于区域内配备的麦克风数量。微软指出,该技术可方便客户随时随地地轻松转录会话内容,而不论其是否拥有专属的麦克风阵列。