FUSING ACOUSTIC INFORMATION INTO LARGE LANGUAGE MODELS FOR AUTOMATIC SPEECH RECOGNITION
最近的研究已经成功地表明,在自动语音识别(ASR)输出的基础上,大型语言模型(LLM)可以成功地用于生成误差校正(GER)。具体地,LLM用于执行从ASR系统生成的N个最佳假设列表到预测的输出转录的直接映射。然而,尽管GER有效,但它引入了额外的数据不确定性,因为LLM是在不考虑语音信号中可用的声学信息的情况下训练的。在这项工作中,我们的目标是通过一种称为不确定性感知动态融合(UADF)的新型后期融合解决方案,在生成预测转录之前注入声学信息,从而克服这一限制。
原创
2024-03-20 11:04:34 ·
73 阅读 ·
0 评论