声带麻痹(Vocal Cord Paralysis, VP),也称为喉瘫痪,是指由于支配声带的神经受损导致声带运动障碍的疾病。这种状况可以是单侧或双侧的,通常由脑部、颈部、胸部的肿瘤、外伤、炎症,以及各种全身疾病引起。这些疾病可能导致支配声带的喉返神经和喉上神经受压或损害。VP 诊断对于制定合适的治疗方案至关重要,可以恢复声带功能、改善气道保护并提高患者的生活质量。
经验丰富的专家可以通过分析内窥镜捕获的视频提供宝贵的见解,但这种方法在很大程度上依赖于个人诊断,缺乏客观性,一方面降低了患者的信心,另一方面增加了误诊的风险。
本文介绍的MASL多模态分析系统,结合音频和视频数据自动提取关键片段和指标,辅助临床评估 VP。
1 系统设计
MASL系统旨在通过从喉镜视频中提取关键片段并提供特定喉部疾病的客观指标,以促进高效的临床检查。如下图所示,系统包括两个主要模块——声音模块和视频模块——确保准确观察声音周期和清晰可视化声门区域。
1.1 音频处理模块
检测患者发音,并确定包含发音周期的视频片段。
- 使用关键词识别 (KWS) 技术,识别患者发音的特定词语,例如 “ee”。
- 将音频信号转换为声谱图,并进行分帧处理。
- 将声谱图片段输入 KWS 模型,生成每个片段的识别结果。
- 设置阈值,将识别结果为正的片段视为包含发音周期的关键片段。
1.2 视频处理模块
进一步细化音频处理模块识别出的关键片