语音识别概述
一.什么是语音?
语音是语言的声学表现形式,是人类自然的交流工具。
图片来源:https://www.shenlanxueyuan.com/course/381
二.语音识别的定义
语音识别(Automatic Speech Recognition, ASR 或 Speech to Text, STT)是将语音转换为文本的任务。其主要目标是解决机器“听清”问题,处理声学和(部分)语言上的混淆,确保每个人的语音都能被正确识别为文本。
1.主要解决的问题:
- 将语音转换成文本。
- 解决机器“听清”问题。
- 处理声学和部分语言上的混淆。
- 确保不同人的语音都能被正确识别。
2.不解决的问题:
- 说话人识别。
- 副语言信息的分析与识别(如发音、质量、韵律、情感)。
- 语言理解。
3.评估标准:
-
Accuracy(准确率):
- 音素错误率(Phone Error Rate, PER)
- 词错误率(Word Error Rate, WER)
- 字错误率(Character Error Rate, CER)
- 句错误率(Sentence Error Rate, SER)
-
Efficiency(效率):
- 实时率(Real-time Factor, RTF)
4.错误率计算实例:
Ref: THE CAT IN THE HAT
Hyp: CAT IS ON THE GREEN HAT
DEL SUB INS INS
在这个例子中:
- 第一行为正确的抄本(Ref)。
- 第二行为识别结果(Hyp)。
- 错误类型:第一列为删除错误(DEL),第三列为替换错误(SUB),第四列和第六列为插入错误(INS)。
错误率计算公式:Error rate=100×(1S+1D+2I)/5=80
计算过程中关注三种错误:插入错误、替换错误和删除错误。实际计算时,错误率有可能超过100%。
5.语音识别系统分类:
- 说话人:特定人、非特定人
- 语种:单一语种、多语种
- 词汇量:大词汇量、中词汇量、小词汇量
- 设备:云端、端侧
- 距离:近距离、远距离
三.语音识别的重要性
语音识别(ASR,Automatic Speech Recognition)是一项极具挑战性的技术,被誉为“镶嵌在人工智能皇冠上的明珠”。它在现代技术和应用中占有重要地位,主要体现在以下几个方面:
1. 快速、便捷、无接触的优点
- 快速:语音输入的速度通常比键盘输入更快,使信息传递更加高效。
- 便捷:用户只需说话,无需学习复杂的输入方法,使用门槛低。
- 无接触(Hands-Free):特别适用于开车、做家务等需要双手操作的场景,提升了用户的便利性和安全性。
2. 音频内容分析与理解的基础
- 文字转写:语音识别是将音频内容转化为文本的第一步,这一过程是进一步分析与理解音频内容的基础。
- 文本分析:转写后的文本可以进行情感分析、主题识别等处理。
- 数据存档:转写文本便于存储和检索,提升了数据的可用性。
3. AIoT和智能服务的入口
-
AIoT(人工智能物联网):语音识别是AIoT设备的主要交互方式,用户可以通过语音控制智能家居、可穿戴设备等。
- 智能家居:语音助手控制灯光、温度、家电等。
- 可穿戴设备:语音识别用于健康监测、运动记录等。
-
智能服务:语音识别在智能客服、自动翻译等领域有广泛应用。
- 智能客服:自动应答用户问题,提高客服效率。
- 自动翻译:实时翻译语音内容,打破语言障碍。
4. 满足自然人机交互和内容理解与生成的需求
-
自然人机交互:语音识别使人机交互更加自然,用户可以通过语音指令与设备进行交流,提升用户体验。
- 虚拟助手:如Siri、Alexa、Google Assistant等通过语音识别实现自然对话。
- 导航系统:通过语音输入目的地,提高驾驶安全性。
-
内容理解与生成:语音识别技术与自然语言处理(NLP)结合,实现内容的理解与生成。
- 语音搜索:用户通过语音进行信息搜索,快速获取答案。
- 语音生成:将文本转化为自然语音,实现双向交流。
5. 技术与应用的广泛性
- 医疗领域:医生通过语音输入病历,提高工作效率,减少误诊。
- 教育领域:语音识别用于语言学习、课堂记录等,提高学习效果。
- 安防领域:通过语音识别进行身份验证和监控,提高安全性。
四.语音交互
图片来源:http://techchannel.att.com/play-video.cfm/2011/8/10/AT&T-Archives-The-Speech-Chain