语音识别概述

语音识别概述

一.什么是语音?

语音是语言的声学表现形式,是人类自然的交流工具。

在这里插入图片描述
图片来源:https://www.shenlanxueyuan.com/course/381


二.语音识别的定义

语音识别(Automatic Speech Recognition, ASR 或 Speech to Text, STT)是将语音转换为文本的任务。其主要目标是解决机器“听清”问题,处理声学和(部分)语言上的混淆,确保每个人的语音都能被正确识别为文本。

1.主要解决的问题:
  1. 将语音转换成文本。
  2. 解决机器“听清”问题。
  3. 处理声学和部分语言上的混淆。
  4. 确保不同人的语音都能被正确识别。
2.不解决的问题:
  1. 说话人识别。
  2. 副语言信息的分析与识别(如发音、质量、韵律、情感)。
  3. 语言理解。
3.评估标准:
  1. Accuracy(准确率):

    • 音素错误率(Phone Error Rate, PER)
    • 词错误率(Word Error Rate, WER)
    • 字错误率(Character Error Rate, CER)
    • 句错误率(Sentence Error Rate, SER)
  2. Efficiency(效率):

    • 实时率(Real-time Factor, RTF)
4.错误率计算实例:
Ref:  THE CAT IN       THE        HAT
Hyp:      CAT IS   ON  THE  GREEN HAT
       DEL     SUB  INS       INS

在这个例子中:

  • 第一行为正确的抄本(Ref)。
  • 第二行为识别结果(Hyp)。
  • 错误类型:第一列为删除错误(DEL),第三列为替换错误(SUB),第四列和第六列为插入错误(INS)。

错误率计算公式:Error rate=100×(1S+1D+2I)/5=80

计算过程中关注三种错误:插入错误、替换错误和删除错误。实际计算时,错误率有可能超过100%。

5.语音识别系统分类:
  1. 说话人:特定人、非特定人
  2. 语种:单一语种、多语种
  3. 词汇量:大词汇量、中词汇量、小词汇量
  4. 设备:云端、端侧
  5. 距离:近距离、远距离

三.语音识别的重要性

语音识别(ASR,Automatic Speech Recognition)是一项极具挑战性的技术,被誉为“镶嵌在人工智能皇冠上的明珠”。它在现代技术和应用中占有重要地位,主要体现在以下几个方面:

1. 快速、便捷、无接触的优点
  • 快速:语音输入的速度通常比键盘输入更快,使信息传递更加高效。
  • 便捷:用户只需说话,无需学习复杂的输入方法,使用门槛低。
  • 无接触(Hands-Free):特别适用于开车、做家务等需要双手操作的场景,提升了用户的便利性和安全性。
2. 音频内容分析与理解的基础
  • 文字转写:语音识别是将音频内容转化为文本的第一步,这一过程是进一步分析与理解音频内容的基础。
  • 文本分析:转写后的文本可以进行情感分析、主题识别等处理。
  • 数据存档:转写文本便于存储和检索,提升了数据的可用性。
3. AIoT和智能服务的入口
  • AIoT(人工智能物联网):语音识别是AIoT设备的主要交互方式,用户可以通过语音控制智能家居、可穿戴设备等。

    • 智能家居:语音助手控制灯光、温度、家电等。
    • 可穿戴设备:语音识别用于健康监测、运动记录等。
  • 智能服务:语音识别在智能客服、自动翻译等领域有广泛应用。

    • 智能客服:自动应答用户问题,提高客服效率。
    • 自动翻译:实时翻译语音内容,打破语言障碍。
4. 满足自然人机交互和内容理解与生成的需求
  • 自然人机交互:语音识别使人机交互更加自然,用户可以通过语音指令与设备进行交流,提升用户体验。

    • 虚拟助手:如Siri、Alexa、Google Assistant等通过语音识别实现自然对话。
    • 导航系统:通过语音输入目的地,提高驾驶安全性。
  • 内容理解与生成:语音识别技术与自然语言处理(NLP)结合,实现内容的理解与生成。

    • 语音搜索:用户通过语音进行信息搜索,快速获取答案。
    • 语音生成:将文本转化为自然语音,实现双向交流。
5. 技术与应用的广泛性
  • 医疗领域:医生通过语音输入病历,提高工作效率,减少误诊。
  • 教育领域:语音识别用于语言学习、课堂记录等,提高学习效果。
  • 安防领域:通过语音识别进行身份验证和监控,提高安全性。

四.语音交互

在这里插入图片描述
图片来源:http://techchannel.att.com/play-video.cfm/2011/8/10/AT&T-Archives-The-Speech-Chain


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

@李思成

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值