语音识别概述

原创

已于 2024-07-13 08:53:10 修改 · 2.4k 阅读

·

10

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#语音识别 #人工智能

于 2024-07-13 08:48:25 首次发布

语音识别概述

一.什么是语音？

语音是语言的声学表现形式，是人类自然的交流工具。

在这里插入图片描述
图片来源：https://www.shenlanxueyuan.com/course/381

二.语音识别的定义

语音识别（Automatic Speech Recognition, ASR 或 Speech to Text, STT）是将语音转换为文本的任务。其主要目标是解决机器“听清”问题，处理声学和（部分）语言上的混淆，确保每个人的语音都能被正确识别为文本。

1.主要解决的问题：

将语音转换成文本。
解决机器“听清”问题。
处理声学和部分语言上的混淆。
确保不同人的语音都能被正确识别。

2.不解决的问题：

说话人识别。
副语言信息的分析与识别（如发音、质量、韵律、情感）。
语言理解。

3.评估标准：

Accuracy（准确率）:
- 音素错误率（Phone Error Rate, PER）
- 词错误率（Word Error Rate, WER）
- 字错误率（Character Error Rate, CER）
- 句错误率（Sentence Error Rate, SER）
Efficiency（效率）:
- 实时率（Real-time Factor, RTF）

4.错误率计算实例：

Ref：  THE CAT IN       THE        HAT
Hyp：      CAT IS   ON  THE  GREEN HAT
       DEL     SUB  INS       INS

在这个例子中：

第一行为正确的抄本（Ref）。
第二行为识别结果（Hyp）。
错误类型：第一列为删除错误（DEL），第三列为替换错误（SUB），第四列和第六列为插入错误（INS）。

错误率计算公式：Error rate=100×(1S+1D+2I)/5=80

计算过程中关注三种错误：插入错误、替换错误和删除错误。实际计算时，错误率有可能超过100%。

5.语音识别系统分类：

说话人:特定人、非特定人
语种:单一语种、多语种
词汇量:大词汇量、中词汇量、小词汇量
设备:云端、端侧
距离:近距离、远距离

三.语音识别的重要性

语音识别（ASR，Automatic Speech Recognition）是一项极具挑战性的技术，被誉为“镶嵌在人工智能皇冠上的明珠”。它在现代技术和应用中占有重要地位，主要体现在以下几个方面：

1. 快速、便捷、无接触的优点

快速：语音输入的速度通常比键盘输入更快，使信息传递更加高效。
便捷：用户只需说话，无需学习复杂的输入方法，使用门槛低。
无接触（Hands-Free）：特别适用于开车、做家务等需要双手操作的场景，提升了用户的便利性和安全性。

2. 音频内容分析与理解的基础

文字转写：语音识别是将音频内容转化为文本的第一步，这一过程是进一步分析与理解音频内容的基础。
文本分析：转写后的文本可以进行情感分析、主题识别等处理。
数据存档：转写文本便于存储和检索，提升了数据的可用性。

3. AIoT和智能服务的入口

AIoT（人工智能物联网）：语音识别是AIoT设备的主要交互方式，用户可以通过语音控制智能家居、可穿戴设备等。
- 智能家居：语音助手控制灯光、温度、家电等。
- 可穿戴设备：语音识别用于健康监测、运动记录等。
智能服务：语音识别在智能客服、自动翻译等领域有广泛应用。
- 智能客服：自动应答用户问题，提高客服效率。
- 自动翻译：实时翻译语音内容，打破语言障碍。

4. 满足自然人机交互和内容理解与生成的需求

自然人机交互：语音识别使人机交互更加自然，用户可以通过语音指令与设备进行交流，提升用户体验。
- 虚拟助手：如Siri、Alexa、Google Assistant等通过语音识别实现自然对话。
- 导航系统：通过语音输入目的地，提高驾驶安全性。
内容理解与生成：语音识别技术与自然语言处理（NLP）结合，实现内容的理解与生成。
- 语音搜索：用户通过语音进行信息搜索，快速获取答案。
- 语音生成：将文本转化为自然语音，实现双向交流。

5. 技术与应用的广泛性

医疗领域：医生通过语音输入病历，提高工作效率，减少误诊。
教育领域：语音识别用于语言学习、课堂记录等，提高学习效果。
安防领域：通过语音识别进行身份验证和监控，提高安全性。

四.语音交互

在这里插入图片描述
图片来源：http://techchannel.att.com/play-video.cfm/2011/8/10/AT&T-Archives-The-Speech-Chain

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

@李思成 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。