文章目录
前言
首先,cv君下血本费时整理了AI在音视频领域的大量的方向,形成本文综述,从原理到底层算法,到上层应用,统统透析~本系列由于综述文章过长的原因,所以分开写了。文章附带大量的算法原理+代码实现教学,欢迎关注,一起AI。
语音识别原理
首先是语音识别和语音唤醒等任务。一听到你就会想起科大讯飞,中国百度等平台,由于
这两家企业在中国语音领域占用80+市场,所以他们做得很优秀,不过由于高精技术无法开源,其他企业只得花费大量的金钱去购买其API,而无法研究语音识别等应用,导致民间语音识别发展较慢,今天我们来一饱眼福吧!
信号处理,声学特征提取
我们都知道声音信号是连续的模拟信号,要让计算机处理首先要转换成离散的数字信号,进行采样处理。正常人听觉的频率范围大约在20Hz~20KHz之间,为了保证音频不失真影响识别,同时数据又不会太大,通常的采样率为16KHz。
语音采样
在数字化的过程中,我们首先要判断端头,确定语音的开始和结束,然后要进行降噪和过滤处理(除了