本文翻译自Yihui April Chen发在Medium上的《Speech Recoginition Analysis》
原文地址open in new window

前言

我和语音识别算是有缘无份吧。这要从2019年的1月份说起,当时从学校返回杭州,之后的一周内投简历,接到了一家初创公司的面试邀请。说来也巧这家公司就是做语音识别,经过简单的面试也和这家公司的老板谈了不少。虽然这家公司觉得我还不错,只要我答应就可以去。最后我还是没有去,这算第一次有缘无份吧!

第二次就是10月份了,一位特别好友让我帮忙看看代码,说明一下这位特别好友就是做语音识别的硕士研究生。虽然我现在主要从事前端开发工作对python,机器学习上的理论忘的都差不多了,但还是硬着头皮答应帮忙。在从夜晚11点奋斗到午夜2点终于算是解决了,第二天一大早发给好友就算交差了。

今天,翻译这篇博客也是为了对语音识别有更好的了解。

文章前言

从Siri到智能家居设备(smart home devices),在我们的生活中语音识别(speech recoginition)被广泛的使用。这个语音识别项目将利用Kaggle语音识别挑战数据集在Tensorflow上来创建Keras模型,并对语音文件进行预测。

这里给出Kaggle语音识别挑战数据集的地址:
点击下载该数据集open in new window

数据提取与处理

与图像识别类似,语音识别的最重要部分就是将音频文件转换成$2 \times 2$的矩阵

音频文件的采样率和原始波形:

  • 音频文件的采样率:表示每秒传输的音频采样数,以Hz为单位。

下图展示了音频原始波与"bed"音频文件的采样率之间的关系:

train_audio_path = 'C:\\Users\\...\\train\\audio'
filename = filename = '\\bed\\00f0204f_nohash_0.wav'
sample_rate, samples = wavfile.read(str(train_audio_path) + filename)
ipd.Audio(samples, rate=sample_rate)
print(sample_rate)
print(samples)

未完待续......