语音识别是个什么黑魔法？

本文翻译自Yihui April Chen发在Medium上的《Speech Recoginition Analysis》
原文地址open in new window

前言

我和语音识别算是有缘无份吧。这要从2019年的1月份说起，当时从学校返回杭州，之后的一周内投简历，接到了一家初创公司的面试邀请。说来也巧这家公司就是做语音识别，经过简单的面试也和这家公司的老板谈了不少。虽然这家公司觉得我还不错，只要我答应就可以去。最后我还是没有去，这算第一次有缘无份吧！

第二次就是10月份了，一位特别好友让我帮忙看看代码，说明一下这位特别好友就是做语音识别的硕士研究生。虽然我现在主要从事前端开发工作对python，机器学习上的理论忘的都差不多了，但还是硬着头皮答应帮忙。在从夜晚11点奋斗到午夜2点终于算是解决了，第二天一大早发给好友就算交差了。

今天，翻译这篇博客也是为了对语音识别有更好的了解。

文章前言

从Siri到智能家居设备（smart home devices），在我们的生活中语音识别（speech recoginition）被广泛的使用。这个语音识别项目将利用Kaggle语音识别挑战数据集在Tensorflow上来创建Keras模型，并对语音文件进行预测。

这里给出Kaggle语音识别挑战数据集的地址：
点击下载该数据集open in new window

数据提取与处理

与图像识别类似，语音识别的最重要部分就是将音频文件转换成$2 \times 2$的矩阵

音频文件的采样率和原始波形：

音频文件的采样率：表示每秒传输的音频采样数，以Hz为单位。

下图展示了音频原始波与"bed"音频文件的采样率之间的关系：

train_audio_path = 'C:\\Users\\...\\train\\audio'
filename = filename = '\\bed\\00f0204f_nohash_0.wav'
sample_rate, samples = wavfile.read(str(train_audio_path) + filename)
ipd.Audio(samples, rate=sample_rate)
print(sample_rate)
print(samples)

未完待续......

# 前言

# 文章前言

# 数据提取与处理

前言

文章前言

数据提取与处理