简介

音频时域波形具有以下特征：音调，响度，质量。我们在进行数据增强时，最好只做一些小改动，使得增强数据和源数据存在较小差异即可，切记不能改变原有数据的结构，不然将产生“脏数据”，通过对音频数据进行数据增强，能有助于我们的模型避免过度拟合并变得更加通用。

经过实验发现对声波的以下改变是有用的：Noise addition（增加噪音）、Add reverb（增加混响）、Time shifting（时移）、Pitch shifting（改变音调）和Time stretching（时间拉伸）。

本文需要使用的python库：

matplotlib：绘制图像
librosa：音频数据处理
numpy：矩阵数据处理

常见的失真有：

加性声学噪声：加性噪声与期望信号不相干，平稳加性噪声(背景环境声音、嗡嗡声、功放噪音)，非平稳加性噪声(媒体干扰、非期望语音干扰和一些电子干扰)
声学混响：多径反射引起的叠加效应(与期望信号相关)
卷积信道效应：导致不均匀或带宽限制响应，为了去除信道脉冲响应，做信道均衡时对通信信道没有有效建模
非线性失真：信号输入时不适当的增益，常出现与幅度限制、麦克风功放等加性宽带电子噪声电器干扰
编码失真：比如压缩编码
录音仪器引起的失真：麦克风频率响应不足

先画出原始语音数据的语谱图和波形图:

import librosa
import numpy as np
import matplotlib.pyplot as plt

plt.rcParams['font.sans-serif'] = ['SimHei']  # 用来正常显示中文标签
plt.rcParams['axes.unicode_minus'] = False  # 用来正常显示符号
fs = 16000

wav_data, _ = librosa.load("/home/gxli/lgx/Data/gather_crop/clean1/2148_farend.wav", sr=fs, mono=True)

# ########### 画图
plt.subplot(2, 2, 1)
plt.title("语谱图", fontsize=15)
plt.specgram(wav_data, Fs=16000, scale_by_freq=True, sides='default', cmap="jet")
plt.xlabel('秒/s', fontsize=15)
plt.ylabel('频率/Hz', fontsize=15)

plt.subplot(2, 2, 2)
plt.title("波形图", fontsize=15)
time = np.arange(0, len(wav_data)) * (1.0 / fs)
plt.plot(time, wav_data)
plt.xlabel('秒/s', fontsize=15)
plt.ylabel('振幅', fontsize=15)

plt.tight_layout()
# plt.savefig("save.png")
plt.show()

JZTXT

Python语音增强

简介

时域增强

噪声增强

第一种：控制噪声因子