语音文件预处理用speechpy模块库处理 翻译官网文档

预处理

用于信号处理操作的处理模块。

该模块演示了信号处理功能的文档,这些文档是包中的内部计算所必需的。

ivar preemphasis:
  专注于信号。这是一个预处理步骤。
ivar stack_frames:
  从原始信号创建堆叠帧。
ivar fft_spectrum:
  快速傅立叶变换的计算。
ivar power_spectrum:
  功率谱计算。
ivar log_power_spectrum:
  记录功率谱计算。
ivar derivative_extraction:
  计算提取的特征的导数。
ivar cmvn: 倒谱均值方差归一化。这是一个后处理操作。
ivar cmvnw: 滑动窗口上的倒谱均值方差归一化。这是一个后处理操作。

预加重

speechpy.processing.preemphasissignalshift = 1cof = 0.98 [来源]

预先强调信号。

参数:
  • signalarray) - 输入信号。
  • shiftint) - 转换步骤。
  • coffloat) - 预加重系数。0等于没有过滤。
返回:

预先强调的信号。

返回类型:

排列

堆叠

speechpy.processing.stack_framessigsampling_frequencyframe_length = 0.02frame_stride = 0.02filter = <function <lambda >>zero_padding = True [source]

将信号帧化为重叠帧。

参数:
  • sigarray) - 音频信号到帧大小(N,)。
  • sampling_frequencyint) - 信号的采样频率。
  • frame_lengthfloat) - 以秒为单位的帧长度。
  • frame_stridefloat) - 帧之间的步幅。
  • filterarray) - 应用于每个帧的时域过滤器。默认情况下它是一个,所以什么都不会改变。
  • zero_paddingbool) - 如果样本不是frame_length的倍数(样本的帧数),则将执行零填充以生成最后一帧。
返回:

Stacked_frames - 大小的帧数组(number_of_frames x frame_len)。

返回类型:

排列

FFT频谱

speechpy.processing.fft_spectrumframesfft_points = 512 [来源]

该函数通过称为快速傅里叶变换(FFT)的有效算法计算实值阵列的一维n点离散傅立叶变换(DFT)。 有关更多详细信息,请参阅https://docs.scipy.org/doc/numpy/reference/generated/numpy.fft.rfft.html

参数:
  • framesarray) - 每个行都是一个帧的帧数组。
  • fft_pointsint) - FFT的长度。如果fft_length大于frame_len,则帧将被填零。
返回:

fft谱。如果frames是num_frames x sample_per_frame矩阵,则输出将为num_frames x FFT_LENGTH。

返回类型:

排列

功率谱

speechpy.processing.power_spectrumframesfft_points = 512 [来源]

每帧的功率谱。

参数:
  • framesarray) - 每个行都是一个帧的帧数组。
  • fft_pointsint) - FFT的长度。如果fft_length大于frame_len,则帧将被填零。
返回:

功率谱。如果frames是num_frames x sample_per_frame矩阵,则输出将为num_frames x fft_length。

返回类型:

排列

功率谱日志

speechpy.processing.log_power_spectrumframesfft_points = 512normalize = True [来源]

以帧为单位记录每帧的功率谱。

参数:
  • framesarray) - 每个行都是一个帧的帧数组。
  • fft_pointsint) - FFT的长度。如果fft_length大于frame_len,则帧将被填零。
  • normalizebool) - 如果normalize = True,则对数功率谱将被标准化。
返回:

功率谱 - 如果帧是num_frames x sample_per_frame矩阵,则输出将为num_frames x fft_length。

返回类型:

排列

导数提取

speechpy.processing.derivative_extractionfeatDeltaWindows [来源]

此功能是衍生功能。

参数:
  • feat数组) - 主要特征向量(对于返回二阶导数,它可以是一阶导数)。
  • DeltaWindowsint) - 使用配置参数DELTAWINDOW设置DeltaWindows的值。
返回:

微分特征向量 - 一个NUMFRAMESxNUMFEATURES numpy数组,它是沿着这些特征的衍生特征。

返回类型:

排列

猜你喜欢

转载自blog.csdn.net/weixin_38858860/article/details/89493935