音频分析是通过视觉或编程方式检查音频信号中的局部和全局特征来实现的,用来提取信息或了解其中隐藏的意义. 常见应用包括理解语音和说话者或分析音乐、环境或野生动物的声音. 与针对时间或频率分析优化过的信号处理以及高级机器学习和神经网络功能相结合,Wolfram 语言为各个领域的应用提供了解决方案.
音频可视化
AudioPlot — 音频波形图
Spectrogram — 音频的频谱或时域图
Periodogram — 音频的功率谱图
Cepstrogram — 音频的功率倒谱图
理解语音 »
SpeechRecognize — 将语音音频信号转换为文本
SpeechCases ▪ SpeechInterpreter ▪ ...
理解普通音频信号
AudioIdentify — 尝试识别录制的音频信号
PitchRecognize ▪ AudioInstanceQ
分析音频
AudioDistance — 计算两个音频对象间的距离度量
AudioBlockMap — 将函数应用于音频分区
AudioLoudness — 计算音频信号的不同响度标准
AudioIntervals ▪ AudioMeasurements ▪ AudioLocalMeasurements
频率分析
ShortTimeFourier — 计算短时傅立叶变换 (STFT)
Fourier ▪ PeriodogramArray ▪ SpectrogramArray ▪ CepstrogramArray ▪ CepstrumArray ▪ InverseShortTimeFourier ▪ InverseSpectrogram
音频注释
AudioAnnotate — 注释一个音频对象
AudioAnnotationLookup ▪ AnnotationDelete ▪ AnnotationRules
机器学习与神经网络 »
Classify, Predict — 创建并应用分类器或预测器于音频信号
Nearest ▪ FeatureNearest ▪ FeatureSpacePlot ▪ FindClusters ▪ ...
NetEncoder ▪ NetChain ▪ NetGraph ▪ ...
Wolfram 神经网络存储库中的模型 »
“在 YouTube 数据上训练的 VGGish 特征提取器”(特征提取) ▪ “在单声道信号数据上训练的 CREPE 音高检测网络”(音高检测) ▪ …