东北大学学报:自然科学版 ›› 2020, Vol. 41 ›› Issue (12): 1680-1685.DOI: 10.12068/j.issn.1005-3026.2020.12.002
郑艳, 陈家楠, 吴凡, 付彬
ZHENG Yan, CHEN Jia-nan, WU Fan, FU Bin
摘要: 语音情感识别是人机交互、情感计算中重要的研究方向.目前普遍使用深度神经网络用于语音情感特征的提取,但使用哪种神经网络模型、如何缓解模型过拟合问题还需进一步研究.针对这些问题,提出了一种结合一维卷积(CNN)以及门控循环单元(GRU)的CGRU模型,从原始语音信号的MFCC特征中提取语音的低阶以及高阶情感特征,并通过随机森林对其进行特征选择,在三种公用的情感语料库EMODB,SAVEE,RAVDESS上分别取得了79%,69%以及75%的识别精度.通过添加高斯噪声及改变速度等方法来增加样本量实现数据扩充,进一步提高了识别精度.通过在线识别系统验证了模型在实际环境中的可用性.
中图分类号: