MER 声学特征提取
特征集和提取工具
最近的任务目标是:确定音乐情感特征集(声学特征)
和提取方法
为了确定要提取的音乐情感声学特征集Acoustics Features Set for Music Emotion
,最近看了很多相关文章(Features in MER)。发现对于以前的音乐情感研究工作,研究人员多数使用Marsyas(最新版本为2015年发布)和MIRtoolbox(MATLAB工具包)。
然而近年来有一个专用于情感计算
和音乐信息检索
的特征提取工具openSMILE
异军突起,这是由TUM(德国慕尼黑工业大学)开发的开源工具,近年来多个Challenge(ISComparE, MediaEval, Emobase等)频繁使用其作为Baseline feature dataset
的提取工具,openSMILE
针对这几个挑战也在其发布的版本中包含了相应的config
文件。(openSMILE安装指南)
最终,我决定使用the 2013 Computational Paralinguistics Evaluation (ComParE)
[1] 提出的基线数据集2013 ComParE Feature Set(它同样在MediaEval 2014
中被作为基线数据集[2])。它在[3] 中表现出了评估speech, music, 以及 acoustic events的多维度情感鲁棒性。
同时,我决定使用openSMILE
作为特征提取工具。
提取流程
拟下载的音乐文件为MP3
格式,而openSMILE
只支持WAV
,所以首先需要用ffmpeg
转换格式:
1 | $ sh transformat.sh |
1 |
|
然后使用openSMILE
批量提取音乐特征:
1 | $ sh smileEX.sh |
1 |
|
从QQ音乐和网易云音乐下载的测试音乐特征提取成功。
Reference
[1] Schuller B, Steidl S, Batliner A, et al. The INTERSPEECH 2013 computational paralinguistics challenge: social signals, conflict, emotion, autism[J]. 2013.
[2] Aljanaki A, Yang Y H, Soleymani M. Developing a benchmark for emotional analysis of music[J]. PloS one, 2017, 12(3): e0173392.
[3] Weninger F, Eyben F, Schuller B W, et al. On the acoustics of emotion in audio: what speech, music, and sound have in common[J]. 2013.