论文标题:A survey of music emotion recognition
期刊:Frontiers of Computer Science
作者:Donghong HAN, Yanru KONG, Jiayi HAN, Guoren WANG
发表时间:12 Jan 2022
DOI:10.1007/s11704-021-0569-4
微信链接:点击此处阅读微信文章
原文信息
• 标题:
A survey of music emotion recognition
• 发表年份:
2022年
• 原文链接:
https://journal.hep.com.cn/fcs/EN/10.1007/s11704-021-0569-4
• 引用格式:
Donghong HAN, Yanru KONG, Jiayi HAN, Guoren WANG. A survey of music emotion recognition. Front. Comput. Sci., 2022, 16(6): 166335
1.导读
音乐是情感的语言。近年来,音乐情感识别在学术界和工业界引起了广泛的关注,它可以广泛应用于推荐系统、自动音乐创作、心理治疗、音乐可视化等领域。特别是随着人工智能的快速发展,基于深度学习的音乐情感识别也逐渐成为主流。本文对音乐情感识别进行了详细的调查。从音乐情感识别的一些初步知识开始,本文首先介绍了一些常用的评价指标。 然后提出了一个由三部分组成的的研究框架。在这三部分研究框架的基础上,详细分析了各部分涉及的知识和算法,包括一些常用的数据集、情感模型、特征提取和情感识别算法。之后,提出了音乐情感识别技术的挑战性问题和发展趋势,最后对整篇论文进行了总结。
2.研究背景及介绍
近年来,电子音乐市场取得了快速的发展,可以从各种来源获得大量的音乐资源。这些音乐资源需要根据情感、流派等标签信息进行组织和管理。这样听众就可以方便地获得音乐作品。由于音乐是情感的载体,所以识别音乐作品中的情感标签尤为重要。使用手动方法来获取标签信息可能会很耗时、劳动密集和容易出错。因此,自动识别情绪标签的研究领域开始形成。
音乐情绪识别(MER)是利用计算机提取和分析音乐特征,形成音乐特征与情绪空间的映射关系,识别音乐表达[1]的情绪的过程。音乐特征通常是从音频信号、象征性的乐谱、歌词文本,甚至是从脑电图等生物特征中提取出来的。情感空间可以用有限数量的离散类别或连续多维空间中的无限个点来表示。MER属于音乐心理学、音频信号处理和自然语言处理(NLP)的跨学科研究领域,而MER是音乐信息检索(MIR)的一个子任务。MER可广泛应用于音乐推荐、检索、可视化、自动作曲、心理治疗等领域。因此,MER已成为学术界和学术界的研究热点。
自20世纪30年代以来,研究人员就音乐和情感之间的关系展开了开创性的研究。在本世纪初,越来越多的研究人员开始研究如何从音乐数据中自动提取情感。近年来,随着人们对音乐特征的深入理解和人工智能的日益成熟,MER取得了很大的进展。本文对音乐情感识别进行了详细的研究,由于现有文章已经对一些关于音频特征和传统机器学习算法的进行了评论,本文的重点将是近年来使用深度学习算法的MER研究。
3.相关背景知识
评价指标
分类问题:
准确率:正确分类的样本占样本总数的比例,但在不平衡数据上表现不佳。
精度:真实的阳性样本与预测的阳性样本总数的比例。
回归问题:
R2:确定系数,评估回归模型与样本数据的拟合程度。
均方根误差:计算预测值和真实值之间的误差。
研究框架
现有的基于机器学习的MER工作包括三个部分,即领域定义、特征提取和情绪识别。整体框架如图1所示。从图1中可以看出,在域定义阶段选择了情绪模型和数据集,在特征提取阶段提取了有用的特征,在情绪识别阶段对情绪标签进行了预测。
图1. MER框架
情感模型和数据集
• 情感模型
表1. 情感模型的总结
表1总结了MER中一些常用的情感模型。 在“应用领域”一栏中,“一般”是指一般情感模型,“音乐”是指音乐情感模型。 一般情感模型可以用于各个领域的情感分析,这对多模态MER来说是很好的。音乐情感模型是专门针对音乐领域的,它可以更准确地描述音乐情感。 在 “情感概念化”一栏中,“分类”是指分类情感模型,“维度”是指回归情感模型。 一些学者认为,分类情感模型是模糊的,所以回归情感模型最近被使用得比较多。在 “情感定义”一栏中,“感知”指的是感知的情感,“诱发”是诱发的情感。 感知情感指的是音乐本身传达的情感,通常需要音乐数据(如音频、符号乐谱和歌词等)来识别。 诱发情绪是指音乐在听众中激起的情绪,这需要通过听众听音乐时产生的生理数据(如EEG)来确认。
• 数据集
表2. 数据集的总结
4.特征提取与情绪识别
手工制作的特征和传统的机器学习模型
• 手工制作的特征
特征提取是MER的核心问题,特征的质量直接影响着情绪识别的准确性。表3总结了一些数据格式、预处理方法、工具和结果。
表3. 数据格式和处理信息
音频特征。与情绪有关的音频特征可以分为节奏特征、音色特征和频谱特征。表4中总结了每一类中最常用的特征。
符号特征。是指从象征性的乐谱中提取的特征。
抒情特征。诸如词和情感类别的相关性、韵律信息、俚语、结构分析特征和语义特征被作为抒情特征使用。 此外,诸如情感词典、统计分析工具和Latent Dirichlet Allocation(LDA)等方法也被用来提取抒情诗特征。
生物特征。从听者那里收集生理数据。
表4. 音频特征
• 传统的机器学习模型
歌曲级别的分类MER。表5中总结了歌曲级分类MER的代表性作品。
表5. 歌曲级别的分类MER代表工作
歌曲级别的回归MER。表6总结了该领域的代表性工作。
表6. 歌曲级别的回归MER代表工作
MEVD。关于MEVD的代表性研究工作总结见表7。
表7. MEVD(ML)的代表工作
基于深度学习的MER
可以采用卷积神经网络(CNN)或递归神经网络(RNN)等DL模型作为端到端处理框架,将整个学习过程完全移交给DL框架,完成从原始数据到预期输出的映射。与传统的机器学习模型相比,基于dl的MER模型有两个优点。首先,DL模型的性能会随着训练数据量的增加而增加。其次,基于dl的模型可以从数据中自动提取出合适的特征。
• 歌曲级别的分类MER
表8总结了该领域的代表性工作。 可以看出,基于CNN的模型很常见。CNN是DL的代表性学习算法之一,它模拟了生物的视觉感知,可以有效地从数据中学习特征表征。
表8. 歌曲级别的分类MER(DL)代表工作
• 歌曲级别的回归MER
表9中列出了歌曲级回归MER领域的代表性作品,基于CNN和RNN的DL框架经常被使用。 RNN是DL的另一种代表性算法,它擅长处理序列数据,所以经常被用于NLP领域。 Bi-RNN和LSTM是RNN的两个常用变体。
表9. 歌曲级别的回归MER(DL)代表工作
• 回归MEVD
表10总结了使用DL技术在该领域的代表性工作。在动态情绪识别中,常用的模型是基于RNN的模型。
表10. 回归MEVD(DL)的代表工作
5.发展状况和趋势
表11给出了在一些常见数据集上的性能指标,以全面显示了MER方法的当前性能。
表11. 通用数据集上的性能表现
现有挑战
• 情绪是主观的,难以量化的。对于分类情绪模型,有一些形容词很难准确地量化音乐情绪的丰富性。对于维度情绪模型,如最常用的VA模型,它的一个象限通常包含多个近似的情绪(如第一象限包含高兴、兴奋等),但哪个数值对应于哪个情感是模糊且难以量化的。
• 对于音频之外的其他数据模式和特征的研究不足。
• MER领域需要一些权威的大规模多元化的情绪标记音乐数据集。
• 一些高级的音乐概念(调、旋律进程等)能在一定程度上反映出音乐的情感,但它们的定量研究很少。
发展趋势
• 领域定义:新的数据集和情感模型已经出现,如动态注释的数据集DEAM和诱导情感模型GEMS。动态处理更符合音乐的特点。音乐情感会在一首音乐作品中动态变化,所以静态处理并不详细和准确。特别是随着像RNN这样的序列模型的出现,动态地识别连续的情感变得更加方便。单独使用音频数据的性能已经达到了天花板,所以添加其他信息如诱导数据是必要的。
• 特征提取和情感识别:这两个步骤的方法正在从手工提取和传统的ML模型,转向使用DL框架进行端到端处理。表12展示了MIREX中AMC任务的年份、方法和准确率信息,从ML到DL的趋势很明显。
表12. mirex中AMC任务的效果
6.总结
本文综述了目前对MER的研究进展。首先,介绍了研究背景,给出了定义,总结了MER的意义,并简要介绍了MER的历史。然后介绍了当前的研究框架,并阐述了各部分所涉及的知识和算法。最后,指出了MER面临的挑战和未来的发展趋势。
摘要
Music is the language of emotions. In recent years, music emotion recognition has attracted widespread attention in the academic and industrial community since it can be widely used in fields like recommendation systems, automatic music composing, psychotherapy, music visualization, and so on. Especially with the rapid development of artificial intelligence, deep learning-based music emotion recognition is gradually becoming mainstream. This paper gives a detailed survey of music emotion recognition. Starting with some preliminary knowledge of music emotion recognition, this paper first introduces some commonly used evaluation metrics. Then a three-part research framework is put forward. Based on this three-part research framework, the knowledge and algorithms involved in each part are introduced with detailed analysis, including some commonly used datasets, emotion models, feature extraction, and emotion recognition algorithms. After that, the challenging problems and development trends of music emotion recognition technology are proposed, and finally, the whole paper is summarized.
解读:薛均晓 郑州大学
审核:张琨 合肥工业大学
Frontiers of Computer Science
Frontiers of Computer Science (FCS)是由教育部主管、高等教育出版社和北京航空航天大学共同主办、SpringerNature 公司海外发行的英文学术期刊。本刊于 2007 年创刊,双月刊,全球发行。主要刊登计算机科学领域具有创新性的综述论文、研究论文等。本刊主编为周志华教授,共同主编为熊璋教授。编委会及青年 AE 团队由国内外知名学者及优秀青年学者组成。本刊被 SCI、Ei、DBLP、INSPEC、SCOPUS 和中国科学引文数据库(CSCD)核心库等收录,为 CCF 推荐期刊;两次入选“中国科技期刊国际影响力提升计划”;入选“第4届中国国际化精品科技期刊”;入选“中国科技期刊卓越行动计划项目”。
《前沿》系列英文学术期刊
由教育部主管、高等教育出版社主办的《前沿》(Frontiers)系列英文学术期刊,于2006年正式创刊,以网络版和印刷版向全球发行。系列期刊包括基础科学、 、工程技术和人文社会科学四个主题,是我国覆盖学科最广泛的英文学术期刊群,其中13种被SCI收录,其他也被A&HCI、Ei、MEDLINE或相应学科国际权威检索系统收录,具有一定的国际学术影响力。系列期刊采用在线优先出版方式,保证文章以最快速度发表。
中国学术前沿期刊网
http://journal.hep.com.cn
特别声明:本文转载仅仅是出于传播信息的需要,并不意味着代表本网站观点或证实其内容的真实性;如其他媒体、网站或个人从本网站转载使用,须保留本网站注明的“来源”,并自负版权等法律责任;作者如果不希望被转载或者联系转载稿费等事宜,请与我们接洽。