基于内容的音频与音乐分析综述

时间:2020-08-08 12:31:53 硕士毕业论文 我要投稿

基于内容的音频与音乐分析综述

  摘要:机器听觉包括三大研究领域:语音信号处理与识别、一般音频信号分析、基于内容的音乐信号分析。其中,语音信号处理与识别早已成为一个传统的研究热点。随着信息科学与技术的迅速发展,基于内容的音频与音乐信号分析也逐渐成为一个新的研究热点,近几年来取得了大量研究成果。文章将对1990年以后该领域上所取得的研究成果进行综述,包括基于内容的音频或音乐信号自动分类、分割、检索以及音乐作品自动分析等内容。

基于内容的音频与音乐分析综述

  关键词:音乐分类;识别;分割;检索;音乐分析;自动摘要;音频信号处理;模式识别

  1、引言

  听觉是一个非常重要的信息来源,如何能让计算机具有人类的听觉能力是一个十分有趣的问题,有着广阔的应用前景。由于实际应用的需要,同时也为了研究方便,学者们将机器听觉分为三大领域:语音信号处理与识别、一般音频信号分析、基于内容的音乐分析。在这三个研究领域当中,有关语音识别的研究最为深入,每年都有大量的相关研究工作被报道。由于已经存在许多有关语音识别方面的综述性文章[1’2],本文将不再对该领域的研究工作做进一步的归纳和整理。

  所谓一般音频信号是指除了语音信号以外的各种音频信号,其中也包括音乐。而音乐也是一般音频信号中最重要的一个类别。我们知道音乐是一种复杂的非自然的声音现象,它是人类智慧与感性思维的体现。许多无法用语言准确描述的思想感情可以通过音乐表达出来,优秀的音乐作品往往会使人产生情感上的共鸣。因此,音乐被认为是全人类的共同语言,是人类几千年文化发展的成果,对它的研究无疑具有非常重要的价值。由于音乐本身包含着大量不同层次的信息,对音乐信号进行自动分析是十分困难的。此外,人类社会已经进入数字化时代,娱乐业与信息产业愈来愈紧密地结合在一起。如何快速有效地搜索、管理和分析多媒体数据已经成为一个非常重要的问题,而基于内容的音频和音乐信号分析则有助于这一难题的解决。

  和语音信号处理与识别相比,有关基于内容的音乐和一般音频信号分析的研究工作相对较少。但进入20世纪90年代以后,这个领域的研究工作取得了很大进展,国际上发表的有关论文数量大幅增长。而目前有关该领域的比较全面的综述文章还是截止到1988年,因此我们认为非常有必要对近几年的研究工作进行一下总结。在本文中,我们将对1990年以来基于内容的音频和音乐分析领域的研究工作进行全面、完整的综述,其中主要介绍最近七八年的研究成果,之前的研究工作请参看文献[3].

  此外,具体的有关遗传算法在音乐分析领域中的应用综述请参看文献[4].这个研究领域中比较重要的期刊和会议包括IEEE Transaction on Speech andAudio Processing;IEEE Transaction on PatternAnalysis and Machine Intelligence;IEEE(Transac—tion on)Multimedia;IEEE Transaction on SignalProcessing; IEEE International Conference onAcoustics, Speech, and Signal Processing(IC—ASSP);IEEE International Conference on Multi—media and Expo(1CME)和International Symposi—um on Music Information Retrieval(ISMIR)等。

  本文将按照不同的研究工作所处理的具体问题组织全文,安排如下:第2节介绍基于内容的音频和音乐分类与识别方面的研究工作;第3节介绍基于内容的音频流分割;第4节则介绍基于内容的音频或音乐检索;第5节介绍音乐作品分析以及乐谱自动识别方面的工作;第6节介绍有关计算机音乐分析与理解方面的一些其他工作;最后在第7节中则是我们对该领域今后研究工作的一些认识。

  2、基于内容的音频和音乐分类与识别

  基于内容的音频数据自动分类是一个十分重要的研究方向,它可成为其他许多应用研究的基础,如基于内容的分割、检索等。依据研究对象的不同,我们可以将这个领域的研究工作分为以下三个部分。

  2.1 针对音乐类数据的自动分类与识别

  由于音乐类数据具有高度的复杂性,根据研究对象的不同我们可以将这部分工作进一步细分为如下几个问题。

  2.1.1针对不同音乐类型的自动分类

  (1)两类分类问题两类分类问题是指,研究对象中仅仅包含有两种不同的混合音乐类型的数据。由于应用需求的不同,学者们所感兴趣的具体研究对象也是不同的。

  如:Bickerstaffe等人研究了如何利用最小消息长度准则(MML)对摇滚乐和古典音乐进行自动分类[5].

  在他们的工作中比较了一种称为“Snob”的非监督学习方法和三种监督分类方法:决策树、决策图和人工神经网络,结果表明在这个问题中监督分类方法要明显优于非监督分类方法;为了方便进行歌词自动识别,Berenzweig等人研究了如何区分流行歌曲中的演唱部分和纯伴奏部分[6],他们利用一个在说话人识别领域中常用的分类器对类似语音的声音信号进行检测。由于具有背景伴奏音乐的歌手演唱信号与一般的语音信号有着很大的不同,对于那些无法直接通过“说话人识别分类器”来确定类别的声音片段,作者将进一步采用一个基于HMM框架的方法来最终判断其类别。

  (2)多类分类问题在针对不同音乐类型的自动分类问题中,多类分类问题是比较常见的[710J.由于研究兴趣与具体应用需求的差异,学者们所关心的音乐类别往往不尽相同,但基本上都是采用基于样本训练的分类方法。总的来说,研究所涉及的音乐类别越多则研究难度越大。Tzanetakis等人设计了一个以音乐类数据为主的三层音频分类树(见图1),其内容覆盖了大部分西方现代音乐和一部分古典音乐[7],其中在具有十种音乐类别的分类层次上可以达到61%的平均分类正确率。在他们的工作中使用了三种分别代表音色纹理、旋律内容和音高内容的特征集,并对这些特征的性能做了比较性研究。Lambrou等人利用万方数据计算机学报小波系数作为特征,对摇滚乐、爵士乐和钢琴曲这三类音乐信号进行自动分类[8],同时比较了不同的小波构造方法和分类器对于这个三类问题的区分能力。文献[9]将音乐信号的分形维数作为特征对12类音乐信号进行了自动分类研究,实验结果表明音乐信号的分形维数可以作为一种有效的特征用于音乐数据的自动分类。

  (3)非监督分类——聚类前面所讨论的两类与多类音乐分类问题都属于监督分类问题,也就是说分类问题的类别是已知的,并且研究者可以获得类别已知的样本数据,这类情况比较常见。与此相对应的则被称为非监督分类问题,此时研究者可能无法获得足够的类别已知的样本数据,有时甚至连类别数都无法知道。非监督分类问题又称为聚类分析,关于针对音乐数据进行聚类分析的研究报导较少,因为聚类结果强烈依赖于所定义的相似性度量,并且所产生的聚类结果很难满足某种具体的应用需要。Cilibrasi等提出了一种基于Kolmogorov复杂性和信息距离的音乐分级聚类方法[11|,它不使用任何音乐背景知识并可以直接用于其它领域的聚类分析。Shao等则提出了一种基于HMM的非监督音乐分类方法[1 2I,为了获得更好的结果,他们还对音乐信号的节奏进行分析并在此基础上提取特征。

  2.1.2基于内容的乐器(音色)自动分类与识别

  如何从一段给定的音乐信号中识别出参加演奏的乐器是一个非常有趣的问题。这样的任务对于人类来说也许是非常轻松的,但对于机器来说却十分困难。识别或区分某种乐器主要依靠它特有的音色,从物理学上看音色则是由物体的振动状态所决定的,不同物体的振动状态决定了它的泛音及波形的不同,一个固定音高的音由于其中所含各阶谐频成分的比例不同,其音色也不同。对于某种具体的乐器来说,这种频谱的变化又是十分复杂的,同一种乐器由于演奏技法的不同其音色也会发生显着的变化。

  因此,如何方便而准确地描述音色是一个难题。有关乐器识别或音色识别方面的研究工作比较少,它们可以分为以下两种情况:

  (1)独立演奏情况下的乐器识别

  大多数关于乐器自动识别的工作都是在独立演奏的假设下完成的,这使得工作变得相对容易了一些。Kermit等人研究了如何对吉他、键盘乐器和鼓这三种乐器进行自动识别[13|,他们首先采用Haar小波变换对音频信号进行预处理以提取特征,然后通过一个神经网络对测试数据进行分类。他们的方法也可以用来对一些语音数据进行自动分类,如一些元音和字词。在文献[14]中,作者采用一种称为ARTMAP的神经网络来区分五类乐器所演奏的单音符信号,这五类乐器分别为钢琴、吉他、小号、萨克斯和长笛。在文献[15]中,作者采用频谱特征对来自27种乐器所演奏的1007段音频信号进行了自动分类研究。实验结果表明二次分类器所取得的效果最好,它要优于目前比较流行的SVM分类器和传统的最近邻分类器。该分类器对来自具体乐器所演奏的音符的平均分类错误率为7.19%,对乐器族的平均识别错误率仅为3.13%。Eronen针对16种西方管弦乐器的自动识别问题做了特征比较研究[16【,他考虑的特征包括Mel频率、线性预测倒谱系数和delta倒谱系数等。他所报道的对乐器族的最高识别正确率仅为77%。Krishna等同样在单音符乐器识别问题中比较了不同特征(MFCC和LPCC)以及分类方法(高斯混合模型和K近邻法)的作用[1?,他们所报道的针对14种乐器的最高平均识别正确率为90%。

  (2)混合情况下的乐器识别

  在实际演奏的情况下,尤其是在多乐器混响的情况下进行乐器自动识别是非常困难的,相关的研究报道非常少。Josephson等人研究了模糊专家系统在混响情况下乐器识别问题中的有效性,并列举了几个应用实例n 8|.他们建议采用定量的物理分析与模糊专家系统相结合的方法对音色进行识别。其中专家系统的知识库是这样建立的:专家的知识+从音乐信号中直接提取出的音质特性,如基频、谐波泛音强度、谐波相位偏移量等。但是该文并没有详细给出系统的实现方法。Kostek研究了如何从二重奏音乐信号中识别乐器并将其分割出来[1 9|,他使用神经网络作为最后的决策系统。Sakuraba等则对四重奏音乐信号下的乐器识别问题做了特征比较研究。

  2.1.3歌手自动识别

  如何让计算机分辨出一首歌曲是哪位歌手所演唱的是一个十分有趣的问题。由于人们在日常生活中所欣赏的音乐大多都是歌曲,解决该问题会十分有助于歌曲类多媒体数据的自动管理和检索。这个问题与语音识别领域中的说话人识别非常类似,解决的思路也基本类似。但是由于人在演唱时嗓音的动态范围比说话时要大的多,再加上往往会有伴奏音乐,所以歌手识别问题要比说话人识别更加困难。

  有关该问题的文献不多,它们可以分为以下两种情况:

  (1)无伴奏情况下的歌手识别在文献[21]中,作者对12位美声唱法歌手的清唱歌声做了自动识别研究。他们采用频谱包络的主成分作为特征,并用一个二次分类器对来自不同歌手的歌声做自动识别。通过交叉验证实验,对歌手的平均正确识别率为95%。Kim则通过训练HMM对来自4名美声歌手所演唱的简单音调做了识别,平均正确率可达90%左右[2引。

  (2)有伴奏情况下的歌手识别“u等提出了一种方法用于在MP3格式下做歌手识别[2引。他们首先通过一系列多项滤波器将训练集中的MP3音乐信号进行分解得到一系列音符(或音素),然后从每个音符中提取特征训练分类器对测试集中的歌曲进行歌手识别。Zhang基于说话人识别系统的一般框架提出了一种歌手自动识别方法口“。她为训练集中的每位歌手的嗓音特性训练了一个统计模型。对于一首待测试的歌曲,她首先检测歌曲中演唱部分的起始点,然后从这个起始点开始截取出一段定长的演唱片断,最后从这个演唱片断中提取音频特征与训练集中的歌手嗓音模型进行匹配以完成歌手识别任务。在一个不大的测试集上,她的方法可以达到大约80%的平均识别正确率。此外,她还针对歌手之间的嗓音相似性做了一些聚类分析。Maddage等也提出了一种歌手自动识别方法嘶],他们首先采用SVM分类器来检测歌曲中的演唱片断,然后通过高斯混合模型来对歌手的嗓音进行建模和识别。在一个包含了100首独唱歌曲的数据库中,他们的方法可以达到87%的平均正确率。Tsai等则研究了如何在具有背景伴奏和其他歌手存在的情况下,如何检测和跟踪某个特定歌手的演唱‘2引。

  2.2包含音乐类数据的一般音频分类

  包含音乐类数据的一般音频自动分类是指在分类对象中至少包含一种属于音乐类别的数据或者音乐与其他类别音频信号(如语音)的混和数据。我们可以将这部分研究工作进一步细分为如下两部分。

  2.2.1语音与音乐类数据的区分

  由于语音和音乐是非常重要的两类音频数据,如何有效地区分语音和音乐就显得非常重要。关于这方面研究的文献资料比较多[27。30f,他们通常也被当作复杂情况下语音识别所必需的预处理工作。

  Feng等采用最大熵模型,并结合一些通用特征对语音和音乐进行分类[2?.Hughes等采用小波变换与神经网络相结合的方法来解决这个问题[28|.Chou等则着重强调了语音信号与歌曲类信号的区分,并为此提出了一些新的特征[2 9I.Beierholm等提出了一种无需训练的语音、音乐区分算法口?。在他们的方法中,对语音和音乐信号分别采用了不同的特征类别和模型阶数。

  2.2.2其他多类分类问题

  在包含音乐类数据的一般音频自动分类问题中,多类分类问题也是比较常见的。31。3“。由于研究者的兴趣和实际应用需求的不同,他们所关心的音频类别数和具体的音频类别往往不尽相同,但又十分相似。Lu和Zhang等首先通过K近邻结合线性谱对向量量化法(LSPLVQ)将音频信号分为语音和非语音两大类[3¨,然后利用基于规则的分类方法将菲语音类音频信号进一步分为音乐、环境声音和静音。

  为此,他们还提出了自己定义的一些特征,如:噪音帧数比和频带周期。在文献[32]中,他们比较了SVM、K近邻法和高斯混和模型在~个五类的音频分类问题中的性能差异,这五类音频分别为静音、环境声音、语音、非纯语音和音乐。实验结果表明SVM要明显优于其它两种分类器。Li等研究了在一般音频信号分类中的特征选择问题[3?,他们将音频信号分为七类:静音、环境噪音、单人语音、多人语音、音乐、语音和音乐的混合信号、噪音背景下的语音。研究结果表明倒谱类特征(如MFCC)和线性预测系数(LPC)要优于一般的时域和频域特征,他们所报道的最高平均分类正确率为90%。Zhang使用能量函数、平均过零率、基频和谱峰轨迹作为特征,并通过一个基于规则的启发式的分类方法将一般音频信号分为八类:和谐的环境声音、纯乐曲、歌曲、带有背景音乐的语音、带有背景音乐的环境声音、纯语音、非和谐的环境声音和静音口4|.他们的方法也可以达到90%的平均分类正确率。

  2.3不包含音乐类数据的一般音频分类