首页 理论教育 音乐数据分析:光学乐谱识别简介

音乐数据分析:光学乐谱识别简介

时间:2023-11-18 理论教育 版权反馈
【摘要】:光学乐谱识别技术可以把纸质乐谱自动转换为数字音乐信息,通过人工智能技术对纸质乐谱中的音乐信息进行识别并转化为计算机可读的数字音乐格式。[175]Chen等人认为由于乐谱音乐符号的多样性,有相当一部分音乐符号位于谱面的边界区域,容易造成识别错误,因此设计了一个以人工介入方式修正识别结果进而提高识别效果的OMR系统。乐谱图像识别算法包括谱线定位、音符检测和发音基元分析三个步骤。

音乐数据分析:光学乐谱识别简介

无论是西方还是东方,纸质乐谱都是主要的音乐载体。在信息时代,把纸质乐谱的音乐信息转换为数字音乐信息,可以有两个途径,一是人工录入,二是机器自动转换。两个途径各有优劣,人工输入耗费大量人力,但录入准确率高,机器自动转换可节省人力,但由于纸质乐谱质量和转换技术所限等原因,转换正确率较低。

光学乐谱识别技术(Optical Music Recognition,简称OMR)可以把纸质乐谱自动转换为数字音乐信息,通过人工智能技术对纸质乐谱中的音乐信息进行识别并转化为计算机可读的数字音乐格式(如流行的MIDI格式,Musical Instrument Digital Interface)。国外有关OMR的研究开始于20世纪60年代,当时因为技术条件和硬件设备的落后,所研究的内容和结果都非常有限。到了70年代,随着光学扫描仪的出现和机器性能的提升,OMR才真正引起了众多学者的广泛注意。进入80年代后,随着计算机图形图像技术不断发展与成熟,研究内容也越来越深入,其研究成果也逐步进入实用阶段。目前已经出台的商品化OMR软件系统有:Smartseore、OMeR、Midiscan、Photoseore、ShrpEyeMusieReader等。对于常见的印刷体五线谱乐谱,它们的识别率均在90%以上,同时提供强大的后期编辑、打印功能,最终识别结果可导出为Miid、Niff、MusicXML等数字音乐文件。

早期OMR研究源于1966年MIT的Pruslin对五线谱的音乐信息识别[158],近期OMR研究集中在五线谱谱线探测与删除[159][160][161]、谱面音乐符号分割[162][163]、音乐符号识别[164]和人工辅助乐谱识别[165]等方面。现在一般把面向五线谱的OMR系统分为图像预处理、谱线探测与删除、音乐符号分割、音乐符号识别、音乐信息表示与乐谱重建六个部分,由于图像预处理、音乐信息表示与乐谱重建技术已经非常成熟,因此目前五线谱识别的研究重点集中在谱线探测与删除、音乐符号分割和音乐符号识别三个方向,常用的技术方法包括投影法[166]数学形态学[167]神经网络[168]、模糊理论[169][170]、遗传算法[171]和基于LAG的组合模型[172]等。

Jorge Calvo-Zaragoza等人提出了利用深度学习卷积神经网络来探测和删除五线谱谱线的方法。[173]Fujinaga提出了利用投影法来探测五线谱谱线的方法。[174]笔者在《OMR研究及其原型系统开发》一文中,利用投影法来分割五线谱,再根据谱线间的距离来构建模板结构,利用模板结构和数学形态学的击中击不中等运算来提取和识别乐谱的音乐符号,并存储为MIDI音乐格式。[175]Chen等人认为由于乐谱音乐符号的多样性,有相当一部分音乐符号位于谱面的边界区域,容易造成识别错误,因此设计了一个以人工介入方式修正识别结果进而提高识别效果的OMR系统。[176]Rebelo等人提出了一个参数模型,在音乐符号分割之后加入句法和语义音乐规则,提高了音乐信息识别率。[177]Eelco van der Wel等人提出了一种基于深度学习的卷积序列到序列的OMR模型,可以实现乐句层级的音乐信息识别。[178]Ana Rebelo等人和Ismail Elezi等人分别对2010年前和2018年前的OMR研究工作进行了总结,分析比较了支持向量机、传统神经网络、K-最近邻法和隐马尔可夫模型等方法在音乐信息识别中的不同效果。这些OMR研究成果为音乐遗产的传承和大型数字音乐图书馆建设、音乐教育和普及等应用场景提供了便利。[179][180](www.xing528.com)

从20世纪90年代开始,我国学者也开始从事针对五线谱乐谱的OMR技术的研究与探索工作。王林泉等人建立了基于区域特征的乐谱识别系统,他们在分析乐谱的基础上,提出了区域特征的乐符识别方法,并实现了乐谱识别系统;乐谱用扫描仪输入,经过预处理、去除噪声、确定谱线位置、测定线宽、删除谱线等先期处理后,切分出各种乐符,用区域特性和乐符属性对乐符进行识别,系统还实现了乐谱计算机识别之后的自动演奏。[181]张登胜等人提出了基于句法规则和面向对象的乐谱识别系统,该系统将多声部乐谱原文转换成可编辑的乐谱文本,该系统首先在乐符检测阶段将谱段划分为个别对象,在识别阶段用非均勾密度特征和句法规则将这些对象识别出来,并将其登记,构成语义编码,然后由乐谱恢复模块将其恢复成乐谱原文。[182]

贾文赫开发了一套基于嵌入式平台的五线谱乐谱图像识别系统,研究并实现了基于深度学习技术的乐谱图像识别方法,实现乐谱图像识别的自动化与智能化。乐谱图像识别算法包括谱线定位、音符检测和发音基元分析三个步骤。首先使用霍夫变换技术进行谱线检测,然后融合FAST角点检测、图像金字塔级联卷积神经网络等图像处理技术进行音符检测,再使用图像分割技术对音符进行发音基元分割,对分割后的基元进行分析与组合,重构独立音符信息。[183]

针对工尺谱的OMR研究主要集中在对工尺谱的音乐信息提取及其有效信息提取[184][185]、时序分析[186]和工尺谱与其MIDI信息同步传播与互验证[187]等方面。《中国工尺谱数字实现研究》和An optical music recognition system for traditional Chinese Kunqu Opera scores Written in Gong-che Notation分别利用经典的遗传算法、BP网络和KNN法等模式识别技术对清代九宫大成南北词宫谱》和《纳书楹曲谱》的部分工尺谱进行音乐信息识别,但正确识别率较低;《基于聚类分析的多谱式工尺谱曲谱的有效空间信息提取研究》一文则利用层次聚类分析方法对工尺谱的有效信息进行提取,有效信息的提取正确率达到了90%以上[188];《基于时间序列分析的工尺谱自动翻译研究》一文提出了一种基于时间序列分析的工尺谱节拍自动翻译模型,相比较于传统的隐形马尔可夫模型和条件随机场模型具有更高的OOV(out of vocabulary)正确率[189];Synchronous transmission of a Gong-Che notation musical score and its MIDI information,利用水印技术解决了工尺谱与其MIDI信息的互验证与同步传播问题。[190]

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈