AI作曲的諾亞方舟將去往何處

作者：黃康瑄 2020-10-26 16:00:10

韓國(guó)新人歌手夏妍發(fā)布了由人工智能作曲機(jī)器人EvoM制作的單曲《Eyes on you》，成為全世界第一位憑借AI作曲出道的人類(lèi)歌手。

10月8日，韓國(guó)新人歌手夏妍發(fā)布了由人工智能作曲機(jī)器人EvoM制作的單曲《Eyes on you》，成為全世界第一位憑借AI作曲出道的人類(lèi)歌手。

EvoM是韓國(guó)光州科學(xué)技術(shù)院人工智能研究生院研發(fā)的韓國(guó)首個(gè)人工智能作曲機(jī)器人，在《Eyes on you》的錄制中負(fù)責(zé)作曲、編曲工作。EvoM的研發(fā)者安昌旭表示，他的目標(biāo)是讓人工智能創(chuàng)作的歌曲登上K-POP排行榜。

啟航-音樂(lè)生產(chǎn)自動(dòng)化的野心

早在上個(gè)世紀(jì)，人類(lèi)就開(kāi)始探討計(jì)算機(jī)獨(dú)立制作音樂(lè)的可能性。1956年，在列哈倫·希勒(Lejaren Hiller)的研究室里，世界上第一首完全由計(jì)算機(jī)生成的音樂(lè)作品--弦樂(lè)四重奏《伊利亞克組曲》(Illiac Suite)誕生了。1995年，阿爾佩(Alpern)研發(fā)的EMI作曲系統(tǒng)也是較早的一個(gè)成熟的古典音樂(lè)作曲系統(tǒng)，該系統(tǒng)主要采用拼接的方式來(lái)創(chuàng)作再現(xiàn)已故作曲家音樂(lè)風(fēng)格的作品，其中有類(lèi)巴赫的創(chuàng)意曲、器樂(lè)協(xié)奏曲和組曲，還有類(lèi)莫扎特的奏鳴曲以及類(lèi)肖邦的夜曲。

隨著人工智能相關(guān)技術(shù)的發(fā)展和普及，近年來(lái)，越來(lái)越多企業(yè)和機(jī)構(gòu)開(kāi)始研究這個(gè)科技與藝術(shù)結(jié)合的奇妙領(lǐng)域，各式各樣的作曲算法不斷涌現(xiàn)，不少虛擬音樂(lè)人展露頭角。“智能相對(duì)論”梳理了下：

2016年，Google公司研發(fā)的機(jī)器學(xué)習(xí)項(xiàng)目馬真塔(Magenta studio)通過(guò)神經(jīng)學(xué)習(xí)網(wǎng)絡(luò)創(chuàng)作出一首時(shí)長(zhǎng)90秒的鋼琴曲。同年，Sony旗下的計(jì)算機(jī)科學(xué)實(shí)驗(yàn)室(Computer Science Laboratories，簡(jiǎn)稱(chēng)Sony CSL)開(kāi)發(fā)了Flow Machines平臺(tái)。

Flow Machines利用馬爾科夫鏈分析數(shù)據(jù)庫(kù)中現(xiàn)存的歌曲，提取旋律及和弦的關(guān)鍵信息，利用這些關(guān)鍵信息作為變量來(lái)學(xué)習(xí)音樂(lè)風(fēng)格，讓不同風(fēng)格的歌曲相互轉(zhuǎn)換、融合，并加以?xún)?yōu)化，其代表作是一首披頭士音樂(lè)風(fēng)格的歌曲《爸爸的汽車(chē)》(Daddy's Car)。此外，Sony CSL還開(kāi)發(fā)了一個(gè)名為“DeepBach(深度巴赫) ”的神經(jīng)網(wǎng)絡(luò)，利用巴赫創(chuàng)作的352部作品來(lái)訓(xùn)練DeepBach，最終完成2503首贊美詩(shī)的創(chuàng)作。

第一個(gè)正式獲得世界地位的AI虛擬作曲家則是2016年誕生的AIVA(Artificial Intelligence Virtual Artist)。AIVA通過(guò)讀取由莫扎特、巴赫、貝多芬等名家譜寫(xiě)的15000首曲子進(jìn)行學(xué)習(xí)，利用深度學(xué)習(xí)技術(shù)，搭建體現(xiàn)它自己對(duì)音樂(lè)理解的數(shù)學(xué)模型，運(yùn)用模型創(chuàng)作出完全原創(chuàng)的曲子。

作為虛擬音樂(lè)人，AIVA已通過(guò)法國(guó)和盧森堡作曲家協(xié)會(huì)(SACEM)的合法注冊(cè)，成為該協(xié)會(huì)首位非人類(lèi)會(huì)員，并擁有自己的署名版權(quán)。

今年2月，美國(guó)數(shù)字研究機(jī)構(gòu)Space150模仿知名說(shuō)唱歌手Travis Scott的人聲和音樂(lè)風(fēng)格，做出了說(shuō)唱機(jī)器人Travis Bott。

這是一個(gè)關(guān)于人工智能創(chuàng)造性的實(shí)驗(yàn)，研發(fā)團(tuán)隊(duì)采用附加神經(jīng)網(wǎng)絡(luò)技術(shù)(Additional Neural Network)，創(chuàng)造出“Travis Scott味”的旋律和打擊樂(lè)伴奏，再將Travis Scott的歌詞輸入“文本生成器模型(Text Generator Model)”，得到了機(jī)器自動(dòng)仿照Travis風(fēng)格生成的歌詞。

于是，Travis Bott完成了自己的創(chuàng)作--《Jack Park Canny Dope Man》。最后，研發(fā)團(tuán)隊(duì)使用基于A(yíng)I的人體圖像合成技術(shù)“Deepfake”，為這首歌拍攝了MV。就樂(lè)曲效果而言，Travis Bott對(duì)Travis Scott的模仿幾乎以假亂真，完全融匯了Travis Scott作品以及人物魅力最主要的外部特征。同時(shí)，該項(xiàng)目也進(jìn)一步驗(yàn)證了人工神經(jīng)網(wǎng)絡(luò)技術(shù)(Artificial Neural Networks)的蓬勃發(fā)展，有助于探索未來(lái)AI在音樂(lè)中的應(yīng)用價(jià)值。

造船原理-幾種算法模型

現(xiàn)代人工智能作曲技術(shù)背后蘊(yùn)含了多種算法模型的結(jié)合運(yùn)用，包含人工神經(jīng)網(wǎng)絡(luò)、馬爾科夫鏈及遺傳算法等。如AIVA和Travis Bott就使用了一種基于人工神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)技術(shù)。

人工神經(jīng)網(wǎng)絡(luò)是一種對(duì)生物神經(jīng)的網(wǎng)絡(luò)行為特征進(jìn)行模仿，開(kāi)展分布式并行信息處理的算法數(shù)學(xué)模型。程序員必須搭建一個(gè)多層“神經(jīng)網(wǎng)絡(luò)”，在多層的結(jié)構(gòu)中分別加以編程，從而處理各種輸入和輸出點(diǎn)之間的信息。作品數(shù)據(jù)輸入后，人工神經(jīng)網(wǎng)絡(luò)會(huì)找到眾多被輸入作品之間存在的規(guī)律，繼而形成對(duì)音樂(lè)旋律、節(jié)奏、音高、強(qiáng)弱變化的理解與學(xué)習(xí)。

這種學(xué)習(xí)的主要目的是用來(lái)預(yù)測(cè)，并非就此生成作品。AI程序會(huì)帶著它對(duì)以上音樂(lè)風(fēng)格的預(yù)測(cè)繼續(xù)運(yùn)行，并將在前方遇到下一個(gè)驗(yàn)證數(shù)據(jù)集。這個(gè)數(shù)據(jù)集會(huì)判定它的預(yù)測(cè)是否正確，正確與錯(cuò)誤的回饋都將被AI記住。

在不斷的高速學(xué)習(xí)中，AI的預(yù)測(cè)能力就會(huì)越來(lái)越強(qiáng)，最終掌握程序員大數(shù)據(jù)歸總后的曲風(fēng)，進(jìn)而編寫(xiě)出自己的曲子。人工神經(jīng)網(wǎng)絡(luò)為從前的算法作曲提供了一種新的方式，其優(yōu)勢(shì)在于能夠?qū)σ魳?lè)作品的全局性特征進(jìn)行學(xué)習(xí)，但是需采用大量的樣本進(jìn)行訓(xùn)練。當(dāng)下國(guó)內(nèi)外有許多基于該種算法所形成的人工智能作曲系統(tǒng)，如LSTM神經(jīng)網(wǎng)絡(luò)，可以確保所創(chuàng)作音樂(lè)的完整性。

除了人工神經(jīng)網(wǎng)絡(luò)，馬爾科夫鏈(Markov Chain)也一直被廣泛地應(yīng)用于算法作曲領(lǐng)域。馬爾科夫鏈?zhǔn)且环N隨機(jī)選擇過(guò)程，主要用于產(chǎn)生一段具有一定風(fēng)格的旋律。就像按照一個(gè)特定的標(biāo)準(zhǔn)人為構(gòu)造制定的轉(zhuǎn)換表來(lái)依次選擇音符，計(jì)算并選擇下一個(gè)要出現(xiàn)音符的可能性。這種方法可以模擬作曲家創(chuàng)作音樂(lè)時(shí)的思維，來(lái)控制計(jì)算機(jī)生成相應(yīng)的音樂(lè)作品，但是整部作品的曲式結(jié)構(gòu)無(wú)法通過(guò)馬爾科夫鏈建模。遺傳算法(Genetic Algorithm)則是模仿生物進(jìn)化過(guò)程的智能計(jì)算方法，使用適應(yīng)性函數(shù)來(lái)演化樣本、優(yōu)化全局。

其中，變異算子可以模擬人在其創(chuàng)作當(dāng)中靈感的閃現(xiàn)，相當(dāng)于留下最具代表性的作品來(lái)產(chǎn)生新的旋律。該算法的壁壘在于適應(yīng)性函數(shù)的設(shè)計(jì)至今尚無(wú)統(tǒng)一標(biāo)準(zhǔn)。

版權(quán)的“暗礁”，依然是AI作曲要面臨的主要問(wèn)題

由于A(yíng)I音樂(lè)的產(chǎn)生是根據(jù)算法模型，讓計(jì)算機(jī)在大量現(xiàn)成作品中尋求“規(guī)律”，按照這些規(guī)律提取資料中特定的樂(lè)章片段，依據(jù)計(jì)算得出的概率重新進(jìn)行排列組合，故人工智能作曲必然涉及到資料庫(kù)中大量現(xiàn)成作品的版權(quán)問(wèn)題。

AI如何判斷研究人員提供的曲庫(kù)中哪些作品收到版權(quán)保護(hù)?AI作曲成果是否侵犯學(xué)習(xí)對(duì)象的版權(quán)?如AIVA最初以古典音樂(lè)為學(xué)習(xí)對(duì)象，它所使用的莫扎特、貝多芬等人的作品歷史久遠(yuǎn)，版權(quán)時(shí)效已過(guò)，故沒(méi)有此類(lèi)問(wèn)題。

AIVA研發(fā)人員特意選擇古典音樂(lè)為其學(xué)習(xí)對(duì)象，主要就是為了避免版權(quán)問(wèn)題。但像Travis Bott所用的Travis Scott人物及作品相關(guān)資料皆需取得授權(quán)，而Travis Bott在此基礎(chǔ)上創(chuàng)作的作品算不算對(duì)Travis Scott的抄襲?音樂(lè)作品抄襲的議題屢見(jiàn)不鮮，相關(guān)討論仍然不時(shí)出現(xiàn)，至今依然沒(méi)有統(tǒng)一、明確的判斷標(biāo)準(zhǔn)。從版權(quán)問(wèn)題可見(jiàn)，現(xiàn)在的人工智能作曲技術(shù)依托于算法，受限于曲庫(kù)的音樂(lè)“規(guī)則”，還無(wú)法產(chǎn)生突破既有規(guī)律的作曲創(chuàng)意，此為AI作曲面臨的另一個(gè)技術(shù)難題。

即便AI作曲技術(shù)經(jīng)過(guò)不斷優(yōu)化，最終得以生產(chǎn)出純?cè)瓌?chuàng)、不涉及任何侵權(quán)的作品，此作品又將面臨到版權(quán)認(rèn)證的問(wèn)題。隨著AI創(chuàng)作相關(guān)技術(shù)的成熟與普及，一些國(guó)家開(kāi)始在法律上明確界定AI作品的版權(quán)歸屬。

1988年，英國(guó)正式頒布了《版權(quán)、設(shè)計(jì)和專(zhuān)利法案》(Copyright,Designs and Patents Act 1988)，其中，對(duì)于計(jì)算機(jī)創(chuàng)作的內(nèi)容進(jìn)行了明確的規(guī)定：“為計(jì)算機(jī)所生成之作品進(jìn)行必要程序者，視為該計(jì)算機(jī)生成之作品的作者，其保護(hù)期限是自作品完成創(chuàng)作之年的最后一日起50年后屆滿(mǎn)”。

規(guī)定AI作品的版權(quán)屬于“進(jìn)行必要程序者”，同時(shí)也明確界定了對(duì)計(jì)算機(jī)生成作品“進(jìn)行必要程序者”，即包括程序員、使用者，也可能是人工智能系統(tǒng)或設(shè)備的投資者。

2017年，世界知識(shí)產(chǎn)權(quán)組織(WIPO)雜志提到：如果一部作品的創(chuàng)作過(guò)程中“人類(lèi)的參與有限，或根本沒(méi)有人類(lèi)參與”，著作權(quán)法可以有兩種潛在的生效方式--著作權(quán)法可以“拒絕”對(duì)計(jì)算機(jī)生成的作品進(jìn)行版權(quán)保護(hù)，也可以將此類(lèi)作品的作者歸屬于程序的創(chuàng)建者?，F(xiàn)在國(guó)內(nèi)解決此類(lèi)問(wèn)題也基本沿襲這個(gè)思路。

2018年，上海一家公司未經(jīng)過(guò)授權(quán)，將騰訊開(kāi)發(fā)的自動(dòng)化編寫(xiě)程序Dream writer生成的財(cái)務(wù)報(bào)告復(fù)制到該公司網(wǎng)站。深圳市南山區(qū)法院裁定，該公司因侵犯騰訊的版權(quán)而需承擔(dān)民事責(zé)任，向騰訊公司賠償1500元人民幣。

中國(guó)現(xiàn)行的《著作權(quán)法》尚未明確界定AI作品的版權(quán)歸屬，這一裁定可能是AI創(chuàng)作領(lǐng)域的重要里程碑?！吨鳈?quán)法》：“著作權(quán)是著作權(quán)法賦予民事主體對(duì)作品及相關(guān)客體所享有的權(quán)利。”其中，民事主體指公民、法人或非法人組織?！吨鳈?quán)法》保護(hù)的對(duì)象是作為民事主體的獨(dú)創(chuàng)性思想表達(dá)，并非民事主體的AI無(wú)法單獨(dú)享有著作權(quán)，但只要在作者名錄加上人類(lèi)作曲家或研發(fā)者的名字就能解決此問(wèn)題。人工智能雖無(wú)法成為受法律保護(hù)的主體，但對(duì)其作品版權(quán)的保護(hù)也開(kāi)始受到法律認(rèn)可。

沒(méi)有感情的輔助器-方舟的航向

人工智能作曲技術(shù)的日漸成熟，在音樂(lè)行業(yè)掀起一股不小的浪潮。盡管人工智能已經(jīng)實(shí)現(xiàn)通過(guò)讀取、記憶大量樂(lè)曲獲取規(guī)律，計(jì)算音符節(jié)奏的出現(xiàn)概率并排列組合來(lái)“創(chuàng)造”音樂(lè)。但音樂(lè)的核心并非音樂(lè)本身而是“人”，音樂(lè)源于人類(lèi)情感流動(dòng)?！抖Y記·樂(lè)記》對(duì)音樂(lè)起源的解釋非常貼切：“凡音之起，由人心生也。人心之動(dòng)，物使之然也。感于物而動(dòng)，故形于聲;聲相應(yīng)，故生變;變成方，謂之音。”作曲家和演奏者透過(guò)旋律、節(jié)奏表達(dá)的情緒與觀(guān)眾聆聽(tīng)音樂(lè)引起的共鳴，這種藉由音符實(shí)現(xiàn)的，跨越時(shí)間、空間與種族的情感交流才是音樂(lè)存在的意義，也是莫扎特、貝多芬等音樂(lè)家流芳百世的根本原因。

從某種角度來(lái)說(shuō)，由于音樂(lè)是人類(lèi)抒發(fā)心情的一種方式，讓沒(méi)有感情的人工智能作曲或許可以說(shuō)是一個(gè)偽命題。人工智能不具備情感，不了解音符、節(jié)奏等音樂(lè)表層結(jié)構(gòu)和基于情緒表達(dá)的音樂(lè)深層邏輯之對(duì)應(yīng)關(guān)系，其制作的音樂(lè)只是基于概率所排列的音符。

無(wú)論算法作曲技術(shù)發(fā)展得多么成熟，音樂(lè)作為人類(lèi)情感交流的藝術(shù)形式之一，AI所作的樂(lè)曲必然無(wú)法完全取代人類(lèi)音樂(lè)作品在社會(huì)中的功能和角色，人工智能也無(wú)法替代行業(yè)內(nèi)頂尖的音樂(lè)創(chuàng)作者及表演者。不僅是音樂(lè)，在美術(shù)、文學(xué)等藝術(shù)創(chuàng)作中皆是如此。

現(xiàn)在較為成熟的AI音樂(lè)公司除了Google、Sony、AIVA外，還有英國(guó)的AI Musical、德國(guó)的Melodrive、美國(guó)的Humtap、Popgun、Snafu Records及諸多硅谷大亨聯(lián)合建立的人工智能非營(yíng)利組織OpenAI、字節(jié)跳動(dòng)旗下的Jukedeck等。

百度、騰訊、阿里、網(wǎng)易云等音樂(lè)平臺(tái)都在不同程度上對(duì)人工智能音樂(lè)有布局。

即便人工智能暫時(shí)無(wú)法掌握樂(lè)曲中細(xì)膩的情感變化及流動(dòng)，但基于計(jì)算機(jī)具備對(duì)大量作品進(jìn)行數(shù)據(jù)處理、運(yùn)算分析及排列組合的強(qiáng)大能力，使得人工智能編曲效率遠(yuǎn)遠(yuǎn)高于人類(lèi)。在一些注重成本且審美要求不高的應(yīng)用場(chǎng)景中，AI作曲占有明顯的優(yōu)勢(shì)。因此，一批專(zhuān)業(yè)度不足的音樂(lè)從業(yè)者可能面臨被淘汰的命運(yùn)。

目前，人工智能作曲技術(shù)逐漸往商業(yè)應(yīng)用與輔助創(chuàng)作的方向發(fā)展，“智能相對(duì)論”看到，其應(yīng)用場(chǎng)景主要為視頻配樂(lè)、游戲配樂(lè)、電視預(yù)告片、商業(yè)廣告、發(fā)布會(huì)和電影等方面。

以非藝術(shù)場(chǎng)景的商用音樂(lè)為主要市場(chǎng)，打破了固有音樂(lè)市場(chǎng)關(guān)于成本及創(chuàng)作時(shí)間的限制。

如上文提及的AIVA已開(kāi)始為電影、視頻、電視劇制作音樂(lè)。微軟(亞洲)互聯(lián)網(wǎng)工程院開(kāi)發(fā)的小冰樂(lè)隊(duì)能自動(dòng)生成旋律和編曲框架，已為2020世界人工智能大會(huì)創(chuàng)作了主題曲《智聯(lián)家園》。

由西電灃東人工智能與類(lèi)腦感知產(chǎn)業(yè)技術(shù)研究院研發(fā)的Muses人工智能作曲系統(tǒng)，基于GAN和LSTM的智能譜曲算法和視頻多元素提取算法，實(shí)現(xiàn)了視頻自助譜曲、智能仿曲和譜曲輔助智能等功能。

通過(guò)對(duì)視頻進(jìn)行內(nèi)容物體識(shí)別、色彩分析和畫(huà)面節(jié)奏分析，生成合適的背景音樂(lè);也可透過(guò)用戶(hù)輸入的仿曲或關(guān)鍵詞、語(yǔ)句啟發(fā)音符，產(chǎn)生類(lèi)似風(fēng)格的音樂(lè)。另有一款專(zhuān)門(mén)制作視頻配樂(lè)的AI Ecrett Music，通過(guò)識(shí)別不同的視頻主題、時(shí)間及情緒，對(duì)視頻配樂(lè)進(jìn)行個(gè)性化編輯，為視頻制作者持續(xù)產(chǎn)生不同的音律。為創(chuàng)意要求較低、對(duì)價(jià)格較敏感的部分商業(yè)音樂(lè)創(chuàng)作提供了全新解決方案。

除此之外，人工智能作曲技術(shù)對(duì)音樂(lè)愛(ài)好者進(jìn)行創(chuàng)作也起到了輔助作用。

2019年上線(xiàn)的“哼趣”APP就是一款基于人工智能的音樂(lè)創(chuàng)作工具，只需簡(jiǎn)單哼唱，AI就會(huì)根據(jù)哼唱內(nèi)容、音調(diào)、旋律生成一段完整的、悅耳的曲子，此外，還可對(duì)生成的曲子進(jìn)行個(gè)性化編輯，一鍵選擇變換不同樂(lè)器、風(fēng)格與時(shí)長(zhǎng)。“哼趣”的核心原理是通過(guò)大量的樂(lè)曲訓(xùn)練來(lái)形成一套完善的LSTM神經(jīng)網(wǎng)絡(luò)的方式。

同時(shí)，算法團(tuán)隊(duì)解決了MP3與MIDI格式的相互轉(zhuǎn)換和降噪問(wèn)題，將人聲與機(jī)器可識(shí)別的MIDI語(yǔ)言進(jìn)行轉(zhuǎn)化，再利用帶有音頻判定的神經(jīng)網(wǎng)絡(luò)進(jìn)行樂(lè)曲生成。

使用這類(lèi)軟件或APP，不僅使得音樂(lè)創(chuàng)作更加便利快捷，也大大降低了普羅大眾創(chuàng)作音樂(lè)的門(mén)檻。對(duì)專(zhuān)業(yè)音樂(lè)人而言，比起原先需要通過(guò)MIDI鍵盤(pán)輸入旋律的創(chuàng)作形式，在很大程度上提升了工作效率，減少重復(fù)勞動(dòng)，并降低了與制作方的溝通成本。人工智能作曲隨機(jī)生成的旋律也能在創(chuàng)作陷入瓶頸時(shí)，為使用者提供靈感，編曲工具的發(fā)展將使專(zhuān)業(yè)作曲家的創(chuàng)造力得到進(jìn)一步釋放。

結(jié)語(yǔ)

AI作曲技術(shù)讓音樂(lè)產(chǎn)業(yè)鏈運(yùn)作更有效率，人工智能創(chuàng)作的歌曲登上K-POP排行榜也許不再是天方夜譚。技術(shù)革新既是挑戰(zhàn)，也是機(jī)會(huì)?？萍嫉倪M(jìn)步促使人類(lèi)在探索更多可能性的同時(shí)，也重新審視自己的價(jià)值。

責(zé)任編輯：姜華來(lái)源：鈦媒體智能相對(duì)論