音樂類競技節(jié)目層出不窮,臺上你方唱罷我登場,臺下專業(yè)評審和現(xiàn)場觀眾熱情高漲:這句唱得好,加分!那句跑調(diào)了,減分!歌手唱哭了,滿分!此時,如果有一個毫無感情色彩的評審來打分,會不會更好?
最近的央視歌唱節(jié)目《渴望現(xiàn)場》中,上線了一位機(jī)器人評審“小渴”。它由中科院自動化研究所研制,來自不同行業(yè)的音樂愛好者先走進(jìn)“歌詠亭”,用歌聲去征服它,得到“小渴”垂青的選手才有機(jī)會走出“歌詠亭”和觀眾見面。機(jī)器能成為人的“知音”、聽懂人類歌聲嗎?
對音樂進(jìn)行量化評價
唱完歌讓機(jī)器打個分,聽起來是玩剩下的東西?。篕TV里一頓嚎,系統(tǒng)都會多少給出一個分?jǐn)?shù),有時還附贈歡呼聲。
“我們這個可不一樣,” 中科院自動化研究所研究員王金橋連忙擺手,“傳統(tǒng)的歌曲評價軟件一般只是簡單地把演唱者的歌唱節(jié)奏和伴奏曲節(jié)奏做匹配對比,來進(jìn)行評價,說白了就是看你有沒有跑調(diào)。”
相比之下,“小渴”復(fù)雜多了。“它是第一次從音準(zhǔn)、音域、調(diào)性、節(jié)奏、語感、樂感六個維度對演唱進(jìn)行客觀評斷,用科技評價文藝。”王金橋說。據(jù)他介紹,這六個指標(biāo)是和音樂學(xué)院教授討論很多次的結(jié)果,兼顧了音樂欣賞的維度和量化的難度。
“在這六個指標(biāo)中,前四個偏客觀,訓(xùn)練數(shù)據(jù)足夠多的情況下會比人的評價效果更好。在具體的打分過程中,機(jī)器是聽一句給一句的分?jǐn)?shù),專家可能偶爾走神沒聽見,但機(jī)器不存在這種情況。”王金橋說。
理解音樂的本質(zhì)最難
對于人工智能來說,“理解音樂的本質(zhì)”更加困難,這要通過海量數(shù)據(jù)的訓(xùn)練來實現(xiàn)。
雖然不同歌手存在演唱者能力、曲風(fēng)等方面的差異,但當(dāng)海量音樂專家的評分?jǐn)?shù)據(jù)匯總在一起時,就能基本代表當(dāng)前主流的音樂評審專家對音樂的評價。“基于人工智能技術(shù)的智能音樂評判系統(tǒng)就是針對這些海量數(shù)據(jù)進(jìn)行分析,通過大數(shù)據(jù)建模,抽象出音樂藝術(shù)的共性,進(jìn)而建立起客觀的音樂評價體系,從而讓‘小渴’對音樂做出較為客觀的理解和科學(xué)的評判。”王金橋介紹說。
他舉了“小渴”評價“音準(zhǔn)”的例子:從聽眾角度來說,現(xiàn)階段對音準(zhǔn)的判斷更多依賴于聽覺的長期專業(yè)訓(xùn)練,難以精確地量化。而卷積神經(jīng)網(wǎng)絡(luò)所抽取的多維語音特征具有精確量化的特征,能在很高的精度上對音準(zhǔn)信息進(jìn)行量化。在此基礎(chǔ)上,再配合專家對歌聲音準(zhǔn)的經(jīng)驗打分作為監(jiān)督信息,神經(jīng)網(wǎng)絡(luò)模型就能對音準(zhǔn)信息建立準(zhǔn)確的數(shù)學(xué)表達(dá)模型,從而進(jìn)行量化的音準(zhǔn)打分。
而聽起來最縹緲的“樂感”,也有特定的數(shù)學(xué)模型支撐。“音樂作為一種藝術(shù),需要傳達(dá)某種情感,樂感就是人們了解這種感覺的感官能力。表現(xiàn)力是歌手演唱過程中的綜合表現(xiàn),目前的評判標(biāo)準(zhǔn)更多是依賴于音樂專家的權(quán)威判別。”王金橋介紹說。他解釋了“小渴”理解“表現(xiàn)力”的過程:“我們同樣采樣回歸模型來模擬專家對該音樂表現(xiàn)力的評判標(biāo)準(zhǔn)。具體來說,專家對表現(xiàn)力量化為1到10十個分?jǐn)?shù)進(jìn)行評判,我們通過卷積網(wǎng)絡(luò)、雙向長短期記憶模型,提取音樂表現(xiàn)力特征,該特征能對音樂在時間維度上的表現(xiàn)力進(jìn)行充分分析,進(jìn)而使得該模型能夠?qū)σ魳方⑻囟ǖ臄?shù)學(xué)模型。”
海量數(shù)據(jù)是客觀評判的基礎(chǔ)
在學(xué)習(xí)階段,團(tuán)隊給“小渴”喂了十幾萬首歌、擴(kuò)增后也就是幾百萬個數(shù)據(jù),在海量的評分?jǐn)?shù)據(jù)的基礎(chǔ)上,“小渴”才有更加科學(xué)和客觀的可能。“我們找了很多音樂學(xué)院的教授給歌曲打分,發(fā)現(xiàn)在前四項指標(biāo)上,因為指標(biāo)客觀所以教授的打分也很統(tǒng)一。但在語感和樂感這兩個主觀性更強(qiáng)的指標(biāo)上,教授們打分的方差也很大。但是‘小渴’能大量聽大量學(xué)習(xí),有‘見多識廣’的優(yōu)勢。”王金橋解釋道。
到了實戰(zhàn)現(xiàn)場,“現(xiàn)場評審聽的是合成出來的聲音,‘小渴’連接的則是歌手的純?nèi)寺?,任何瑕疵都能被它捕捉?rdquo;王金橋說。
目前節(jié)目已經(jīng)播出了兩期,“評委和選手都認(rèn)為結(jié)果很客觀公平,把‘小渴’稱作‘史上最冷靜的評審’。”對于“小渴”的表現(xiàn),王金橋很滿意。“我們提出人工智能音樂評價系統(tǒng)的目的是讓計算機(jī)更加有效地理解音樂。通過收集海量音樂專家的評分?jǐn)?shù)據(jù),嘗試通過人工智能算法建立一種客觀的音樂評價體系,建立起一座溝通音樂藝術(shù)與機(jī)器計算之間的橋梁。”王金橋說。
但也有觀眾表示,“小渴”更偏心和它頻率接近的音頻,對傳統(tǒng)戲劇也“不大靈光”??磥硪魳返拇笄澜缂姺睆?fù)雜,“小渴”還得繼續(xù)摸索。
好消息是,通過節(jié)目錄制,“小渴”能采集到更多的聲音案例,這會為下一步的研發(fā)儲備資料。假以時日,沒準(zhǔn)兒它會從“最冷靜”進(jìn)化成“最厲害”的評審呢。
?。ㄔ瓨?biāo)題:機(jī)器能聽懂人類歌聲嗎)
來源:http://news.cri.cn/20180108/8d703347-a58a-bdf8-acba-9672a7cad6ae.html


 
          





