中文字幕欧美乱伦|手机AV永久免费|澳门堵场日韩精品|日本性爱欧美激情|蜜桃狠狠狠狠狠狠狠狠狠|成人免费视频 国|欧美国产麻豆婷婷|99久久久国产精品福利姬喷水|婷婷内射精品视频|日本欧洲一区二区

澎湃Logo
下載客戶端

登錄

  • +1

跟郎朗媳婦有一拼的AI,只看彈琴動作,完美復(fù)現(xiàn)原聲

2020-06-30 06:54
來源:澎湃新聞·澎湃號·湃客
字號

金磊 發(fā)自 凹非寺

量子位 報道 | 公眾號 QbitAI

見識過「聽歌識曲」,體驗過看彈奏動作識曲嗎?

就像最近的一檔綜藝節(jié)目中,郎朗比劃了幾個彈鋼琴的動作,他媳婦(吉娜·愛麗絲)秒答:《柴可夫斯基第一協(xié)奏曲》!

來自華盛頓大學(xué)的研究團(tuán)隊提出了一種新方法Audeo,就解鎖如此神奇的操作——僅僅根據(jù)鋼琴師彈奏時的動作,就能直接復(fù)現(xiàn)原聲音樂。

先來體驗下這種神奇的感覺。

下面便是鋼琴師演奏時的動圖,我們能看到的,僅僅就是手指在鋼琴鍵盤上的變換。

然后,你知道這是哪首曲子嗎?

大部分人(或許郎朗級別的大神們可以)應(yīng)該是猜不到的。

但AI可以,下面便是這項技術(shù)復(fù)現(xiàn)的原聲音樂。

那么,這般神奇的操作是怎么實現(xiàn)的呢?

三步實現(xiàn)「看動作識音樂」

簡單來說,Audeo方法主要包括三大步驟,分別是:

鋼琴按鍵檢測

生成樂譜內(nèi)容

合成音樂

鋼琴按鍵檢測

這個步驟可以理解為一個多標(biāo)簽(multi一label )分類問題。

輸入是彈鋼琴視頻中5個連續(xù)的幀,將它們輸入到Video2Roll Net中,經(jīng)過ResNet18、特征變換、特征細(xì)化(refinement)和相關(guān)學(xué)習(xí)的處理,最后輸出中間幀的按鍵預(yù)測。

值得注意的是,在這個步驟中,研究人員沒有直接使用ResNet18,而是在此基礎(chǔ)上做了算法改良,提出了Video2Roll Net。

這樣做的原因很簡單,就是ResNet18檢測到的「精度」不夠細(xì)致,下面2張熱力圖的對比,便一目了然地展示了2種方法的效果。

生成樂譜內(nèi)容

在第二個步驟中,就需要將 Roll 轉(zhuǎn)換為 Midi(樂器數(shù)字接口),以便合成音樂。

但在上步生成出來的 roll ,沒辦法直接轉(zhuǎn)換成 Midi,一個至關(guān)重要的原因就是—— Roll 不包含時間信息。

此外,由于 Midi 比較依賴音頻流,所以經(jīng)常出現(xiàn)的一個現(xiàn)象就是:演奏者按一個鋼琴鍵的時間較長時,相應(yīng)頻率的幅度會逐漸衰減為零,也就是在 Midi 中會被標(biāo)記為零。

像下面這張圖中顯示的那樣,就會造成不匹配的現(xiàn)象。

并且,研究人員表示:

這種不匹配的現(xiàn)象,是經(jīng)常發(fā)生的。

于是,研究人員便提出了一個叫 Roll2Midi Net的方法解決了這個問題。

主要是在二者之間加入了一個生成對抗網(wǎng)絡(luò)(GAN),來調(diào)節(jié)并解決上述問題。

合成音樂

最后一步,就是根據(jù)調(diào)節(jié)好的 Midi 來生成音樂,主要過程如下圖所示。

將 Midi 作為輸入,經(jīng)過一個上采樣,而后可以選擇通過「Midi 合成器軟件」,也可以選擇使用「PerfNet+Unet+GriffinLim」的組合方式來生成音樂。

至于 Audeo 方法與其它方法的定量比較,主要集中在第二個核心步驟。

可以明顯看到,研究人員在第二步驟中提出來的 Roll2Midi Net方法,在各項評測指標(biāo)中,都具有一定優(yōu)勢。

合成音樂還可以轉(zhuǎn)換成別的樂器

當(dāng)然,Audeo 除了精準(zhǔn)復(fù)現(xiàn)視頻中的鋼琴音樂外,還有一個更有意思的玩法。

它可以將鋼琴原聲,轉(zhuǎn)換成其他樂器的聲音。

例如,可以將鋼琴音樂轉(zhuǎn)換成吉他的聲音。

還可以將鋼琴音樂轉(zhuǎn)換成日本十三弦古箏的聲音。

這個有趣的玩法,主要得益于「合成音樂」這個步驟,選擇的方法不同,得到的結(jié)果便不同。

研究團(tuán)隊

這項研究由華盛頓大學(xué)的三位研究人員共同完成,研究還入圍了本屆CVPR。

△從左至右:Kun Su、Xiulong Liu和Eli Shlizerman

論文一作是Kun Su,本科就讀于美國紐約州倫斯勒理工大學(xué)(RPI),目前在華盛頓大學(xué)攻讀電子與計算機工程系攻讀碩士。

△Kun Su

研究的另一位作者是Xiulong Liu,本科在上交大就讀,碩士畢業(yè)于華盛頓大學(xué),目前在OneClick.ai 擔(dān)任數(shù)據(jù)科學(xué)家。

△Xiulong Liu

論文最后一位作者是Eli Shlizerman,華盛頓大學(xué)應(yīng)用數(shù)學(xué)及電子與計算機工程助理教授。

目前專攻生物神經(jīng)網(wǎng)絡(luò)和人工神經(jīng)網(wǎng)絡(luò)的基本特性,通過結(jié)合時空數(shù)據(jù)分析、機器學(xué)習(xí)和動力系統(tǒng)理論的方法將這兩個系統(tǒng)聯(lián)系起來。

△Eli Shlizerman

那么問題來了,如果以郎朗的手速彈奏鋼琴,這個AI的效果還會如此驚艷嗎?

論文地址:

https://arxiv.org/abs/2006.14348

作者系網(wǎng)易新聞·網(wǎng)易號“各有態(tài)度”簽約作者

— 完 —

原標(biāo)題:《跟郎朗媳婦有得一拼的AI,只看彈琴動作,完美復(fù)現(xiàn)原聲 | CVPR 2020》

閱讀原文

    本文為澎湃號作者或機構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機構(gòu)觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。

    +1
    收藏
    我要舉報
            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號

            滬公網(wǎng)安備31010602000299號

            互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006

            增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116

            ? 2014-2025 上海東方報業(yè)有限公司

            反饋