翻譯以原文和在同一文件中前_第1頁
翻譯以原文和在同一文件中前_第2頁
翻譯以原文和在同一文件中前_第3頁
翻譯以原文和在同一文件中前_第4頁
翻譯以原文和在同一文件中前_第5頁
已閱讀5頁,還剩17頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

作者:Chai-JongSong,HochongPark,Chang-MoYang,Sei-JinJang,Seok-Pil和傳統(tǒng)的QbSH系統(tǒng)不同,此系統(tǒng)使用MP3,AAC等多聲部音樂文件來建立參考數(shù)據(jù)之外,我們還提出了一個使用改良的動態(tài)時間規(guī)整(DTW)算法的匹配引擎,該引擎使用DTW現(xiàn)了3種不同的商業(yè)應(yīng)用原型,例如智能,筆記本電腦以及卡拉OK。我們評估了QbSH系統(tǒng)在單聲道音樂庫以及多聲部音樂庫下的表現(xiàn),而且確信其能滿足商業(yè)應(yīng)用需:QbSH,多聲部音樂,主弦律提取,諧波結(jié)構(gòu),匹配引擎, 簡QbSH[1][2]。本系統(tǒng)通過比較用戶哼唱的音樂以及庫中的音樂的特征序列來檢索出最相似的音樂。QbSH是當(dāng)你沒有音樂的任何元數(shù)據(jù),例如歌詞,歌口,諸如移動和嵌入式設(shè)備的各種裝置中最有用的工具之一,因為不像其他的檢索系統(tǒng),QbSH使用用戶的語音作為輸入。QbSHQbSH如樂器數(shù)字接口(MIDI)文件來創(chuàng)建數(shù)據(jù)庫,而不是原來的多聲部音樂文件。它可以通過使用音樂信號所有精確特征的MIDI文件改善搜索時間和準(zhǔn)確性。然而,手工MIDI文件是一件相當(dāng)費(fèi)時的工作,不適合需要低延遲和高精確度的商業(yè)服[1][3]。這兩者都和系統(tǒng)的精確性緊密相關(guān),而且匹配引擎尤其在這篇中,我們提出了一個基于諧波結(jié)構(gòu)來提取多聲部音樂主旋律的方法。諧我們方法所提取的音調(diào)序列的精確度不如從MIDI文件進(jìn)行提取的序列,并且這確的旋律被到匹配引擎。從而,在設(shè)計匹配引擎時,這種確性問題應(yīng)QbSH[4]。因此,我們提出了一個基于DTW算法的匹配引擎,通過采用不對稱感與權(quán)重系數(shù),色度縮放評估所實現(xiàn)QbSH系統(tǒng)在單聲部音樂和多聲部音樂數(shù)據(jù)集中的性能。本的其余部分安排如下。第二部分介紹了QbSH系統(tǒng)的整體架構(gòu)。第三部分描 2.1QbSH[5][6]。第二個模塊從多聲部音樂中提取主旋律,并建立參最相似的音樂。我們利用MPEG查詢格式(MPQF)簡單對象協(xié)議(SOAP)來交換服務(wù)器和客戶端之間的查詢和結(jié)果數(shù)據(jù)。在本中,我們討論旋律提取和匹配引 旋律提取和匹配引[7][8],因為諧波結(jié)構(gòu)是樂器和人聲音頻編器如MP3和AAC編器中給出的編碼格式。它首先被成PCM,然后以8千采樣率進(jìn)行降采樣,因為高頻成分不影響旋律提取。旋律提取在50%重疊的32ms的幀基礎(chǔ)上結(jié)束。F0是從每一幀得到的,并轉(zhuǎn)換成一個半音格式: =????????????(????0 2圖3.1顯示了從多聲部音樂提取主旋律的框圖。其由多節(jié)點提取和聲樂提取塊組成。應(yīng)的主旋律F0[9][10]。3.1F0候選。它首先檢索輸入頻譜的2kHz為界限被劃分成低頻段和高頻段,并且每個頻段的局部峰值含有不同的閾值。另我們檢查這些峰值是否滿足諧波結(jié)構(gòu)的條件,然后確定有效的F0候選。提取F0候選的方法在圖3.2例子中給出,其顯示出了在峰值采取之后在200,240,160頻率下F0C的第一個諧波峰值遺漏。我們假設(shè)創(chuàng)建了如表3.1所示的圖3.2中檢測到的譜峰之間距離的2維矩陣: =????????????(????0 2peak[]是峰值位置,u=v+1,…,J,v=u,…,J,J是當(dāng)前幀中的峰值數(shù)目。Δ[u,v]限制在150Hz~1kHz之間。如果信號的F0值為f0,它的諧波峰值理想情況下在2×f0,3×f0,4×f0peak[u] 因此,有可能通過搜索Δ中經(jīng)常出現(xiàn)的某些值來尋找候 F03.2F03.1F0的整數(shù)倍處。所以,我們定義了諧波峰值距離組Δ,使每個組的所有成員都在一定范圍內(nèi)。表3.2顯示了這些組,然后我們選擇有較大基數(shù)的組1,組2,組3,組5,組7,并設(shè)置組平均到F0候選。在這個例子中,F(xiàn)0候選成為163,204,246,328和408。3.2要確定每個 候選的優(yōu)先等級倍頻諧波頻譜圖的產(chǎn)品(OHPS)值的計算方法如下OHPS=1 [k×(l+1)] ?????是輸入的譜幅度,kF0候選。最后,3個F0候選中擁有最大的OHPS3.3F0408328204和163間距的兩倍。我們可以正確的提取A,B,C的F0。3.3基頻頻率候選在人聲旋律提取部分,基音是基于優(yōu)先級和F0候選的連續(xù)性進(jìn)行的,并確定f(1),測量前一幀和下一幀F(xiàn)0連續(xù)f(1)在兩個方向上都不連續(xù),而且前一個幀和下一個幀的F0是相同的,那么當(dāng)前幀的最終F0就是前一F0f(1)在兩個方向上都不連續(xù),而且前一個幀和下一個幀是不同的,那么當(dāng)前幀的最終F0f(2)f(3)中和前一個幀更連續(xù)的F0f(1),同時作為后處理階段,間距加倍和減半的錯誤通過F0的波動進(jìn)行修正。這個程序基于3.4ADC2004DB的旋律提取結(jié)果所旋律提取方法對和弦音樂信號產(chǎn)生了良好的效果。在QbSH系統(tǒng)中,匹配引擎是找出參考特征數(shù)據(jù)庫中與用戶查詢的最相似的歌曲的模塊。特征 包含了從多聲部音樂中提取的音高信息????(????)。匹配引擎應(yīng)該具有強(qiáng)的解決用戶哼唱提取的音高序列????????和????????????不匹配的問題,因為在從查詢轉(zhuǎn)錄到多聲樂的過程中會產(chǎn)生確的問題。要設(shè)計一個搞笑的匹配引擎,我們不僅要考慮特征提取階段的錯誤,還要考慮在駐留在用戶查詢中的錯誤。為了具備強(qiáng)大的針對確????????????arg 償音高我們使用一個窮舉搜索。匹配引擎對????????和????????????之間距離的計算方式 (????, =???? (????+????, ??∈

2??????????2????????????????(????????+????,????(????)3 通常情況下,音高加倍和減半錯誤使????(????)不精確。這些錯誤導(dǎo)致音高值和真值之間存在±1212,其余部分被作為預(yù)處理模塊中c,并且系數(shù)被加入到音高序列中。用于QbSH系統(tǒng)的匹配引擎,因為它給出了一個強(qiáng)大的匹配結(jié)果,能夠針對本地時序變化和確的節(jié)奏DTW[12]。DTWPQ的距離,????????????????(P,Q)不計算無音音高值的幀。在我們的系統(tǒng)中,????(????)中每個元素都有值,而在????????中沒有音高值的元素,其音高值為0

減少了1/50。QbSH系統(tǒng)的性能依賴于距離度量函數(shù)????????。絕對差或方差通常用于現(xiàn)有基于算法的QbSH系統(tǒng)[4][12][13]。這些可以表示如下????|(b)=|?????????|????????????????|`|2(????,????)=|????? 我們的工作中,了不同的距離度量,并在數(shù)學(xué)上歸結(jié)如下:??) (????,????)=|?????????|,if|a?b|<λorλ, ????????????????(????,????)=log(????+|????? ????????????????(????,????)=(????+??????????|)?? 三個距離度量函數(shù)對數(shù)據(jù)的失真不敏感,因為這兩個參數(shù)之間的差值的斜率減小取決于差異。(8)γγ[14]。(9)中的距 實驗和評估結(jié)的表現(xiàn)評估。第一個是在MIREX2011的評估,而第二個是在MIREX2011和MIREX2012眾用于與單聲道DB。最后一個是集成了旋律提取和匹配引擎的針對多聲部音樂DB的整體QbSH系統(tǒng)。三種不同的數(shù)據(jù)集被用于評估旋律提取的性能。ADC’042004年的音樂說明比賽的數(shù)據(jù)集。它有20個摘錄,每個約20s。N’08數(shù)據(jù)庫有四個1分鐘的節(jié)選自‘北部’古典聲樂表演。MIREX’05有25個10-40s的片段,類型包括搖滾,R&B[19][20]。表4.1和表4.2顯示了所旋律提取算法的性能。我們在ADC’04的OA中第一,在其他DB中也有不錯的表現(xiàn)[18]。為了評估在單聲部DB中匹配引擎的性能,我們利用RogerJang的,其作為組成。我們添加了2000個MIDI噪音文件到Jang的中,并用它作為測試環(huán)境來評估我們針對單聲部DB的匹配引擎。我們使用了前10的來和參加了2010-2012MIREXQbSHDTWQbSH我們使用兩種類型的指標(biāo)來評估匹配引擎。第一個是平均倒數(shù)(MRR),定為返回的前10個項目的的倒數(shù)的平均值[15]????????????=1 ????????=1在MRR中,N是數(shù)目查詢,????????????????????是與第i個查詢相關(guān)聯(lián)的地面實況。第????????????????????????????=1 如表4.3和表4.4所示,我們可以看出所匹配引擎在單聲部DB下有著不錯為了驗證我們的QbSH系統(tǒng)在多聲部DB中的性能,我們需要確定最佳距離度量。根據(jù)該距離度量和非對稱DTW算法的權(quán)重系數(shù)α,得出QbSH系統(tǒng)的MRR。在α=3,λ=2時的距離度量????λ 情況下,QbSH系統(tǒng)有著最好的表現(xiàn)。由這個結(jié)果,我 距離度量為 。及時擁 個音軌的多聲 0.578[16][17] 里的一個整數(shù)。C的范圍從0到11,完成12次。我們使用表達(dá)式來表示c的值。這個實驗 ,以及 而 外,每個文件長度均在4到6分鐘。對于該系統(tǒng)的輸入查詢,查詢數(shù)據(jù)集是由3名女性和18名隨機(jī)哼唱一首歌的12s記錄。我們建立了盡量接近自然世界的記錄環(huán)境,如教室,和臥室。它被成3個部分—前奏,,和音樂曲目的部分。有趣的是,我們發(fā)現(xiàn)前奏部分超過60%,部分是30%,其余部分是在10%以下。大家普遍預(yù)測過部分會比從上面的實驗中,我們集成了具有旋律提取和匹配引擎的QbSH系統(tǒng)。我們用包含1,前5,前10,前20個匹配的百分比。出入查詢的長度為8,10和12s。的表現(xiàn),而且大多數(shù)匹配出現(xiàn)5。AFA450和AFA2000也產(chǎn)生了相似的結(jié)果。對據(jù)這些結(jié)果,我們得出的結(jié)論是所QbSH系統(tǒng)具有商業(yè)應(yīng)用可接受的性能。(a)RRb 系統(tǒng)實現(xiàn)和商業(yè)應(yīng)5.16個管理4DB組成。它為程序員提供了一個應(yīng)用程序編程接口(API)。它也有一個引擎5.1慮的經(jīng)濟(jì)和時間的因素。出于這個原因,本開發(fā)了一個DSP模塊。它可以不修改任QbSH服務(wù)。它具有通用串行總線(USB)借口與像機(jī)頂盒(STB)OK這樣的主機(jī)平臺進(jìn)行通信。從用戶查詢特征提取被移植到這個模3個步驟喲花這個功能。在初始步驟,我們得到每幀3.9億以上時鐘。低性能客戶端上使用DSP模型。5.2 結(jié)論以及未來的工大多數(shù)傳統(tǒng)的音樂檢索系統(tǒng)使用單聲部音樂DB,例如MIDI。雖然使用單聲部在本文中,我們提出了對多聲部音樂進(jìn)行檢索的實用QbSH系統(tǒng)。為了獲得更準(zhǔn)確的旋律提取,我們使用諧波結(jié)構(gòu)分析。旋律提取算法在開放測試數(shù)據(jù)集中比QbSH系統(tǒng)系能足夠為商業(yè)服務(wù)。我們?yōu)楦鞣N應(yīng)用實現(xiàn)了一個原型音樂檢索系參考文A.J.Ghias,D.C.Logan,andB.C.Smith,“Querybyhumming-musicalinformationretrievalinanaudiodatabase,”inProc.ACMMultimedia’95,SanFrancisco,1995,pp.R.J.McNab,L.A.Smith,I.H.Witten,C.L.Henderson,andS.J.Cunningham,“Towardthedigitalmusiclibrary:Tuneretrievalfromacousticinput,”inProc.ACMDigitalLibraries,1996,pp.11–18.J.-S.R.Jang,M.-Y.Gao,“Aquery-by-singingsystembasedondynamicprogramming,”inProc.Int.WorkshoponInligentSystemsResolution,pp.85-89,2000.Y.ZhuandD.Shasha,“Warindexeswithenvelopetransformsforquerybyhumming,”Proc.Int.Conf.onManagementofData,pp.181-192,2003.Y.D.Cho,M.Y.Kim,andS.R.Kim,“Aspectrallymixedexcitation(SMX)vocoderwithrobustparameterdetermination,”Proc.Int.Conf.Acoustic,SpeechandSignalProcessing,pp.601-604,K.Kim,K.RPark,S.JPark,S.PLeeandM.YKim."RobustQuery-by-Singing/HummingSystemagainstBackgroundNoiseEnvironments,"IEEETrans.onConsumerElectronics,vol.57,no.2,pp.720-725,May2011.M.Goto,“Arobustpredominant-F0estimationmethodforreal-timedetectionofmelodyandbasslinesinCDrecordings”,inProc.IEEEInternationalConferenceonAcoustics,SpeechandSignalProcess.,Vol.2pp.757-760,Istanbul,Turkey,June2000.M.Goto,“Apredominant-F0estimationmethodforreal-worldmusicalaudiosignals:MAPestimationforincorporatingpriorknowledgeaboutF0sandtonemodels,”inProc.IEEEInternationalConferenceonAcoustics,SpeechandSignalProcess.,pp.3365-3368,Aalborg,Denmark,June2001.A.P.Klapuri,“Multiplefundamentalfrequencyestimationbasedonharmonicityandspectralsmoothness,”IEEETrans.SpeechandAudioprocessing,Vol.11,No.6,pp.804-815,2003.Z.Duan,Y.Zhang,C.Zhang,andZ.Shi,“Unsupervisedsingle-channelmusicsourceseparationbyaverageharmonicstructuremodeling,”IEEETrans.AudioSpeechLanguageProcessing,Vol.16,No.4,pp.766-778,2008.H.SakoeandS.Chiba,“Dynamicprogrammingalgorithmoptimizationforspokenwordrecognition,”IEEETrans.onAcoustics,SpeechandSignalProcessing,Vol.ASSP-26,No.1,pp.43-49,1978.H.M.Yu,W.H.Tsai,andH.M.Wang,“Aqueryby-singingsystemforretrievingkaraokemusic,”IEEETrans.onMultimedia,Vol.10,No.8,pp.1626-1637,2008.J.-S.R.Jang,H.-R.Lee,“AGeneralFrameworkofProgressiveFilteringandItsApplicationtoQuerybySinging/Humming,”IEEETrans.Audio,Speech,andLang.,vol.16,no.2,pp.350-358,Feb.2008.X.Nguyen,M.J.Wainwright,andM.I.Jordan,“Ondivergences,surrogatelossfunctionsanddecentralizeddetectiondepartmentofstatistics,”Tech.Rep.695,DeptofStatistics,Univ.ofCaliforniaatBerkeley,2005.S.JoandC.D.Yoo,“Melodyextractionfrompolyphonicaudiobasedonparticlefilter,”Proc.Int.Symp.MusicInformationRetrieval,pp.357-362,2010.M.RyynanenandA.Klapuri,“QuerybyhummingofMIDIandaudiousinglocalitysensitivehashing,”Proc.ICASSP,pp.2249-2252,2008.A.Duda,A.N¨urnberger,andS.Stober,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論