一個模型處理多模態,谷歌用AudioPaLM給出答案。
大型語言模型以其強大的性能及通用性,帶動了一批多模態的大模型開發,如音頻、視頻等。
語言模型的底層架構大多是基于Transformer,且以解碼器為主,所以無需過多調整模型架構即可適應其他序列模態。
最近,谷歌發布了一個統一的語音-文本模型AudioPaLM,將文本和音頻的token合并為一個多模態聯合詞匯表,再結合不同任務描述標記,可以實現在任意語音和文本的混合任務上訓練decoder-only模型,包括語音識別(ASR)、文本到語音合成、自動語音翻譯(AST)和語音到語音翻譯(S2ST)等,將傳統上由異質模型解決的任務統一到一個架構和訓練流程中。
(資料圖片僅供參考)
論文鏈接:https://arxiv.org/pdf/2306.12925.pdf
示例鏈接:https://google-research.github.io/seanet/audiopalm/examples/
此外,由于AudioPaLM的底層架構是一個大型的Transformer模型,可以用對文本進行預訓練的大型語言模型的權重來初始化,可以從PaLM等模型的語言學知識中受益。
從實現效果來看,AudioPaLM在AST和S2ST基準上取得了最先進的結果,并且在ASR基準上的性能也和其他模型不相上下。
通過利用AudioLM的音頻提示,AudioPaLM模型能夠對新的說話人語音遷移來執行S2ST,在語音質量和語音保存方面超過了現有的方法。
AudioPaLM模型也具有zero-shot的能力,可以對訓練中未見過的語音輸入/目標語言組合執行AST任務。
AudioPaLM
研究人員使用一個decoder-only Transformer模型對文本和語音的token進行建模,其中文本和音頻在輸入到模型之間已經進行分詞,所以輸入只是一個整數序列,在輸出端再進行反分詞(detokenized)操作返回給用戶。
音頻embedding及分詞
將音頻的原始波形轉換為token的過程中,包括從現有的語音表征模型中抽取為嵌入(embedding),并將嵌入離散為一組有限的音頻token
之前的工作中從w2v-BERT模型中提取嵌入,并通過k-means將其量化,而這篇論文中,研究人員試驗了三種方案:
w2v-BERT:使用在多語言數據上訓練的w2v-BERT模型,而非純英語;并且在進行k-means聚類之前沒有進行歸一化處理,否則會導致在多語言環境中性能下降。然后以25Hz的速率生成token,詞表大小為1024
USM-v1:使用性能更強的、20億參數的通用語音模型(USM)編碼器執行類似的操作,并從中間層提取嵌入;
USM-v2:用輔助ASR損失來訓練,并進一步微調以支持多語言。
修改text-only解碼器
在Transfomrer解碼器結構中,除了輸入和最后的softmax輸出層外,都不涉及到建模token的數量,并且在PaLM架構中,輸入和輸出矩陣的權重變量時共享的,即互為轉置。
所以只需要將嵌入矩陣的大小從(t × m)擴展到(t+a)×m即可把一個純文本模型變成一個既能模擬文本又能模擬音頻的模型,其中t是文本詞表的大小,a是音頻詞表的大小,m是嵌入維度。
為了利用預訓練的文本模型,研究人員通過在嵌入矩陣中添加新的行來改變現有模型的checkpoint。
具體的實現為,前t個token對應于SentencePiece文本標記,后面a個token代表音頻標記,雖然文本嵌入式復用的預訓練權重,但音頻嵌入是全新初始化的,必須進行訓練。
實驗結果顯示,與從頭重新訓練相比,基于文本預訓練模型對語音和文本的多模態任務性能提升非常有利。
音頻token解碼為原生音頻
為了從音頻token中合成音頻波形,研究人員試驗了兩種不同的方法:
1. 類似AudioLM模型的自回歸解碼
2. 類似SoundStorm模型的非自回歸解碼
這兩種方法都需要先生成SoundStream token,再用卷積解碼器將其轉換為音頻波形。
研究人員在Multilingual LibriSpeech上進行訓練,語音條件為3秒長的語音樣本,同時表示為音頻token 和SoundStream token
通過提供部分原始輸入語音作為語音條件,模型能夠在將說話人的語音翻譯成不同語言時保留原始說話人的語音,當原始音頻短于3秒時,通過重復播放來填充空白時間。
訓練任務
使用到的訓練數據集均為speech-text數據:
1. 音頻Audio:源語言的語音(speech)
2. 轉錄Transcript:音頻數據中語音的轉錄
3. 翻譯音頻Translated Audio:音頻中語音的口語翻譯
4. 翻譯轉錄Translated Transcript:音頻中語音的書面翻譯
組件任務包括:
1. ASR(自動語音識別):轉錄音頻以獲得轉錄文本
2. AST(自動語音翻譯):翻譯音頻以獲得翻譯后的轉錄文本
3. S2ST(語音到語音翻譯):翻譯音頻以獲得翻譯后的音頻
4. TTS(文本到語音):讀出轉錄的內容,以獲得音頻。
5. MT(文本到文本的機器翻譯):翻譯轉錄以獲得翻譯后的轉錄文本
一個數據集可能會用于多個任務,所以研究人員選擇向模型發出信號,告訴模型應該對給定的輸入執行哪項任務,具體方法為:在輸入前加上一個標簽,指定任務和輸入語言的英文名稱,輸出語言也可以選擇。
例如,想要模型對法語語料進行ASR時,分詞后的音頻輸入前面要加上標簽[ASR French];要在英語中執行TTS任務,文本前面需要加上[TTS English];要執行從英語到法語的S2ST任務,分詞后的英語音頻會在前面加上[S2ST English French]
訓練混合
研究人員使用SeqIO庫對訓練數據進行混合,對較大的數據集進行權重降低。
實驗部分
AudioPaLM在AST和S2ST任務上超過了其他基線模型,在ASR上性能雖然不是最優,但效果也非常好。
除了評估語音內容的翻譯質量外,研究人員還評估了AudioPaLM生成的語言是否質量足夠高,并且在翻譯成不同語言時能否保留說話人的聲音。
客觀指標
使用類似于無參考MOS估計器,給定一個音頻樣本,在1到5的范圍內提供一個感知音頻質量估計。
為了測量跨語言的語音遷移質量,研究人員使用的現成的說話人驗證模型,并計算源(用SoundStream編碼/解碼)和翻譯語音的嵌入之間的余弦相似度;還衡量了從源音頻到目標音頻的聲學特性(錄音條件、背景噪音)。
主觀評估
研究人員進行了兩項獨立研究來評估生成的語音質量和語音相似度,兩項研究中都使用相同的樣本集合。
由于語料的質量參差不齊,有些含有響亮的重疊語音(例如,背景中播放的電視節目或歌曲)或極強的噪音(例如,衣服與麥克風摩擦),類似的失真效果使得人類評分員的工作變得復雜,因此研究人員決定通過只選擇MOS估計值至少為3.0的輸入進行預過濾。
評分以5級量表提供,從1(質量差或完全不同的聲音)到5(質量好,相同的聲音)。
從結果中可以觀察到AudioPaLM在客觀和主觀測量中,在音頻質量和語音相似度方面都明顯優于基線Translatotron 2系統,并且AudioPaLM比CVSS-T中的真實合成錄音具有更高的質量和更好的語音相似度,在大多數指標上有比較大提升。
研究人員還對比了高資源組和低資源組(法語、德語、西班牙語和加泰羅尼亞語與其他語言)的系統,發現這些組之間的指標沒有明顯差異。
參考資料: https://google-research.github.io/seanet/audiopalm/examples/ 【END】免責申明:本站所有內容均來自網絡,我們對文中觀點保持中立,對所包含內容的準確性,可靠性或者完整性不提供任何明示或暗示的保證,請僅作參考。若有侵權,請聯系刪除。
文章來源:新智元