日韩一级黄色影片,国产xxx在线,日本三级视频网站,成年影院,国产女人18毛片水真多18精品 ,女人18片,a一级网站

您當前的位置是:  首頁 > 資訊 > 文章精選 >
 首頁 > 資訊 > 文章精選 >

多語言語音合成和跨語言語音克隆

2019-07-17 09:49:15   作者:   來源:語音雜談微信公眾號   評論:0  點擊:


  場景描述:語音合成解決的主要問題就是如何將文字信息轉化為可聽的聲音信息,涉及語言和語音兩部分。TTS技術(又稱文語轉換技術)隸屬于語音合成,它是將計算機自己產生的、或外部輸入的文字信息轉變?yōu)榭梢月牭枚、流利的漢語口語輸出的技術。
  關鍵詞:多語言語音合成和跨語言語音克隆
  我們知道目前端到端神經(jīng)TTS模型已經(jīng)可以實現(xiàn)對說話者身份和未標記的語音屬性(如韻律)的控制。當使用language-dependent輸入表示或模型組件時,特別是當每種語言的訓練數(shù)據(jù)量不平衡時,擴展這些模型以支持多種不相關的語言并非易事。例如,在漢語和英語等語言之間的文本表示沒有重疊。此外,收集雙語者的錄音也很昂貴。因此,最常見的情況是訓練集中的每個說話者只說一種語言,所以說話者的身份與語言是完全相關的。這使得在不同語言之間語音轉換變得困難。此外,對于外來詞或共享詞的語言,如西班牙語(ES)和英語(EN)中的專有名詞,同一文本的發(fā)音可能不同。當經(jīng)過簡單訓練的模型有時為特定的說話者生成重音時,這就更加難以捉摸。
  針對以上問題,最近學者們提出了一種基于Tacotron(中文語音合成)的多人多種語言文本到語音(TTS)的合成算法。
  這種算法能夠在多種語言中生成高質量的語音。此外,模型是能夠跨語言傳遞聲音。模型結構采用基于注意力機制的序列到序列模型,根據(jù)輸入文本序列生成倒譜梅頻(log-mel,來自MFCC梅爾頻率倒譜系數(shù))圖幀序列。
  該模型是通過使用音位輸入表示來設計的,以激勵跨語言的模型容量共享。它還包含了一個對抗性的損失,以幫助理清它的說話者表示。通過對每種語言的多名使用者進行訓練,加入自動編碼輸入,并在訓練期間來幫助穩(wěn)定注意力,從而進一步擴大了訓練規(guī)模。
  經(jīng)過計算,實現(xiàn)了語音克隆和重音控制效果的可視化。嵌入向量集群聚在一起(左下角和右下角),這意味著當說話者的原始語言與嵌入的語言匹配時,無論文本語言是什么,都會有很高的相似性。然而,使用文本中的語言ID(正方形),修改說話者的口音使其能夠流利地說話,與母語和口音(圓形)相比,會損害相似性。
  該模型對三種語言的高質量語音合成和語音訓練的跨語言傳輸具有重要的應用潛力。例如,不需要任何雙語或并行語言的訓練,它就能夠使用英語使用者的聲音合成流利的西班牙語。此外,該模型在學習說外語的同時還會適量調節(jié)口音,并對代碼切換有基本的支持。
  在未來的工作中,學者們還將計劃研究擴大利用大量低質量培訓數(shù)據(jù)的方法,并支持更多的使用者和語言。
  論文鏈接:https://arxiv.org/pdf/1907.04448.pdf
 
【免責聲明】本文僅代表作者本人觀點,與CTI論壇無關。CTI論壇對文中陳述、觀點判斷保持中立,不對所包含內容的準確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考,并請自行承擔全部責任。

相關閱讀:

專題

CTI論壇會員企業(yè)

鄄城县| 丘北县| 曲松县| 临江市| 绥中县| 威海市| 靖远县| 阳谷县| 张掖市| 新郑市| 光山县| 永胜县| 合作市| 兴海县| 渝北区| 简阳市| 周宁县| 漳州市| 吴川市| 哈巴河县| 汶上县| 蕲春县| 专栏| 中江县| 五台县| 花垣县| 措美县| 普安县| 稷山县| 浏阳市| 雅安市| 濮阳县| 三明市| 辽源市| 内丘县| 蓬溪县| 广灵县| 上杭县| 洪湖市| 江北区| 浪卡子县|