OpenAI聲音克隆新技術:僅需15秒音頻即可模仿任何人＊阿波羅新聞網

劃重點：

1、OpenAI的語音引擎只需15秒的聲音片段，就可以生成與錄製者聲音高度相似的自然語音。

2、OpenAI在官網上展示了語音引擎的五種用例，包括提供閱讀輔助、保留母語口音的翻譯等。

3、由於擔心技術濫用，OpenAI只選擇部分合作夥伴測試語音引擎，沒有向公眾大範圍發佈。

3月30日消息，據國外媒體報道，作為引領人工智能聊天機械人ChatGPT風潮的先鋒，OpenAI似乎並不滿足於僅僅顛覆文本、圖像以及視頻生成領域，而是進一步進軍傳統數字媒體的最後堡壘——音頻領域，特別是語音克隆技術。

美國當地時間周五，OpenAI宣佈推出全新的人工智能模型——「語音引擎（Voice Engine）」。這款自2022年起便默默研發的模型，如今已成為OpenAI文本轉語音API以及本月早些時候發佈的新版ChatGPT語音與朗讀功能提供支持。

事實證明，這款語音引擎還具備語音克隆的能力。其工作原理簡單而高效：用戶僅需通過電話或電腦麥克風錄製一段15秒的聲音片段，OpenAI的語音引擎便能生成「與其聲音高度相似的自然語音」。此後，無論是何種文本，它都能以近乎完美的克隆聲音進行朗讀。

這項技術的問世，顯然將對那些經常錄製自己語音的人產生重大影響，包括播客、配音藝術家、口語表演者、有聲書和廣告解說員、遊戲玩家、流媒體主播、客戶服務代理、銷售人員等眾多職業。

與此同時，這一創新也給其他致力於語音克隆技術的公司帶來了前所未有的壓力，如ElevenLabs、Captions、Meta、WellSaid Labs、MyShell等資金雄厚的人工智能初創企業。

值得一提的是，OpenAI還特別強調了語音引擎在支持非語言個體方面的獨特能力。它能為這些個體提供個性化的、非機械化的聲音，為那些有語言障礙或學習需求的人提供治療和教育方面的幫助。

然而，目前這項技術仍存在一定的局限性。由於其文生視頻AI模型Sora所展現的驚人效果，OpenAI目前並未向公眾開放語音引擎的使用權限。相反，該公司僅與「一小群值得信賴的合作夥伴」分享了這一工具，並通過「小規模預覽」的形式向他們展示了初步的成果。

OpenAI周五在其官網上發表了博客文章，名為「駕馭合成聲音的挑戰和機遇」，全文內容如下：

官方博客 https://openai.com/blog/navigating-the-challenges-and-opportunities-of-synthetic-voices

我們正在與一個精心挑選的小群體分享語音引擎預覽的初步體驗與反饋，這是一款用於創建個性化聲音的先進模型。

OpenAI始終致力於開發安全且對社會有益的人工智能技術。今天，我們將分享關於「語音引擎」模型小規模預覽的初步見解與成果。這款模型利用文本輸入以及一段15秒的音頻樣本，即可生成與聲音錄製者極為相似的自然語音。

我們在2022年底便初步開發了語音引擎，並成功將其應用於文本轉語音API以及ChatGPT的語音與朗讀預設功能中。然而，鑑於合成語音可能帶來的濫用風險，我們在進行更廣泛發佈時採取了極為審慎的態度。我們期待與各方展開深入的對話，共同探討如何負責任地部署合成聲音技術，以及社會應如何適應這些的新功能。基於這些對話及小規模測試所獲得的寶貴反饋，我們將做出更為明智的決策。

01 語音引擎的早期應用

為了更深入地探索這項技術的潛在應用，我們自去年年底起，便與一組值得信賴的合作夥伴展開了小規模測試。這個團隊所開發的應用程式，不僅展示了語音引擎的多樣性，更深深地震撼了我們。通過這些小規模的部署實踐，我們得以洞察各種實施方法和保護措施的有效性，同時也激發了我們對於語音引擎在各行各業中更廣泛應用場景的思考。

部分早期的用例：

1.提供自然聲音的閱讀輔助

藉助語音引擎的自然、情感豐富的聲音，我們為不具備閱讀能力的人和兒童提供了個性化的閱讀輔助。這些聲音不再局限於預設的選項，而是涵蓋了更廣泛的說話方式，使閱讀體驗更加貼近真實。例如，致力於推動兒童教育的科技公司Age of Learning，正積極利用這一技術生成預先編寫好的畫外音內容。他們不僅使用語音引擎，還結合GPT-4，為學生創造實時、個性化的互動學習體驗。

2.保留母語口音的翻譯

語音引擎還能助力翻譯視頻、播客等內容，使創作者和企業能夠用自己的聲音流利地觸達全球各地的更多受眾。HeyGen便是這一功能的早期實踐者，他們作為一個人工智能視覺敘事平台，與企業客戶合作，為各類內容（從產品營銷到銷售演示）創建定製的人形化身。他們運用語音引擎進行視頻翻譯，將視頻中發聲者的聲音轉換成多種語言，滿足全球觀眾的需求。在翻譯過程中，語音引擎能夠保留髮聲者的本土口音，例如，使用來自法語母語者的音頻樣本生成英語時，會呈現出帶有法語口音的語音效果。

3.幫助創作者接觸全球受眾

通過改進偏遠地區的基本服務，語音引擎正幫助覆蓋更廣泛的全球社區。Dimagi正在為社區衛生工作者開發工具，以提供多種基本服務，如為堅持母乳餵養的母親提供諮詢。為了幫助這些工作人員提升服務體驗，Dimagi利用語音引擎和GPT-4，以每個人的主要語言（包括斯瓦希里語或更非正式的語言，如在肯雅流行的編碼混合語言Sheng）提供交互式反饋，從而確保信息的準確傳達與有效溝通。

4.賦能殘障人士溝通

語音引擎為那些沒有語言能力的人群提供了有力的支持，無論是用於治療有語言障礙的人士，還是用於增強有學習需求人群的教育體驗。Livox作為一款人工智能替代通信應用程式，為輔助和替代通信（AAC）設備提供了強大動力，使得殘障人士能夠進行流暢的溝通。通過運用語音引擎，Livox能夠在多種語言中為不具備語言能力人士提供獨特且非機械化的聲音。這些用戶可以選擇最能代表自己的語音，對於多語言使用者而言，更能在每種語言中保持一致的語音特性。

5.助力病患聲音恢復

對於那些患有突發或退化性語言疾病的病患，語音引擎同樣發揮着重要的作用。作為布朗大學醫學院的主要教學附屬機構，非營利性醫療系統Lifespan的諾曼王子神經科學研究所一直在積極探索人工智能在臨床環境中的應用。他們正在試點一個項目，利用語音引擎為患有腫瘤或神經病因導致的語言障礙的患者提供支持。由於語音引擎僅需極短的音頻樣本，醫生們成功地幫助一位因血管性腦瘤而失去流利語言能力的年輕患者恢復了聲音，這段音頻樣本來源於他之前為學校項目錄製的視頻。

02 安全地構建語音引擎

我們深知，生成類似於人們自身聲音的技術存在着巨大的風險，特別是在大選年這樣的關鍵時期。因此，我們正在積極與來自政府、媒體、娛樂、教育、公民社會等多個領域的美國和國際合作夥伴進行廣泛接觸，以確保在技術的構建過程中充分吸納他們的反饋和建議。

目前參與測試語音引擎的合作夥伴已經接受了我們的使用政策，該政策明確禁止在未經同意或缺乏合法權利的情況下，冒充其他個人或組織的行為。此外，我們與這些合作夥伴之間的合作條款也要求他們必須獲得聲音片段錄製者的明確授權和知情同意，我們堅決不允許開發者為個人用戶創建他們自己的聲音模型。合作夥伴還必須在提供服務時明確告知用戶，他們聽到的聲音是由人工智能生成的。

為了進一步確保技術的安全使用，我們已經實施了一系列安全措施。這些措施包括使用水印技術來追蹤由語音引擎產生的任何音頻的來源，以及主動監控這些音頻的使用情況。

我們還認為，任何合成語音技術的廣泛部署都應伴隨着嚴格的語音認證體驗。這種體驗旨在驗證用戶是否故意將自己的聲音添加到服務中，以確保技術的合法使用。同時，我們還應建立一個禁止使用的語音列表，以便檢測和防止創建與知名人物過於相似的聲音的行為。

03 展望未來

語音引擎是我們致力於深入探索技術前沿，並公開分享人工智能潛在能力的又一重要里程碑。基於我們對人工智能安全性的高度重視，以及我們自願承擔的社會責任，我們決定目前僅進行技術預覽，而非廣泛發佈這項技術。我們希望此次語音引擎的預覽能夠充分展示其巨大的潛力，同時幫助社會各界提升適應能力，以應對日益逼真的生成式模型所帶來的新挑戰。

為此，我們特別鼓勵採取以下關鍵步驟：

——逐步淘汰僅憑語音進行身份驗證的做法，將其作為訪問銀行賬戶和其他敏感信息的單一安全措施已不再足夠安全；

——積極探討並制定保護個人聲音在人工智能中使用的相關政策，確保個人私隱和權益得到充分保障；

——加強公眾教育，提升大眾對人工智能技術的認知，包括了解其潛在能力、局限性以及可能產生的欺騙性內容；

——加速開發和採用能夠追蹤視聽內容來源的先進技術，確保在與真人或人工智能互動時，信息來源始終清晰透明。

尤為重要的是，我們希望世界各地的人們都能關注並了解這項技術的發展方向，無論我們最終是否選擇廣泛部署它。我們期待繼續與政策制定者、研究人員、開發者和創意人員就合成聲音技術所帶來的挑戰與機遇展開深入的對話。

責任編輯： zhongkang 　來源：騰訊科技轉載請註明作者、出處並保持完整。

OpenAI聲音克隆新技術:僅需15秒音頻即可模仿任何人

相關新聞