0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
电子发烧友
开通电子发烧友VIP会员 尊享10大特权
海量资料免费下载
精品直播免费看
优质内容免费畅学
课程9折专享价
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

RealTalk系統(tǒng)利用文本輸入生成逼近真人聲音 社會影響巨大

電子工程師 ? 來源:yxw ? 2019-05-20 11:12 ? 次閱讀

加拿大創(chuàng)業(yè)公司 Dessa 開發(fā)出一個語音合成系統(tǒng) RealTalk,與以往基于語音輸入學習人聲的系統(tǒng)不同,它可以僅基于文本輸入生成完美逼近真人的聲音。不過,出于倫理、社會影響等方面的考慮,Dessa 并未公布該項目的研究細節(jié)、模型和數(shù)據(jù)集。

加拿大創(chuàng)業(yè)公司 Dessa 近日發(fā)布了一項新研究:利用其最新開發(fā)的 RealTalk 系統(tǒng),僅利用文本輸入即可生成完美逼近真人的聲音。其 demo 中展示了美國著名脫口秀喜劇演員、主持人 Joe Rogan 的聲音(Joe Rogan 就是那個讓馬斯克在節(jié)目中嗨了的主持人)。

所有音頻均為機器學習模型使用文本輸入生成的。音頻中包括換氣聲、「um」「ah」等詞語和噪聲。

視頻中,「Joe Rogan」用他一貫的語調和風格,談論黑猩猩曲棍球隊、快速說繞口令,甚至模擬了一段「Joe Rogan 被人工智能研究者困在機器中」的情境……

Joe Rogan 本人在聽了模擬音頻后表示:「it's terrifyingly accurate」。有 twitter 網(wǎng)友評論道「你應該和 AI Joe Rogan 來一次訪談,lol」……

Joe Rogan 發(fā) ins 表示:「我的立場就是驚訝地聳肩搖頭,然后接受它。未來越來越奇怪了,朋友們?!?/p>

復制 Rogan 聲音這一項目是由 Dessa 公司機器學習工程師 Hashiam Kadhim、Joe Palermo 和 Rayhane Mama 組成的團隊創(chuàng)造的,他們使用了一個文本轉語音的深度學習系統(tǒng) RealTalk,可以僅基于文本輸入生成逼真的語音。

是不是很瘋狂?Dessa 首席機器學習架構師 Alex Krizhevsky (是的沒錯,他就是 AlexNet 的發(fā)明者)認為這是「我所看到的人工智能領域最酷也最恐怖的事件之一。與理論上 40100 年后才會出現(xiàn)的奇點不同,語音合成已經(jīng)成為現(xiàn)實?!挂苍S大家和他的想法是一樣的。

這意味著什么?會產(chǎn)生什么社會影響?

想想看,Dessa 的工程師用 AI 合法地創(chuàng)建了 Joe Rogan 聲音的逼真復制品,多么不可思議。而且,該模型能夠復制任何人的聲音,只要能夠獲得足夠的訓練數(shù)據(jù)。

而作為構建現(xiàn)實世界應用的 AI 從業(yè)者,Dessa 也考慮到了這一點:這項技術會帶來什么影響?

很明顯,語音合成等技術的社會影響是巨大的。它會影響到每一個人:不管有錢沒錢,不管是企業(yè)還是政府。

目前,要創(chuàng)建像 RealTalk 這樣性能良好的模型需要技術知識、獨創(chuàng)性、計算能力和數(shù)據(jù)。所以,不是任何人都可以實現(xiàn)它。但是在接下來的幾年里(甚至更短的時間內),技術可能會發(fā)展到只需要幾秒鐘的音頻就能復制出世界上任何人的聲音。

這樣就很恐怖了。

如果這種技術落入壞人之手,可能會發(fā)生下面的情況:

垃圾郵件發(fā)送者假冒你母親或者愛人來獲取你的個人信息;

以霸凌或騷擾為目的冒充別人;

冒充政府官員進入絕密區(qū)域;

利用政客的「audio deepfake」來操縱選舉或引發(fā)社會暴動;

……

除了消極影響之外,Dessa 也考慮了這項技術的積極一面。

如果這項技術被正確利用的話,則:

和語音助手說話的時候感覺很自然,就像與朋友聊天一樣。

可以定制語音應用程序,比如,健身 app 里鼓勵大家鍛煉的個性化話語來自阿諾·施瓦辛格。

為只能通過文本-語音設備進行交流的人提供了一種交流選項,比如患有盧·格里克?。u凍人癥,ALS)的人。

用任何語言為任意媒體文件自動配音。

正如牛津大學人類未來研究所在最近發(fā)布的一份報告《The Malicious Use of Artificial Intelligence》中所提到的那樣:人工智能領域的進步不僅擴大了現(xiàn)有威脅,還帶來了新的威脅。

如何從倫理方面考慮來構建這個技術,Dessa 還沒有完全得出答案。但未來幾年里,這項技術將不可避免地建立起來并應用到現(xiàn)實世界中。因此,除了提高意識和承認問題以外,Dessa 表示希望這項研究能夠開啟關于語音合成技術的對話和討論。

每個人都應該知道,隨著語音合成技術的發(fā)展,可能會發(fā)生什么樣的情況。正如 Deepfake 技術出現(xiàn)時我們看到的那樣,公眾意識和對話促使政府、政策制定者、立法者迅速采取行動并制定對策。

Dessa 在相關博客中表示:作為應用人工智能公司,Dessa 的一個重要責任是,了解在研究領域探索 AI 和在現(xiàn)實中應用 AI 有著巨大的差別。為了負責任地對待這種技術,他們認為在開源該項目之前,應該讓公眾首先意識到語音合成模型的影響。

也因此,Dessa 目前沒有公開研究細節(jié)、模型或數(shù)據(jù)集。

Dessa 表示后續(xù)將發(fā)布博客,介紹 RealTalk 的工作原理和構建過程。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • AI
    AI
    +關注

    關注

    87

    文章

    31399

    瀏覽量

    269793
  • 機器學習
    +關注

    關注

    66

    文章

    8435

    瀏覽量

    132885
  • 語音合成技術

    關注

    0

    文章

    8

    瀏覽量

    2514

原文標題:語音版deepfake出現(xiàn):從文本到逼真人聲,被模仿者高呼真得可怕

文章出處:【微信號:smartman163,微信公眾號:網(wǎng)易智能】歡迎添加關注!文章轉載請注明出處。

收藏 0人收藏

    評論

    相關推薦

    檢索增強型生成(RAG)系統(tǒng)詳解

    流暢且類似人類的文本方面表現(xiàn)出色,但它們有時在事實準確性上存在困難。當準確性非常重要時,這可能是一個巨大的問題。 那么,這個問題的解決方案是什么呢?答案是檢索增強型生成(RAG)系統(tǒng)。
    的頭像 發(fā)表于 12-24 10:44 ?271次閱讀
    檢索增強型<b class='flag-5'>生成</b>(RAG)<b class='flag-5'>系統(tǒng)</b>詳解

    NVIDIA推出全新生成式AI模型Fugatto

    NVIDIA 開發(fā)了一個全新的生成式 AI 模型。利用輸入文本和音頻,該模型可以創(chuàng)作出包含任意的音樂、人聲
    的頭像 發(fā)表于 11-27 11:29 ?406次閱讀

    如何使用 Llama 3 進行文本生成

    使用LLaMA 3(Large Language Model Family of AI Alignment)進行文本生成,可以通過以下幾種方式實現(xiàn),取決于你是否愿意在本地運行模型或者使用現(xiàn)成的API
    的頭像 發(fā)表于 10-27 14:21 ?506次閱讀

    AIGC生成內容的優(yōu)勢與挑戰(zhàn)

    人工智能生成內容(AIGC,Artificial Intelligence Generated Content)是指利用人工智能技術自動生成文本、圖像、音頻和視頻等內容的過程。隨著深度學習、自然語言
    的頭像 發(fā)表于 10-25 15:36 ?683次閱讀

    AIGC與傳統(tǒng)內容生成的區(qū)別

    AIGC : 主要面向非結構化數(shù)據(jù)的生成,如自然語言文本、圖像、音頻、視頻等。 這類數(shù)據(jù)規(guī)模更大,內在結構更復雜,對處理技術提出了更高要求。 傳統(tǒng)內容生成 : 主要處理結構化數(shù)據(jù),如數(shù)據(jù)庫中的
    的頭像 發(fā)表于 10-25 15:13 ?513次閱讀

    AI大模型的倫理與社會影響

    AI大模型的倫理與社會影響是一個復雜且多維度的話題,以下是對其倫理與社會影響的分析: 一、倫理挑戰(zhàn) 數(shù)據(jù)隱私與安全性 AI大模型學習通常依賴于大量的個人數(shù)據(jù)。在收集、處理和使用這些數(shù)據(jù)時,必須確保
    的頭像 發(fā)表于 10-23 15:13 ?588次閱讀

    逼近型模數(shù)轉換器特點和應用

    通過逐步逼近輸入信號的數(shù)值來獲得逼近的數(shù)字輸出。這種轉換器以其低功耗、高精度和準確度高等優(yōu)點,在傳感器測量、音頻信號采樣、通信系統(tǒng)等多種應用中得到了廣泛應用。以下是對逐次
    的頭像 發(fā)表于 07-22 17:00 ?720次閱讀

    如何學習智能家居?8:Text文本實體使用方法

    內容到設備當中。可以理解成一個文本輸入框,我們可以輸入任意文字,然后發(fā)給設備。 也可以利用自動化,更新文本,例如
    的頭像 發(fā)表于 07-15 14:06 ?1634次閱讀
    如何學習智能家居?8:Text<b class='flag-5'>文本</b>實體使用方法

    主動降噪與聲音生成技術在當代電動汽車中的創(chuàng)新應用

    MdynamiX與慕尼黑應用科技大學合作,開發(fā)了一項革命性的技術,通過利用現(xiàn)有的電動機實現(xiàn)主動降噪(ANC)和主動聲音生成(ASG),從而為汽車制造商提供了一種高效且經(jīng)濟的解決方案。
    的頭像 發(fā)表于 07-05 14:46 ?1862次閱讀
    主動降噪與<b class='flag-5'>聲音</b><b class='flag-5'>生成</b>技術在當代電動汽車中的創(chuàng)新應用

    生成式AI的基本原理和應用領域

    生成式人工智能(Generative Artificial Intelligence,簡稱Generative AI)是一種利用機器學習算法和深度學習技術,通過模擬人類的創(chuàng)造性思維過程,生成具有高度
    的頭像 發(fā)表于 07-04 11:50 ?1649次閱讀

    將為人們生活帶來深刻影響的5大生成式AI用例

    從ChatGPT推出以來,全世界都為AI的巨大潛力而著迷。ChatGPT開啟了生成式AI時代,生成式AI利用基于大量數(shù)據(jù)訓練的模型,可根據(jù)簡單文本
    的頭像 發(fā)表于 03-07 11:38 ?946次閱讀

    探索OpenAI Sora視頻AI生成技術及其應用如何使用指南

    的應用范圍從娛樂和教育到營銷和內容創(chuàng)作等各個領域都有巨大潛力。 Sora視頻AI的介紹 Sora視頻AI是一種先進的人工智能工具,它利用深度學習算法根據(jù)用戶提供的文本描述生成視頻。這意
    的頭像 發(fā)表于 02-20 12:01 ?1485次閱讀

    生成式人工智能和感知式人工智能的區(qū)別

    生成新的內容和信息的人工智能系統(tǒng)。這些系統(tǒng)能夠利用已有的數(shù)據(jù)和知識來生成全新的內容,如圖片、音樂、文本
    的頭像 發(fā)表于 02-19 16:43 ?1951次閱讀

    谷歌發(fā)布Lumiere人工智能文本視頻生成

    隨著近年來AI應用的不斷普及和改進,自動文本創(chuàng)作系統(tǒng)如ChatGPT已經(jīng)被廣泛接受,成為聊天窗口中的???。類似地,文本到圖畫生成工具讓人們得以繪制出超現(xiàn)實的視覺效果。然而,谷歌此次推出
    的頭像 發(fā)表于 01-31 16:45 ?898次閱讀

    模數(shù)轉換器:并行比較型和逐次逼近

    逐次逼近型模數(shù)轉換器(Successive Approximation Converter)是一種常用的模數(shù)轉換器轉換方式。它通過逐步逼近輸入信號的數(shù)值來獲得逼近的數(shù)字輸出。
    發(fā)表于 01-23 15:58 ?2915次閱讀
    模數(shù)轉換器:并行比較型和逐次<b class='flag-5'>逼近</b>型

    電子發(fā)燒友

    中國電子工程師最喜歡的網(wǎng)站

    • 2931785位工程師會員交流學習
    • 獲取您個性化的科技前沿技術信息
    • 參加活動獲取豐厚的禮品