国片精品一区二区三区在线观看,在线观看国产精品欧美精品蜜乳

加拿大創(chuàng)業(yè)公司 Dessa 開發(fā)出一個語音合成系統(tǒng) RealTalk，與以往基于語音輸入學習人聲的系統(tǒng)不同，它可以僅基于文本輸入生成完美逼近真人的聲音。不過，出于倫理、社會影響等方面的考慮，Dessa 并未公布該項目的研究細節(jié)、模型和數(shù)據(jù)集。

加拿大創(chuàng)業(yè)公司 Dessa 近日發(fā)布了一項新研究：利用其最新開發(fā)的 RealTalk 系統(tǒng)，僅利用文本輸入即可生成完美逼近真人的聲音。其 demo 中展示了美國著名脫口秀喜劇演員、主持人 Joe Rogan 的聲音（Joe Rogan 就是那個讓馬斯克在節(jié)目中嗨了的主持人）。

所有音頻均為機器學習模型使用文本輸入生成的。音頻中包括換氣聲、「um」「ah」等詞語和噪聲。

視頻中，「Joe Rogan」用他一貫的語調和風格，談論黑猩猩曲棍球隊、快速說繞口令，甚至模擬了一段「Joe Rogan 被人工智能研究者困在機器中」的情境……

Joe Rogan 本人在聽了模擬音頻后表示：「it's terrifyingly accurate」。有 twitter 網(wǎng)友評論道「你應該和 AI Joe Rogan 來一次訪談，lol」……

Joe Rogan 發(fā) ins 表示：「我的立場就是驚訝地聳肩搖頭，然后接受它。未來越來越奇怪了，朋友們?！?/p>

復制 Rogan 聲音這一項目是由 Dessa 公司機器學習工程師 Hashiam Kadhim、Joe Palermo 和 Rayhane Mama 組成的團隊創(chuàng)造的，他們使用了一個文本轉語音的深度學習系統(tǒng) RealTalk，可以僅基于文本輸入生成逼真的語音。

是不是很瘋狂？Dessa 首席機器學習架構師 Alex Krizhevsky （是的沒錯，他就是 AlexNet 的發(fā)明者）認為這是「我所看到的人工智能領域最酷也最恐怖的事件之一。與理論上 40100 年后才會出現(xiàn)的奇點不同，語音合成已經(jīng)成為現(xiàn)實?！挂苍S大家和他的想法是一樣的。

這意味著什么？會產(chǎn)生什么社會影響？

想想看，Dessa 的工程師用 AI 合法地創(chuàng)建了 Joe Rogan 聲音的逼真復制品，多么不可思議。而且，該模型能夠復制任何人的聲音，只要能夠獲得足夠的訓練數(shù)據(jù)。

而作為構建現(xiàn)實世界應用的 AI 從業(yè)者，Dessa 也考慮到了這一點：這項技術會帶來什么影響？

很明顯，語音合成等技術的社會影響是巨大的。它會影響到每一個人：不管有錢沒錢，不管是企業(yè)還是政府。

目前，要創(chuàng)建像 RealTalk 這樣性能良好的模型需要技術知識、獨創(chuàng)性、計算能力和數(shù)據(jù)。所以，不是任何人都可以實現(xiàn)它。但是在接下來的幾年里（甚至更短的時間內），技術可能會發(fā)展到只需要幾秒鐘的音頻就能復制出世界上任何人的聲音。

這樣就很恐怖了。

如果這種技術落入壞人之手，可能會發(fā)生下面的情況：

垃圾郵件發(fā)送者假冒你母親或者愛人來獲取你的個人信息；

以霸凌或騷擾為目的冒充別人；

冒充政府官員進入絕密區(qū)域；

利用政客的「audio deepfake」來操縱選舉或引發(fā)社會暴動；

……

除了消極影響之外，Dessa 也考慮了這項技術的積極一面。

如果這項技術被正確利用的話，則：

和語音助手說話的時候感覺很自然，就像與朋友聊天一樣。

可以定制語音應用程序，比如，健身 app 里鼓勵大家鍛煉的個性化話語來自阿諾·施瓦辛格。

為只能通過文本-語音設備進行交流的人提供了一種交流選項，比如患有盧·格里克?。u凍人癥，ALS）的人。

用任何語言為任意媒體文件自動配音。

正如牛津大學人類未來研究所在最近發(fā)布的一份報告《The Malicious Use of Artificial Intelligence》中所提到的那樣：人工智能領域的進步不僅擴大了現(xiàn)有威脅，還帶來了新的威脅。

如何從倫理方面考慮來構建這個技術，Dessa 還沒有完全得出答案。但未來幾年里，這項技術將不可避免地建立起來并應用到現(xiàn)實世界中。因此，除了提高意識和承認問題以外，Dessa 表示希望這項研究能夠開啟關于語音合成技術的對話和討論。

每個人都應該知道，隨著語音合成技術的發(fā)展，可能會發(fā)生什么樣的情況。正如 Deepfake 技術出現(xiàn)時我們看到的那樣，公眾意識和對話促使政府、政策制定者、立法者迅速采取行動并制定對策。

Dessa 在相關博客中表示：作為應用人工智能公司，Dessa 的一個重要責任是，了解在研究領域探索 AI 和在現(xiàn)實中應用 AI 有著巨大的差別。為了負責任地對待這種技術，他們認為在開源該項目之前，應該讓公眾首先意識到語音合成模型的影響。

也因此，Dessa 目前沒有公開研究細節(jié)、模型或數(shù)據(jù)集。

Dessa 表示后續(xù)將發(fā)布博客，介紹 RealTalk 的工作原理和構建過程。

阅读全文

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

AI

AI

+關注

關注
87

文章
31399

瀏覽量
269793
機器學習

機器學習

+關注

關注
66

文章
8435

瀏覽量
132885
語音合成技術

語音合成技術

+關注

關注
0

文章
8

瀏覽量
2514

原文標題：語音版deepfake出現(xiàn)：從文本到逼真人聲，被模仿者高呼真得可怕

文章出處：【微信號：smartman163，微信公眾號：網(wǎng)易智能】歡迎添加關注！文章轉載請注明出處。

檢索增強型生成(RAG)系統(tǒng)詳解

流暢且類似人類的文本方面表現(xiàn)出色，但它們有時在事實準確性上存在困難。當準確性非常重要時，這可能是一個巨大的問題。那么，這個問題的解決方案是什么呢？答案是檢索增強型生成（RAG）系統(tǒng)。

發(fā)表于 12-24 10:44 ?271次閱讀

檢索增強型<b class='flag-5'>生成</b>(RAG)<b class='flag-5'>系統(tǒng)</b>詳解

NVIDIA推出全新生成式AI模型Fugatto

NVIDIA 開發(fā)了一個全新的生成式 AI 模型。利用輸入的文本和音頻，該模型可以創(chuàng)作出包含任意的音樂、人聲和

發(fā)表于 11-27 11:29 ?406次閱讀

如何使用 Llama 3 進行文本生成

使用LLaMA 3（Large Language Model Family of AI Alignment）進行文本生成，可以通過以下幾種方式實現(xiàn)，取決于你是否愿意在本地運行模型或者使用現(xiàn)成的API

發(fā)表于 10-27 14:21 ?506次閱讀

AIGC生成內容的優(yōu)勢與挑戰(zhàn)

人工智能生成內容（AIGC，Artificial Intelligence Generated Content）是指利用人工智能技術自動生成文本、圖像、音頻和視頻等內容的過程。隨著深度學習、自然語言

發(fā)表于 10-25 15:36 ?683次閱讀

AIGC與傳統(tǒng)內容生成的區(qū)別

AIGC ：主要面向非結構化數(shù)據(jù)的生成，如自然語言文本、圖像、音頻、視頻等。這類數(shù)據(jù)規(guī)模更大，內在結構更復雜，對處理技術提出了更高要求。傳統(tǒng)內容生成：主要處理結構化數(shù)據(jù)，如數(shù)據(jù)庫中的

發(fā)表于 10-25 15:13 ?513次閱讀

AI大模型的倫理與社會影響

AI大模型的倫理與社會影響是一個復雜且多維度的話題，以下是對其倫理與社會影響的分析：一、倫理挑戰(zhàn) 數(shù)據(jù)隱私與安全性 AI大模型學習通常依賴于大量的個人數(shù)據(jù)。在收集、處理和使用這些數(shù)據(jù)時，必須確保

發(fā)表于 10-23 15:13 ?588次閱讀

逼近型模數(shù)轉換器特點和應用

通過逐步逼近輸入信號的數(shù)值來獲得逼近的數(shù)字輸出。這種轉換器以其低功耗、高精度和準確度高等優(yōu)點，在傳感器測量、音頻信號采樣、通信系統(tǒng)等多種應用中得到了廣泛應用。以下是對逐次

發(fā)表于 07-22 17:00 ?720次閱讀

如何學習智能家居？8：Text文本實體使用方法

內容到設備當中。可以理解成一個文本輸入框，我們可以輸入任意文字，然后發(fā)給設備。也可以利用自動化，更新文本，例如

發(fā)表于 07-15 14:06 ?1634次閱讀

如何學習智能家居？8：Text<b class='flag-5'>文本</b>實體使用方法

主動降噪與聲音生成技術在當代電動汽車中的創(chuàng)新應用

MdynamiX與慕尼黑應用科技大學合作，開發(fā)了一項革命性的技術，通過利用現(xiàn)有的電動機實現(xiàn)主動降噪（ANC）和主動聲音生成（ASG），從而為汽車制造商提供了一種高效且經(jīng)濟的解決方案。

發(fā)表于 07-05 14:46 ?1862次閱讀

主動降噪與<b class='flag-5'>聲音</b><b class='flag-5'>生成</b>技術在當代電動汽車中的創(chuàng)新應用

生成式AI的基本原理和應用領域

生成式人工智能（Generative Artificial Intelligence，簡稱Generative AI）是一種利用機器學習算法和深度學習技術，通過模擬人類的創(chuàng)造性思維過程，生成具有高度

發(fā)表于 07-04 11:50 ?1649次閱讀

將為人們生活帶來深刻影響的5大生成式AI用例

從ChatGPT推出以來，全世界都為AI的巨大潛力而著迷。ChatGPT開啟了生成式AI時代，生成式AI利用基于大量數(shù)據(jù)訓練的模型，可根據(jù)簡單文本

發(fā)表于 03-07 11:38 ?946次閱讀

探索OpenAI Sora視頻AI生成技術及其應用如何使用指南

的應用范圍從娛樂和教育到營銷和內容創(chuàng)作等各個領域都有巨大潛力。 Sora視頻AI的介紹 Sora視頻AI是一種先進的人工智能工具，它利用深度學習算法根據(jù)用戶提供的文本描述生成視頻。這意

發(fā)表于 02-20 12:01 ?1485次閱讀

生成式人工智能和感知式人工智能的區(qū)別

生成新的內容和信息的人工智能系統(tǒng)。這些系統(tǒng)能夠利用已有的數(shù)據(jù)和知識來生成全新的內容，如圖片、音樂、文本

發(fā)表于 02-19 16:43 ?1951次閱讀

谷歌發(fā)布Lumiere人工智能文本視頻生成器

隨著近年來AI應用的不斷普及和改進，自動文本創(chuàng)作系統(tǒng)如ChatGPT已經(jīng)被廣泛接受，成為聊天窗口中的?？?。類似地，文本到圖畫生成工具讓人們得以繪制出超現(xiàn)實的視覺效果。然而，谷歌此次推出

發(fā)表于 01-31 16:45 ?898次閱讀

模數(shù)轉換器：并行比較型和逐次逼近型

逐次逼近型模數(shù)轉換器（Successive Approximation Converter）是一種常用的模數(shù)轉換器轉換方式。它通過逐步逼近輸入信號的數(shù)值來獲得逼近的數(shù)字輸出。

發(fā)表于 01-23 15:58 ?2915次閱讀

搜索歷史

RealTalk系統(tǒng)利用文本輸入生成逼近真人聲音社會影響巨大

評論