在ITF World 2023半導(dǎo)體大會上,黃仁勛表示,人工智能的下一個浪潮將是具身智能(embodied AI),即能理解、推理、并與物理世界互動的智能系統(tǒng)。
同時,他也介紹了英偉達(dá)的多模態(tài)具身智能系統(tǒng)Nvidia VIMA,其能在視覺文本提示的指導(dǎo)下,執(zhí)行復(fù)雜任務(wù)、獲取概念、理解邊界、甚至模擬物理學(xué),這也標(biāo)志著AI能力的一大顯著進(jìn)步。
而在今年3月,谷歌聯(lián)合柏林工業(yè)大學(xué)團(tuán)隊發(fā)布PaLM-E,這是一種多模態(tài)具身視覺語言模型,也是史上最大的“通才”AI模型,其不僅可以理解圖像,還能理解、生成語言,可執(zhí)行各種復(fù)雜的機(jī)器人指令而無需重新訓(xùn)練,且表現(xiàn)出很好的遷移能力。
具身智能是智能科學(xué)的一個基礎(chǔ)問題,也是一個大難題。而AIGC為具身智能的實現(xiàn)提供了新思路。
1950 年,圖靈在他的論文——《Computing Machinery and Intelligence》中首次提出了具身智能的概念。在之后的幾十年里,囿于技術(shù)問題,具身智能并沒有取得很大的進(jìn)展。
正如斯坦福大學(xué)計算機(jī)科學(xué)教授李飛飛所說,“具身的含義不是身體本身,而是與環(huán)境交互以及在環(huán)境中做事的整體需求和功能?!?/p>
與人、與環(huán)境的交互,是具身智能機(jī)器人形成對于客觀世界的理解和改造能力的第一步,這方面,最直接的障礙在于,人們嚴(yán)重依賴手寫代碼來控制機(jī)器人,人類與人工智能面前,“巴別塔”高筑。
而進(jìn)入AIGC時代,GPT等AI大模型提供了新的解決方案,已有不少研究者嘗試將多模態(tài)的大語言模型作為人類與機(jī)器人溝通的橋梁。即通過將圖像、文字、具身數(shù)據(jù)聯(lián)合訓(xùn)練,并引入多模態(tài)輸入,增強(qiáng)模型對現(xiàn)實中對象的理解,幫助機(jī)器人處理具身推理任務(wù)。
具身智能是什么?
具身智能簡單來說就是AI的大腦加上軀體。它能夠跟我們生活的環(huán)境進(jìn)行交互,從而展現(xiàn)出智能行為。
而具身智能為什么被看作AI的iPhone時刻?
原來的人工智能可以看作第三人稱的智能,也就是投喂數(shù)據(jù)給機(jī)器,讓它學(xué)習(xí)什么它就學(xué)習(xí)什么。而現(xiàn)在具身智創(chuàng)造了一種機(jī)器自主學(xué)習(xí)的新方式,能夠以第一人稱的視角來感知和學(xué)習(xí)物理世界,并像人類一樣理解和感知事物的能力,才能在此基礎(chǔ)上進(jìn)行相同思維的發(fā)展,最后表現(xiàn)出人類期待的行為方式。
Windows為何能統(tǒng)治操作系統(tǒng),iPhone為何創(chuàng)造智能手機(jī)時代,最重要的原因就是他們創(chuàng)造了最簡單、最直觀的人機(jī)交互窗口。
發(fā)展人工智能的意義在于能夠讓機(jī)器造福人類,協(xié)助處理事務(wù),提高生產(chǎn)力;更進(jìn)一步則是讓AI進(jìn)行創(chuàng)造,推動科學(xué)研究的進(jìn)展。而這一切的前提是:要讓機(jī)器理解人類社會,要做到這一點,需要的就是具身智能。
具身智能的硬實力包括:機(jī)器視覺和多模態(tài)大模型。
具身智能是指通過身體和環(huán)境的相互作用來實現(xiàn)智能行為的能力。傳統(tǒng)上,智能主要關(guān)注于基于符號和算法的符號推理和計算,而具身智能強(qiáng)調(diào)了身體感知、運動和與環(huán)境互動的重要性。
具身智能認(rèn)為智能不僅僅是大腦內(nèi)部的思考和計算過程,還涉及到與外部環(huán)境的交互。通過感知環(huán)境、運動控制和與環(huán)境的實時交互,智能體能夠適應(yīng)和應(yīng)對復(fù)雜的情境和任務(wù)。
具身智能在機(jī)器人學(xué)、人工智能和認(rèn)知科學(xué)等領(lǐng)域得到廣泛應(yīng)用。通過賦予機(jī)器人身體感知和運動能力,使其能夠更好地理解環(huán)境、與環(huán)境進(jìn)行交互,并通過實際操作來學(xué)習(xí)和解決問題。具身智能的研究旨在使機(jī)器具備更接近人類的智能表現(xiàn),能夠更自然、靈活地適應(yīng)各種環(huán)境和任務(wù)要求。
具身智能和人工智能有什么區(qū)別
具身智能和人工智能是兩個相關(guān)但不完全相同的概念。
人工智能是指通過計算機(jī)系統(tǒng)模擬和實現(xiàn)人類智能的能力。它涵蓋了各種技術(shù)和方法,包括符號推理、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等,旨在讓計算機(jī)能夠感知、理解、學(xué)習(xí)和決策,以完成各種任務(wù)。
具身智能強(qiáng)調(diào)了智能與身體和環(huán)境的互動關(guān)系。它認(rèn)為智能不僅僅局限于思考和計算的過程,還涉及到通過身體感知、運動和與環(huán)境互動來實現(xiàn)智能行為的能力。具身智能關(guān)注于將智能與實際物理世界結(jié)合起來,使機(jī)器能夠通過感知和運動與環(huán)境進(jìn)行實時交互,從而更好地適應(yīng)和解決復(fù)雜任務(wù)。
總的來說,人工智能更側(cè)重于模擬和實現(xiàn)人類智能的各種算法和技術(shù),而具身智能則更關(guān)注于將智能與身體、感知和環(huán)境互動結(jié)合起來,以實現(xiàn)更真實、自然和靈活的智能表現(xiàn)。具身智能可以看作是人工智能的一種延伸,通過引入身體感知和運動能力,使智能系統(tǒng)更接近人類的交互方式和行為方式。
機(jī)器視覺是AI的感知工具,亦為數(shù)據(jù)生產(chǎn)的手段。在人類的五大感官中視覺獲取的信息占比超過 80%。
機(jī)器視覺的端口是攝像頭,作為看懂世界的“眼睛”;機(jī)器視覺的大腦是算法,承擔(dān)分析功能。
什么是AICG
AIGC(Artificial Intelligence in Games and Computation)是人工智能技術(shù)在游戲和計算領(lǐng)域的應(yīng)用。隨著人工智能技術(shù)的不斷發(fā)展,AIGC已成為一個重要的學(xué)科,它的發(fā)展將有助于提高游戲和計算系統(tǒng)的效率和智能性。本文將介紹AIGC的基本概念、技術(shù)實現(xiàn)、優(yōu)勢與不足、潛在問題以及未來發(fā)展方向,并結(jié)合一些比較熱門的AIGC相關(guān)模型、產(chǎn)品或者應(yīng)用,深入探討AIGC技術(shù)的應(yīng)用價值。
一、AIGC的基本概念
AIGC是指利用人工智能技術(shù)來開發(fā)更具智能性的游戲和計算系統(tǒng)的學(xué)科。AIGC的工作原理是利用人工智能技術(shù),如機(jī)器學(xué)習(xí)、計算機(jī)視覺、自然語言處理等,來開發(fā)具有智能性的游戲和計算系統(tǒng)。AIGC的應(yīng)用領(lǐng)域包括游戲開發(fā)、數(shù)據(jù)分析、計算機(jī)圖形學(xué)、自動控制等。通過使用AIGC技術(shù),我們可以開發(fā)出具有自主學(xué)習(xí)能力的游戲和計算系統(tǒng),使它們能夠根據(jù)環(huán)境的變化自動調(diào)整策略,從而提高效率。
近年來,隨著AIGC技術(shù)的不斷發(fā)展,一些熱門的AIGC相關(guān)模型、產(chǎn)品或者應(yīng)用也逐漸嶄露頭角。例如:
AlphaGo:由DeepMind公司開發(fā)的圍棋人工智能程序,使用了深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)等AIGC技術(shù),在2016年擊敗了人類頂尖的圍棋選手李世石,引起全球關(guān)注。此后,AlphaGo又以不同的版本繼續(xù)刷新人工智能的歷史。在2017年,AlphaGo Zero和AlphaGo Master分別以100:0和60:0的比分戰(zhàn)勝了之前的AlphaGo版本,并在同年與世界第一的圍棋選手柯潔進(jìn)行了三局對決,結(jié)果是AlphaGo Master以3:0完勝柯潔。在2018年,DeepMind公司推出了更先進(jìn)的AlphaZero程序,它不僅可以玩圍棋,還可以玩國際象棋和西洋跳棋,并在自我對弈中超越了所有人類或機(jī)器所創(chuàng)造的棋類程序。
OpenAI Five:由OpenAI公司開發(fā)的Dota 2人工智能團(tuán)隊,使用了深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)等AIGC技術(shù),2019年成功地戰(zhàn)勝了世界頂尖的Dota 2戰(zhàn)隊OG,展示了AIGC技術(shù)在實際應(yīng)用中的強(qiáng)大能力。此后,OpenAI Five又以O(shè)penAI Dota 2 as a Service (DAAS) 的形式向公眾開放,讓任何人都可以和它對戰(zhàn)或者觀看它的比賽。同時,OpenAI公司也在不斷推出更多基于自然語言生成技術(shù)NLG的AIGC產(chǎn)品,例如OpenAI Codex和OpenAI DALL-E。OpenAI Codex是一個可以根據(jù)自然語言描述生成代碼的程序,它可以幫助開發(fā)者快速編寫各種應(yīng)用。OpenAI DALL-E是一個可以根據(jù)自然語言描述生成圖像的程序,它可以創(chuàng)造出各種有趣和驚奇的圖像。
Unity Machine Learning Agents:由Unity Technologies公司推出的人工智能工具包,用于開發(fā)具有智能性的游戲和虛擬環(huán)境。該工具包使用了深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)等AIGC技術(shù),使游戲和虛擬環(huán)境具有自主學(xué)習(xí)和決策能力。(這個例子可以替換為更新更廣泛的AIGC相關(guān)產(chǎn)品或應(yīng)用,例如ChatGPT、Stable Diffusion、Synthesia等。)
除了Unity Machine Learning Agents,還有許多其他的AIGC相關(guān)產(chǎn)品或應(yīng)用,它們都展示了生成式技術(shù)在不同領(lǐng)域的創(chuàng)造力和潛力。
ChatGPT:由OpenAI公司開發(fā)的基于自然語言生成技術(shù)NLG的人工智能聊天平臺,它可以根據(jù)用戶的輸入和上下文生成流暢、有趣和合理的對話。ChatGPT不僅可以用于娛樂、教育和社交目的,還可以用于協(xié)作創(chuàng)作,例如生成Stable Diffusion等圖像生成平臺所需的描述詞12。
Stable Diffusion:由Midjourney公司開發(fā)的基于深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)等AIGC技術(shù)的圖像生成平臺,它可以根據(jù)用戶提供的文字提示和風(fēng)格類型,以及用戶對中間結(jié)果的反饋,生成獨特、高質(zhì)量和逼真的圖像。Stable Diffusion不僅可以用于藝術(shù)創(chuàng)作34,還可以用于游戲開發(fā)、廣告設(shè)計等領(lǐng)域。
Synthesia:由Synthesia公司開發(fā)的基于深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)等AIGC技術(shù)的視頻合成平臺,它可以根據(jù)用戶提供的文字或音頻輸入,以及用戶選擇或上傳的人物形象,生成逼真、同步和定制化的視頻。Synthesia不僅可以用于娛樂、教育和社交目的5,還可以用于商業(yè)演示、培訓(xùn)視頻等領(lǐng)域。 這些AIGC產(chǎn)品或應(yīng)用都是利用了生成式技術(shù)來實現(xiàn)內(nèi)容創(chuàng)造,并且都具有高度互動性和可定制性。它們?yōu)橛脩籼峁┝烁噙x擇、更多靈感和更多可能性。
這些AIGC模型、產(chǎn)品或者應(yīng)用不僅引領(lǐng)了AIGC技術(shù)的發(fā)展方向,也展示了AIGC技術(shù)在游戲、計算和內(nèi)容生成領(lǐng)域的廣泛應(yīng)用前景。
二、AIGC的技術(shù)實現(xiàn)
AIGC技術(shù)的實現(xiàn)涉及多個方面,包括機(jī)器學(xué)習(xí)、計算機(jī)視覺、自然語言處理、優(yōu)化算法等。下面將對其中幾個主要技術(shù)進(jìn)行簡要介紹。
機(jī)器學(xué)習(xí)
機(jī)器學(xué)習(xí)是AIGC技術(shù)的核心之一。它是一種通過數(shù)據(jù)訓(xùn)練模型來實現(xiàn)自主學(xué)習(xí)和智能決策的方法。在AIGC中,機(jī)器學(xué)習(xí)可以被用于創(chuàng)建智能代理,例如游戲角色、機(jī)器人等,使它們能夠根據(jù)不同的游戲狀態(tài)和用戶輸入自動地進(jìn)行決策和行動。機(jī)器學(xué)習(xí)的主要方法包括監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)。
計算機(jī)視覺
計算機(jī)視覺是另一個重要的AIGC技術(shù)。它可以使計算機(jī)理解和解釋視覺信息,例如圖像和視頻。在AIGC中,計算機(jī)視覺可以被用于游戲中的自適應(yīng)圖形、虛擬現(xiàn)實和增強(qiáng)現(xiàn)實等方面,以及對玩家的行為進(jìn)行跟蹤和分析。計算機(jī)視覺的主要方法包括特征提取、圖像分類、目標(biāo)檢測和語義分割。
自然語言處理
自然語言處理是另一個重要的AIGC技術(shù)。它使計算機(jī)能夠理解和生成自然語言。在AIGC中,自然語言處理可以被用于游戲中的對話系統(tǒng)、自動生成任務(wù)和劇情等方面,以及對玩家輸入的語言進(jìn)行分析和處理。自然語言處理的主要方法包括語音識別、文本分類、情感分析和文本生成。
優(yōu)化算法
優(yōu)化算法是AIGC技術(shù)中的重要組成部分。它可以使計算機(jī)自動優(yōu)化策略和行動,從而提高游戲和計算系統(tǒng)的效率和性能。在AIGC中,優(yōu)化算法可以被用于解決強(qiáng)化學(xué)習(xí)中的探索與利用、高維狀態(tài)空間等問題,以及在數(shù)據(jù)分析和決策中進(jìn)行優(yōu)化和搜索。優(yōu)化算法的主要方法包括遺傳算法、粒子群算法、蟻群算法和模擬退火算法。
除了上述主要技術(shù)之外,AIGC技術(shù)還涉及多個其他技術(shù)和工具,例如神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)等。這些技術(shù)和工具相互配合,構(gòu)成了AIGC技術(shù)的核心框,使得游。
三、AIGC的優(yōu)勢與不足
AIGC技術(shù)的優(yōu)勢不僅在于提高游戲和計算系統(tǒng)的效率和智能性,而且還能夠為用戶提供更好的游戲體驗和服務(wù)。AIGC技術(shù)能夠為游戲和計算系統(tǒng)帶來更好的互動性和可用性,讓用戶可以享受到更加個性化和智能化的游戲和計算服務(wù)。此外,AIGC技術(shù)還具有自主學(xué)習(xí)和自我優(yōu)化的能力,使得游戲和計算系統(tǒng)能夠不斷提高其智能性和效率,提供更好的用戶體驗。
當(dāng)然,AIGC技術(shù)也存在一些不足之處。一方面,技術(shù)問題是一個比較突出的問題,如精度不高、效率不高等。雖然AIGC技術(shù)在算法和模型的研發(fā)方面取得了很大進(jìn)展,但是在實際應(yīng)用過程中,還存在一些技術(shù)問題和難題需要解決。另一方面,AIGC技術(shù)的實現(xiàn)難度也比較高,需要具備相關(guān)的技術(shù)知識和專業(yè)能力。同時,AIGC技術(shù)在應(yīng)用過程中也存在一些安全問題,如數(shù)據(jù)泄露、惡意攻擊等,需要得到重視和解決。
因此,為了發(fā)揮AIGC技術(shù)的優(yōu)勢和避免其不足之處,我們需要不斷加強(qiáng)技術(shù)創(chuàng)新和應(yīng)用實踐,提高AIGC技術(shù)的精度和效率,降低AIGC技術(shù)的實現(xiàn)難度,同時也加強(qiáng)AIGC技術(shù)的安全性和可靠性。這需要技術(shù)人員、學(xué)者、政策制定者和產(chǎn)業(yè)界共同合作,制定出相應(yīng)的技術(shù)政策和法規(guī),推進(jìn)AIGC技術(shù)的健康發(fā)展,為我們提供更加智能、高效、安全的游戲和計算系統(tǒng)。
四、AIGC的潛在問題
除了技術(shù)問題和安全問題外,AIGC技術(shù)的普及也可能對社會產(chǎn)生一些潛在影響,如勞動力市場的變化、社會秩序的變化等。
首先,AIGC技術(shù)的普及可能導(dǎo)致一些崗位的消失,特別是那些需要重復(fù)性工作的崗位。例如,自動化的制造流程可能導(dǎo)致工廠工人的數(shù)量減少。雖然AIGC技術(shù)的發(fā)展也將創(chuàng)造新的就業(yè)機(jī)會,如AIGC軟件開發(fā)人員等,但是需要關(guān)注的是是否會出現(xiàn)技能不匹配的問題。
其次,AIGC技術(shù)的廣泛應(yīng)用也可能導(dǎo)致社會秩序的變化。例如,使用AIGC技術(shù)的自動化決策系統(tǒng)可能會對人類的生活方式產(chǎn)生影響,使人們更加依賴機(jī)器決策而非個人判斷。此外,AIGC技術(shù)可能還會影響人類的社交互動模式,例如自動回復(fù)系統(tǒng)可能會取代人類的互動。
最后,AIGC技術(shù)如果濫用,也可能對人類造成潛在威脅,如信息操縱、數(shù)據(jù)泄露等。例如,虛假信息可能會被AIGC技術(shù)擴(kuò)散得更快,從而引起社會恐慌。此外,AIGC技術(shù)也可能被黑客利用來攻擊其他系統(tǒng),從而造成安全風(fēng)險。
這些問題需要得到重視,我們需要制定相應(yīng)的技術(shù)政策和法規(guī),以確保AIGC技術(shù)的健康發(fā)展,同時避免對人類造成不必要的負(fù)面影響。
什么是AIGC?AIGC是指通過人工智能來生成內(nèi)容的方式。
從互聯(lián)網(wǎng)過往發(fā)展的歷史來看,創(chuàng)作門檻的降低,釋放了內(nèi)容創(chuàng)造力。我們此前經(jīng)歷的互聯(lián)網(wǎng)時代被稱作Web1.0和Web2.0。在Web1.時代內(nèi)容的生產(chǎn)方式主要是由專家、專業(yè)人士生成(PGC),信息單向傳遞,內(nèi)容生成數(shù)量少;隨著人們對內(nèi)容需求的不斷增加,我們逐漸來到了Web2.0時代,內(nèi)容主要由用戶生成(UGC),比如我們在使用的抖音、快手、B、微博、小紅書、等興起等都有大量的內(nèi)容是用戶自己創(chuàng)作的。
隨著時代繼續(xù)發(fā)展,用戶對內(nèi)容消費的需求繼續(xù)增長,UGC、PGC這樣的內(nèi)容生成方式也將難以滿足需求增速,我們將邁入Web3.0時代,由人工智能生成內(nèi)容(AIGC)。AIGC(人工智能生成內(nèi)容)將是新的元宇內(nèi)容生成解決方案,是元宇宙的新方向。
1)AIGC+傳媒:寫稿機(jī)器人、采訪助手、視頻字幕生成、語音播報、視頻錦集、人工智能合成主播
2)AIGC+電商:商品3D模型、虛擬主播、虛擬貨場
3)AIGC+影視:AI劇本創(chuàng)作、AI合成人臉和聲音、AI創(chuàng)作角色和場景、AI自動生成影視預(yù)告片
4)AIGC+娛樂:AI換臉應(yīng)用(如FaceAPP、ZAO)、AI作曲(如初音未來虛擬歌姬)、AI合成音視頻動畫
5)AIGC+教育:AI合成虛擬教師、AI根據(jù)課本制作歷史人物形象、AI將2D課本轉(zhuǎn)換為3D
6)AIGC+金融:通過AIGC實現(xiàn)金融資訊、產(chǎn)品介紹視頻內(nèi)容的自動化生產(chǎn),通過AIGC塑造虛擬數(shù)字人客服
7)AIGC+醫(yī)療;AIGC為失聲者合成語言音頻、為殘疾人合成肢體投影、為心理疾病患者合成醫(yī)護(hù)陪伴
8)AIGC+工業(yè):通過AIGC完成工程設(shè)計中重復(fù)的低層次任務(wù),通過AIGC生成衍生設(shè)計,為工程師提供靈感
AIGC構(gòu)建發(fā)展“加速度”
AIGC是利用人工智能技術(shù)來生成內(nèi)容。2021年之前,AIGC生成的主要還是文字,而新一代模型可以處理的格式內(nèi)容包括:文字、語音、代碼、圖像、視頻、機(jī)器人動作等等。AIGC被認(rèn)為是繼專業(yè)生產(chǎn)內(nèi)容(PGC,professional-generated content)、用戶生產(chǎn)內(nèi)容(UGC,User-generated content)之后的新型內(nèi)容創(chuàng)作方式,可以在創(chuàng)意、表現(xiàn)力、迭代、傳播、個性化等方面,充分發(fā)揮技術(shù)優(yōu)勢。2022年AIGC發(fā)展速度驚人,年初還處于技藝生疏階段,幾個月之后就達(dá)到專業(yè)級別,足以以假亂真。這讓花費畢生所學(xué)進(jìn)行創(chuàng)作的從業(yè)人員倍感焦慮和緊張。同時,AIGC的迭代速度呈現(xiàn)指數(shù)級爆發(fā),這其中深度學(xué)習(xí)模型不斷完善、開源模式的推動、大模型探索商業(yè)化的可能,成為AIGC發(fā)展的“加速度”。
(一)深度學(xué)習(xí)模型是AIGC加速普及的基礎(chǔ)
視覺信息一直在網(wǎng)絡(luò)中有較強(qiáng)的傳播力且容易被大眾感知,具有跨平臺、跨領(lǐng)域、跨人群的優(yōu)勢,天然容易被人記憶和理解。同時視覺信息應(yīng)用場景廣泛,因此生成高質(zhì)量的圖像成為當(dāng)前AI領(lǐng)域的一個現(xiàn)象級功能。
2021年,OpenAI團(tuán)隊將跨模態(tài)深度學(xué)習(xí)模型CLIP(Contrastive Language-Image Pre-Training,以下簡稱“CLIP”)進(jìn)行開源。CLIP模型能夠?qū)⑽淖趾蛨D像進(jìn)行關(guān)聯(lián),比如將文字“狗”和狗的圖像進(jìn)行關(guān)聯(lián),并且關(guān)聯(lián)的特征非常豐富。因此,CLIP模型具備兩個優(yōu)勢:一方面同時進(jìn)行自然語言理解和計算機(jī)視覺分析,實現(xiàn)圖像和文本匹配。另一方面為了有足夠多標(biāo)記好的“文本-圖像”進(jìn)行訓(xùn)練,CLIP模型廣泛利用互聯(lián)網(wǎng)上的圖片,這些圖片一般都帶有各種文本描述,成為CLIP天然的訓(xùn)練樣本。據(jù)統(tǒng)計,CLIP模型搜集了網(wǎng)絡(luò)上超過40億個“文本-圖像”訓(xùn)練數(shù)據(jù),這為后續(xù)AIGC尤其是輸入文本生成圖像/視頻應(yīng)用的落地奠定了基礎(chǔ)。
“對抗生成網(wǎng)絡(luò)”GAN(Generative Adverserial Network, 以下簡稱“GAN”)雖然也是很多AIGC的基礎(chǔ)框架,但是GAN有三個不足:一是對輸出結(jié)果的控制力較弱,容易產(chǎn)生隨機(jī)圖像;二是生成的圖像分別率較低;三是由于GAN需要用判別器來判斷生產(chǎn)的圖像是否與其他圖像屬于同一類別,這就導(dǎo)致生成的圖像是對現(xiàn)有作品的模仿,而非創(chuàng)新。因此依托GAN模型難以創(chuàng)作出新圖像,也不能通過文字提示生成新圖像。
隨后出現(xiàn)的Diffusion擴(kuò)散化模型,則真正讓文本生成圖像的AIGC應(yīng)用為大眾所熟知,也是2022年下半年Stable Diffusion應(yīng)用的重要推手。Diffusion模型有兩個特點:一方面,給圖像增加高斯噪聲,通過破壞訓(xùn)練數(shù)據(jù)來學(xué)習(xí),然后找出如何逆轉(zhuǎn)這種噪聲過程以恢復(fù)原始圖像。經(jīng)過訓(xùn)練,該模型可以從隨機(jī)輸入中合成新的數(shù)據(jù)。另一方面,Stable Diffusion把模型的計算空間從像素空間經(jīng)過數(shù)學(xué)變換,降維到一個可能性空間(Latent Space)的低維空間里,這一轉(zhuǎn)化大幅降低了計算量和計算時間,使得模型訓(xùn)練效率大大提高。這算法模式的創(chuàng)新直接推動了AIGC技術(shù)的突破性進(jìn)展。
總的來看,AIGC在2022年實現(xiàn)破圈,主要是在深度學(xué)習(xí)模型方面有了長足進(jìn)步:首先CLIP模型基于海量互聯(lián)網(wǎng)圖片進(jìn)行訓(xùn)練,推動AI繪畫模型進(jìn)行組合創(chuàng)新;其次Diffusion擴(kuò)散化模型實現(xiàn)算法創(chuàng)新;最后使用潛空間降維的方法來降低Diffusion模型在內(nèi)存和時間消耗較大的問題。因此,AIGC繪畫之所以能夠幫助大眾畫出各種天馬行空的畫作,背后離不開大量深度學(xué)習(xí)模型的不斷完善。
(二) “開源模式”成為AIGC發(fā)展催化劑
在算法模型方面,AIGC的發(fā)展離不開開源模式的推動。以深度學(xué)習(xí)模型CLIP為例,開源模式加速CLIP模型的廣泛應(yīng)用,使之成為當(dāng)前最為先進(jìn)的圖像分類人工智能,并讓更多機(jī)器學(xué)習(xí)從業(yè)人員將CLIP模型嫁接到其他AI應(yīng)用。同時,當(dāng)前AIGC繪畫最熱門的應(yīng)用Stable Diffusion已經(jīng)正式開源(包括模型權(quán)重和代碼),這意味著任何用戶都可以以此建立針對特定文本到圖像的創(chuàng)作任務(wù)應(yīng)。Stable Diffusion的開源直接引發(fā)2022年下半年AIGC引發(fā)廣泛關(guān)注,短短幾個月時間內(nèi)出現(xiàn)大量二次開發(fā),從模型優(yōu)化到應(yīng)用拓展,大幅降低用戶使用AIGC進(jìn)行創(chuàng)作的門檻,提升創(chuàng)作效率,并長期長期霸占GitHub熱榜第一名。
在訓(xùn)練數(shù)據(jù)集方面,機(jī)器學(xué)習(xí)離不開大量數(shù)據(jù)學(xué)習(xí),LAION作為全球非盈利機(jī)器學(xué)習(xí)研究機(jī)構(gòu),在2022年3月開放了當(dāng)前規(guī)模最大的開源跨模態(tài)數(shù)據(jù)庫LAION-5B,使得近60億個“文本-圖像”對可以用來訓(xùn)練,從而進(jìn)一步加快AI圖像生成模型的成熟,幫助研究人員加快推動從文字到圖像的生成模型。正是CLIP和LAION的開源模式構(gòu)建起當(dāng)前AI圖像生成應(yīng)用的核心。未來,隨著模型穩(wěn)定,開源將成為AIGC成熟的催化劑,源模式有望讓相關(guān)模型成為海量應(yīng)用、網(wǎng)絡(luò)和服務(wù)的基礎(chǔ),應(yīng)用層面的創(chuàng)造力有望迎來拐點。
AIGC為創(chuàng)作領(lǐng)域帶來的效率與模式的創(chuàng)新
(一) AIGC工具屬性有助于效率提升
在捕捉靈感方面,AIGC可以幫助有經(jīng)驗的創(chuàng)作者捕捉靈感,創(chuàng)新互動形式。例如在游戲行業(yè),制作人靈感往往難以準(zhǔn)確表達(dá),與美術(shù)工作人員經(jīng)常由于溝通產(chǎn)生理解誤差。通過AIGC系統(tǒng)可以在設(shè)計初期,生成大量草圖,在此基礎(chǔ)上制作人與美術(shù)人員可以更好的理解并確認(rèn)彼此的需求。同時,創(chuàng)作靈感難以琢磨,可以提前通過AIGC來尋找“感覺”,進(jìn)一步降低美術(shù)創(chuàng)作者大量前期工作和項目成本。例如,制作人先構(gòu)建完整的背景故事后,由AIGC生成系列畫作,之后再由專業(yè)的美術(shù)人員進(jìn)行篩選、處理、整合,并將整個故事和畫面進(jìn)一步完善提升。
在提升效率方面,AIGC的出現(xiàn)將會讓創(chuàng)作者擁有一個更加高效的智能創(chuàng)作工具,在內(nèi)容創(chuàng)作環(huán)節(jié)進(jìn)行優(yōu)化,而非成為競爭對手。例如在極短的項目籌備時間內(nèi),AIGC可以大幅提升效率,驗證了AI投入到工業(yè)化使用的可行性。尤其是對于藝術(shù)、影視、廣告、游戲、編程等創(chuàng)意行業(yè)的從業(yè)者來說,可以輔助從業(yè)者進(jìn)行日常工作,并有望創(chuàng)造出更多驚艷的作品。同時,還可以進(jìn)一步降低成本和效率,為規(guī)?;a(chǎn)構(gòu)建市場增量。
(二) AIGC構(gòu)建創(chuàng)意與實現(xiàn)的分離
在創(chuàng)意構(gòu)思方面,AIGC構(gòu)建了新的創(chuàng)意完善通路,傳統(tǒng)的創(chuàng)作過程中消化、理解以及重復(fù)性工作將有望交由AIGC來完成,最終創(chuàng)意過程將變?yōu)椤皠?chuàng)意-AI-創(chuàng)意”的模式。
在創(chuàng)意實現(xiàn)方面,創(chuàng)作者和AIGC的關(guān)系類似于攝影師和照相機(jī)。攝影師構(gòu)建拍攝思路并進(jìn)行規(guī)劃,對相機(jī)進(jìn)行參數(shù)配置,但是不用了解相機(jī)的工作機(jī)制,一鍵生成高質(zhì)量的內(nèi)容。同樣的,創(chuàng)作者構(gòu)思并進(jìn)行規(guī)劃,對AI模型進(jìn)行參數(shù)配置,不需要了解模型的原理,直接點擊輸出內(nèi)容即可。創(chuàng)意和實現(xiàn)呈現(xiàn)出分離狀態(tài),實現(xiàn)過程變?yōu)橐环N可重復(fù)勞動,可以由AIGC來完成,并逐步將成本推向趨近于0。
(三) AIGC給創(chuàng)作者獲得更多收益帶來思路創(chuàng)新
創(chuàng)作者的成果是AIGC學(xué)習(xí)的對象,但創(chuàng)作者的創(chuàng)意才是關(guān)鍵,創(chuàng)意本身比AIGC生成的繪畫更有價值,因此如何將創(chuàng)作者的“創(chuàng)意”進(jìn)行量化,甚至定價,將有助于打造AIGC的商業(yè)模式。這其中“注意力機(jī)制”將成為AIGC潛在的量化載體。例如國內(nèi)有機(jī)構(gòu)專家提出,可以通過計算輸入文本中關(guān)鍵詞影響的繪畫面積和強(qiáng)度,我們就可以量化各個關(guān)鍵詞的貢獻(xiàn)度。之后根據(jù)一次生成費用與藝術(shù)家貢獻(xiàn)比例,就可以得到創(chuàng)作者生成的價值。最后在與平臺按比例分成,就是創(chuàng)作者理論上因貢獻(xiàn)創(chuàng)意產(chǎn)生的收益。
例如某AIGC平臺一周內(nèi)生成數(shù)十萬張作品,涉及這位創(chuàng)作者關(guān)鍵詞的作品有30000張,平均每張貢獻(xiàn)度為0.3,每張AIGC繪畫成本為0.5元,平臺分成30%,那么這位創(chuàng)作者本周在該平臺的收益為:30000*0.3*0.5*(1-30%)=3150元的收益,未來參與建立AI數(shù)據(jù)集將有望成為藝術(shù)家的新增收益。
(四) 從“大模型”到“大應(yīng)用”,探索可行商業(yè)模式
基于深度學(xué)習(xí)算法數(shù)據(jù)越多,模型魯棒性越強(qiáng)的特點,當(dāng)前的大模型規(guī)模只增不減,比拼規(guī)模已經(jīng)成為標(biāo)配。例如,Open AI推出的GPT-3參數(shù)已經(jīng)超過1750億個。但“數(shù)據(jù)投喂”并非一種技術(shù)路徑上的創(chuàng)新,更多的是在工程領(lǐng)域的微調(diào)。需要指出的是,模型規(guī)模越大,其實越難以在現(xiàn)實場景中落地部署。同時“海量數(shù)據(jù)”并不等同于“海量高質(zhì)量數(shù)據(jù)”,有可能會導(dǎo)致反向效果產(chǎn)生。
AIGC的發(fā)展離不開預(yù)訓(xùn)練大模型的不斷精進(jìn)。大模型雖然在很多領(lǐng)域都表現(xiàn)出良好的使用效果,但是這些效果作為展示甚至噱頭之后,很難形成良性的商業(yè)價值,與大模型的訓(xùn)練成本、基礎(chǔ)設(shè)施投入更是相差甚遠(yuǎn)。如何推動“大模型”向“大應(yīng)用”來轉(zhuǎn)變,正在成為關(guān)鍵的考驗。AIGC的破圈以及引發(fā)的關(guān)注,可以看到大模型商業(yè)化的潛力正在清晰化:一方面大模型企業(yè)可以根據(jù)C端用戶實際“按需提供服務(wù)”和商業(yè)轉(zhuǎn)化;另一方面帶動對云計算、云存儲的使用量上升。將AIGC從“嘗鮮試試看”變成大眾頻繁使用的需求,再到與具體行業(yè)和領(lǐng)域深度結(jié)合,依托我國豐富的產(chǎn)業(yè)需求和應(yīng)用場景,有望為大模型商業(yè)化和長期價值探索一條新路徑。
AIGC發(fā)展面臨的挑戰(zhàn)
Gartner預(yù)計,到2025年,生成式人工智能將占所有生成數(shù)據(jù)的10%。根據(jù)《Generative AI :A Creative New World》的分析,AIGC有潛力產(chǎn)生數(shù)萬億美元的經(jīng)濟(jì)價值。AIGC在引發(fā)全球關(guān)注的同時,知識產(chǎn)權(quán)、技術(shù)倫理將面臨諸多挑戰(zhàn)和風(fēng)險。同時AIGC距離通用人工智能還有較大的差距。
(一) AIGC引發(fā)“創(chuàng)造力”歸屬爭論
傳統(tǒng)印象中,人工智能在創(chuàng)造性工作領(lǐng)域與人類還無法進(jìn)行競爭,主要擅長的是計算、挖掘,聚焦在海量數(shù)據(jù)分析領(lǐng)域。人類更擅長的是創(chuàng)新,例如詩詞、設(shè)計、編程等需要創(chuàng)造性的事物上。與AI下棋相比,AI進(jìn)行繪畫創(chuàng)作給大眾帶來的沖擊更為明顯:棋類游戲具有明確的規(guī)則和定義,不需要AI具備創(chuàng)造性,但AIGC尤其是輸入文字就能進(jìn)行繪畫、視頻,讓沒有相關(guān)專業(yè)能力的人也可以制作出以假亂真的專業(yè)級別作品,則引發(fā)人們對自身引以為傲的“創(chuàng)造力”擔(dān)憂。AI不會替代創(chuàng)作者,但是可能會替代不會AI工具的創(chuàng)作者。
(二) 知識產(chǎn)權(quán)引發(fā)創(chuàng)作者擔(dān)憂
由于算法模型的進(jìn)一步完善和成本快速下降,AIGC大規(guī)模商業(yè)化成為現(xiàn)實,過去遙不可及的專業(yè)能力已經(jīng)具備從實驗室飛入尋常百姓家的可能。與此同時,AIGC的飛速發(fā)展和商業(yè)化應(yīng)用,除了對創(chuàng)作者造成沖擊外,也對大量依靠版權(quán)為主要營收的企業(yè)帶來沖擊。具體來看:
一方面,AIGC難以被稱為“作者”。根據(jù)我國《著作權(quán)法》的規(guī)定,作者只能是自然人、法人或非法人組織,很顯然AIGC不是被法律所認(rèn)可的權(quán)利主體,因此不能成為著作權(quán)的主體。但AIGC應(yīng)用對生成的圖片版權(quán)問題持有不同觀點,圖片屬于平臺、完全開源還是生成者,目前尚未形成統(tǒng)一意見。
另一方面,AIGC產(chǎn)生的“作品”尚存爭議。根據(jù)我國《著作權(quán)法》和《著作權(quán)法實施條例》的規(guī)定,作品是指文學(xué)、藝術(shù)和科學(xué)領(lǐng)域內(nèi)具有獨創(chuàng)性并能以某種有形形式復(fù)制的智力成果。AIGC的作品具有較強(qiáng)的隨機(jī)性和算法主導(dǎo)性,能夠準(zhǔn)確證明AIGC作品侵權(quán)的可能性較低。同時,AIGC是否具有獨創(chuàng)性目前難以一概而論,個案差異較大。
由于創(chuàng)作者每次新的創(chuàng)作都在無形中對AIGC進(jìn)行免費培訓(xùn),這讓眾多版權(quán)機(jī)構(gòu)產(chǎn)生巨大擔(dān)憂。目前已經(jīng)有大量藝術(shù)家和創(chuàng)作者宣布禁止AI學(xué)習(xí)自己的作品,從而保護(hù)自身知識產(chǎn)權(quán)。Getty Images、Newgrounds等網(wǎng)站也紛紛宣布禁止上傳和銷售AIGC作品。
(三) 距離通用人工智能還有較大差距
當(dāng)前熱門的AIGC系統(tǒng)雖然能夠快速生成圖像,但是這些系統(tǒng)是否能夠真正理解繪畫的含義,從而能夠根據(jù)這些含義進(jìn)行推力并決策,仍是未知數(shù)。
一方面,AIGC系統(tǒng)對輸入的文本和產(chǎn)生的圖像不能完全關(guān)聯(lián)起來。例如,用戶對AIGC系統(tǒng)進(jìn)行測試,輸入“騎著馬的宇航員”和“騎著宇航員的馬”內(nèi)容時,相關(guān)AIGC系統(tǒng)難以準(zhǔn)確生成對應(yīng)的圖像。因此,當(dāng)前的AIGC系統(tǒng)還并沒有深刻理解輸入文本和輸出圖像之間的關(guān)系。另一方面,AIGC系統(tǒng)難以了解生成圖像背后的世界。了解圖像背后的世界,是判斷AIGC是否具備通用人工智能的關(guān)鍵。目前來看,AIGC系統(tǒng)還難以達(dá)到相關(guān)的要求。比如,在Stable Diffusion 輸入“畫一個人,并把拿東西的部分變成紫色”,在接下來的九次測試過程中,只有一次成功完成,但準(zhǔn)確性還不高。顯然,Stable Diffusion 并不理解人的雙手是什么。
知名AI專家發(fā)出的調(diào)查也印證了同樣的觀點,有86.1%的人認(rèn)為當(dāng)前的AIGC系統(tǒng)對世界理解的并不多。持相同觀點的人還包括Stable Diffusion的首席執(zhí)行官。
(四) 創(chuàng)作倫理問題尚未有效解決
部分開源的AIGC項目,對生成的圖像監(jiān)管程度較低。一方面,部分?jǐn)?shù)據(jù)集系統(tǒng)利用私人用戶照片進(jìn)行AI訓(xùn)練,侵權(quán)人像圖片進(jìn)行訓(xùn)練的現(xiàn)象屢禁不止。這些數(shù)據(jù)集正式AIGC等圖片生成模型的訓(xùn)練集之一。例如,部分?jǐn)?shù)據(jù)集在網(wǎng)絡(luò)上抓取了大量病人就醫(yī)照片進(jìn)行訓(xùn)練,且沒有做任何打碼模糊處理,對用戶隱私保護(hù)堪憂。另一方面,一些用戶利用AIGC生成虛假名人照片等違禁圖片,甚至?xí)谱鞒霰┝托杂嘘P(guān)的畫作,LAION-5B數(shù)據(jù)庫包含色情、種族、惡意等內(nèi)容,目前海外已經(jīng)出現(xiàn)基于Stable Diffusion模型的色情圖片生成網(wǎng)站。
由于AI本身還不具備價值判斷能力,為此一些平臺已經(jīng)開始進(jìn)行倫理方面的限制和干預(yù)。例如DALL·E2已經(jīng)開始加強(qiáng)干預(yù),減少性別偏見的產(chǎn)生、防止訓(xùn)練模型生成逼真的個人面孔等。但相關(guān)法律法規(guī)的空白和AIGC應(yīng)用研發(fā)者本身的不重視將引發(fā)對AI創(chuàng)作倫理的擔(dān)憂。
AIGC的未來發(fā)展
AIGC技術(shù)的未來發(fā)展前景廣闊,隨著人工智能技術(shù)的不斷發(fā)展,AIGC技術(shù)也將不斷提高。未來,AIGC技術(shù)將在游戲和計算領(lǐng)域得到更廣泛的應(yīng)用,使游戲和計算系統(tǒng)具有更高效、更智能、更靈活的特性。同時,AIGC技術(shù)也將與人工智能技術(shù)緊密結(jié)合,在更多的領(lǐng)域得到廣泛應(yīng)用。
AIGC技術(shù)是一個非常重要的人工智能技術(shù),其核心技術(shù)包括機(jī)器學(xué)習(xí)、計算機(jī)視覺、自然語言處理等多個方面。AIGC技術(shù)的應(yīng)用領(lǐng)域非常廣泛,包括游戲開發(fā)、數(shù)據(jù)分析、計算機(jī)圖形學(xué)、自動控制等多個領(lǐng)域。雖然AIGC技術(shù)具有很多優(yōu)勢,但也存在一些技術(shù)問題和潛在問題,需要得到重視和解決。
AIGC技術(shù)將繼續(xù)得到提高,同時也將與人工智能技術(shù)緊密結(jié)合,在更多的領(lǐng)域得到廣泛應(yīng)用。我們需要制定相應(yīng)的技術(shù)政策和法規(guī),以確保AIGC技術(shù)的健康發(fā)展,為我們提供更加智能、高效、靈活的游戲和計算系統(tǒng),同時也為人類社會的發(fā)展提供重要的技術(shù)支持。
未來AI領(lǐng)域?qū)⑹恰熬呱碇悄堋钡奶煜?/p>
具身智能翻譯于英文embodied AI,字面意思就是具有身體的人工智能。簡單點說,就是能理解、推理、并與物理世界互動的智能系統(tǒng)。而搭載具身智能技術(shù)的“智能體”則具備自主決策和行動能力的機(jī)器智能,它可以像人類一樣感知和理解環(huán)境,通過自主學(xué)習(xí)和適應(yīng)性行為來完成任務(wù)。
谷歌“史上最大‘通才’AI模型”能引起業(yè)內(nèi)轟動——它無需預(yù)先處理的場景,因此也不用人類對相關(guān)數(shù)據(jù)進(jìn)行預(yù)處理或注釋。只需要一句簡單的指令,便可實現(xiàn)更為自主的機(jī)器人控制。更重要的是,PaLM-E生成的行動計劃還具有“彈性”,即可對周圍環(huán)境變化作出相應(yīng)反應(yīng)。
實現(xiàn)通用人工智能是行業(yè)的一大愿景。但人工智能中集成了太多概念,其中一些概念難以被測量或驗證。而正如上海交通大學(xué)教授盧策吾所說的那樣,雖然人工智能能給你輸出一個表征,但很難檢驗它們是否真的理解了這些概念。“所以我們可以先在一些可驗證、可測量的概念上面做出個閉環(huán)。而具身智能剛好是這樣一個閉環(huán),這樣的具身智能可能是邁向通用智能的一個很好的起點,因為它可測量、可解釋、可檢驗?!?/p>
具身智能指的是智能體通過與環(huán)境產(chǎn)生交互后,通過自身的學(xué)習(xí),產(chǎn)生對于客觀世界的理解和改造能力。
換言之,一個具身智能機(jī)器人需要:首先聽懂人類語言,之后分解任務(wù)、規(guī)劃子任務(wù),移動中識別物體,與環(huán)境交互,最終完成相應(yīng)任務(wù)。
若想要實現(xiàn)具身智能,離不開多個學(xué)科的交叉互助:
1)機(jī)器人學(xué)為具身智能提供機(jī)械身體和基本運動控制;
2)深度學(xué)習(xí)中的神經(jīng)網(wǎng)絡(luò)是具身智能中主要工具;
3)強(qiáng)化學(xué)習(xí)是具身智能機(jī)器人的主要學(xué)習(xí)手段之一;
4)機(jī)器視覺給具身智能提供了處理視覺信號的能力;
5)計算機(jī)圖形學(xué)開發(fā)的物理仿真環(huán)境為具身智能提供了真實物理世界的替代;
6)自然語言給具身智能帶來了與人類交流、從自然文本中學(xué)習(xí)的可能;
7)認(rèn)知科學(xué)進(jìn)一步幫助具身智能體理解人類、構(gòu)建認(rèn)知和價值。
就目前的發(fā)展趨勢來看,可以說,未來,人工智能領(lǐng)域?qū)⑹恰熬呱碇悄堋钡奶煜拢褪且獎?chuàng)建軟硬件結(jié)合的智能體。它能夠像“生命體”一樣,既可通過與環(huán)境的互動學(xué)習(xí)不斷進(jìn)化,也可通過“遺傳”把進(jìn)化成果遺傳給下一代,從而進(jìn)化成越來越高級的智能體。
如今,隨著一套新的虛擬世界的建立和運行,具身智能體已經(jīng)開始發(fā)揮這種潛力,在他們的新環(huán)境中取得了重大進(jìn)展。不過,從人工智能到具身智能,未來還要有很長的路要走。但是毫無疑問,這也是人類科技的必由之路,期待具身智能為人類帶來新一輪的科技變革。
審核編輯 :李倩
-
機(jī)器人
+關(guān)注
關(guān)注
211文章
28506瀏覽量
207492 -
人工智能
+關(guān)注
關(guān)注
1792文章
47422瀏覽量
238943 -
AIGC
+關(guān)注
關(guān)注
1文章
363瀏覽量
1559
原文標(biāo)題:技術(shù)與市場:為具身智能突破技術(shù)瓶頸:AIGC
文章出處:【微信號:AIOT大數(shù)據(jù),微信公眾號:AIOT大數(shù)據(jù)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論