我們決定忽略顯而易見的事情。我們知道,大型語言模型將繼續(xù)占據(jù)主導(dǎo)地位。監(jiān)管機(jī)構(gòu)將變得更加大膽。人工智能的問題——從偏見到版權(quán)再到末日論——將影響研究人員、監(jiān)管機(jī)構(gòu)和公眾的議程,不僅在 2024 年,而且在未來幾年。
相反,我們挑選了一些更具體的趨勢。以下是 2024 年需要注意的事項(xiàng)。
1. 定制聊天機(jī)器人
你會(huì)得到一個(gè)聊天機(jī)器人!你會(huì)得到一個(gè)聊天機(jī)器人!到2024年,在生成式人工智能方面投入巨資的科技公司將面臨壓力,需要證明他們可以從他們的產(chǎn)品中賺錢。為此,人工智能巨頭谷歌(Google)和OpenAI正在大舉押注:兩家公司都在開發(fā)用戶友好的平臺(tái),允許人們定制強(qiáng)大的語言模型,并制作自己的迷你聊天機(jī)器人來滿足他們的特定需求,而無需編碼技能。兩家公司都推出了基于網(wǎng)絡(luò)的工具,允許任何人成為生成式人工智能應(yīng)用程序開發(fā)人員。
到 2024 年,生成式 AI 實(shí)際上可能對(duì)普通的非技術(shù)人員有用,我們將看到更多的人修補(bǔ)一百萬個(gè)小 AI 模型。最先進(jìn)的 AI 模型,如 GPT-4 和 Gemini,是多模態(tài)的,這意味著它們不僅可以處理文本,還可以處理圖像甚至視頻。這項(xiàng)新功能可以解鎖一大堆新應(yīng)用程序。例如,房地產(chǎn)經(jīng)紀(jì)人可以上傳以前房源中的文本,只需單擊一個(gè)按鈕即可微調(diào)強(qiáng)大的模型以生成類似的文本,上傳新房源的視頻和照片,只需讓定制的 AI 生成房產(chǎn)描述。
但是,當(dāng)然,這個(gè)計(jì)劃的成功取決于這些模型是否可靠地工作。語言模型經(jīng)常會(huì)編造一些東西,而生成模型則充滿了偏見。它們也很容易被黑客入侵,特別是如果它們被允許瀏覽網(wǎng)頁??萍脊具€沒有解決這些問題。當(dāng)新奇感消失時(shí),他們將不得不為客戶提供處理這些問題的方法。
2. 生成式人工智能的第二波浪潮將是視頻
令人驚訝的是,夢(mèng)幻般的事物變得如此迅速。2022 年,第一批生成逼真圖像的生成模型成為主流,并很快變得司空見慣。OpenAI 的 DALL-E、Stability AI 的 Stable Diffusion 和 Adobe 的 Firefly 等工具充斥著互聯(lián)網(wǎng)上令人瞠目結(jié)舌的圖片,從巴黎世家的教皇到獲獎(jiǎng)藝術(shù),應(yīng)有盡有。但這并不全是好玩的:對(duì)于每一個(gè)揮舞著絨球的哈巴狗來說,還有另一件仿冒的幻想藝術(shù)或性別歧視的性別刻板印象。新的領(lǐng)域是文本到視頻。期望它把所有關(guān)于文本到圖像的好的、壞的或丑陋的東西都放大。
一年前,我們第一次看到了生成模型在訓(xùn)練將多個(gè)靜止圖像拼接成幾秒鐘長的剪輯時(shí)可以做什么。結(jié)果是扭曲和生澀的。但技術(shù)已經(jīng)迅速改進(jìn)。
Runway是一家制作生成視頻模型的初創(chuàng)公司(以及共同創(chuàng)建Stable Diffusion的公司),每隔幾個(gè)月就會(huì)發(fā)布其工具的新版本。它的最新型號(hào)稱為Gen-2,仍然生成只有幾秒鐘長的視頻,但質(zhì)量是驚人的。 最好的剪輯離皮克斯可能推出的并不遙遠(yuǎn)。
Runway 設(shè)立了一年一度的 AI 電影節(jié),展示使用一系列 AI 工具制作的實(shí)驗(yàn)電影。今年的電影節(jié)有60,000美元的獎(jiǎng)金,10部最佳電影將在紐約和洛杉磯放映。 頂級(jí)工作室注意到這一點(diǎn)也就不足為奇了。包括派拉蒙和迪士尼在內(nèi)的電影巨頭現(xiàn)在正在探索在其制作流程中使用生成式人工智能。該技術(shù)被用于對(duì)演員的表演進(jìn)行口型同步,以配音多個(gè)外語配音。它正在重塑特效的可能性。2023 年,《印第安納瓊斯與命運(yùn)轉(zhuǎn)盤》由一位衰老的深度偽造哈里森福特主演。這僅僅是個(gè)開始。
在大銀幕之外,用于營銷或培訓(xùn)目的的深度偽造技術(shù)也在起飛。例如,總部位于英國的 Synthesia 開發(fā)的工具可以將演員的一次性表演變成源源不斷的深度偽造化身,只需按一下按鈕即可背誦您給他們的任何劇本。據(jù)該公司稱,其技術(shù)現(xiàn)在被 44% 的財(cái)富 100 強(qiáng)公司使用。
用這么少的東西做這么多事情的能力給演員帶來了嚴(yán)重的問題。對(duì)工作室使用和濫用人工智能的擔(dān)憂是去年SAG-AFTRA罷工的核心。但這項(xiàng)技術(shù)的真正影響才剛剛顯現(xiàn)出來?!半娪爸谱鞯墓に囌诎l(fā)生根本性的變化,”獨(dú)立電影制片人、專門從事創(chuàng)意技術(shù)咨詢公司Bell & Whistle的聯(lián)合創(chuàng)始人Souki Mehdaoui說。
3. AIGC的選舉虛假信息將無處不在
如果最近的選舉有什么可取之處,那么人工智能生成的選舉虛假信息和深度偽造將是一個(gè)巨大的問題,因?yàn)?2024 年將有創(chuàng)紀(jì)錄的人數(shù)參加投票。我們已經(jīng)看到政客們將這些工具武器化。在阿根廷,兩名總統(tǒng)候選人創(chuàng)建了人工智能生成的對(duì)手圖像和視頻來攻擊他們。在斯洛伐克,一位自由派親歐洲政黨領(lǐng)導(dǎo)人威脅要提高啤酒價(jià)格,并拿兒童色情制品開玩笑,在該國選舉期間像野火一樣傳播開來。在美國,唐納德·特朗普(Donald Trump)為一個(gè)使用人工智能生成帶有種族主義和性別歧視比喻的迷因(memes)的團(tuán)體歡呼。
雖然很難說這些例子對(duì)選舉結(jié)果有多大影響,但它們的擴(kuò)散是一個(gè)令人擔(dān)憂的趨勢。在網(wǎng)上識(shí)別什么是真實(shí)的將變得比以往任何時(shí)候都更難。在已經(jīng)激化和兩極分化的政治氣候中,這可能會(huì)產(chǎn)生嚴(yán)重后果。
就在幾年前,創(chuàng)建深度偽造需要先進(jìn)的技術(shù)技能,但生成式人工智能使它變得非常容易和容易獲得,而且輸出看起來越來越逼真。即使是信譽(yù)良好的來源也可能被人工智能生成的內(nèi)容所愚弄。例如,用戶提交的人工智能生成的圖像,旨在描繪以色列-加沙危機(jī),已經(jīng)充斥著像Adobe這樣的庫存圖像市場。
對(duì)于那些與此類內(nèi)容擴(kuò)散作斗爭的人來說,來年將是關(guān)鍵的一年。跟蹤和緩解其內(nèi)容的技術(shù)仍處于開發(fā)的早期階段。水印,例如 Google DeepMind 的 SynthID,仍然大多是自愿的,并非完全萬無一失。眾所周知,社交媒體平臺(tái)在刪除錯(cuò)誤信息方面進(jìn)展緩慢。準(zhǔn)備好進(jìn)行大規(guī)模的實(shí)時(shí)實(shí)驗(yàn),以破壞人工智能生成的假新聞。
4. 多任務(wù)機(jī)器人
受到生成式人工智能當(dāng)前繁榮背后的一些核心技術(shù)的啟發(fā),機(jī)器人專家開始構(gòu)建更多可以執(zhí)行更廣泛任務(wù)的通用機(jī)器人。在過去的幾年里,人工智能已經(jīng)從使用多個(gè)小模型(每個(gè)模型被訓(xùn)練來執(zhí)行不同的任務(wù)——識(shí)別圖像、繪制圖像、為它們添加標(biāo)題)轉(zhuǎn)向單個(gè)、單一的單體模型,這些模型經(jīng)過訓(xùn)練可以完成所有這些事情,甚至更多。通過向 OpenAI 的 GPT-3 展示一些額外的示例(稱為微調(diào)),研究人員可以訓(xùn)練它解決編碼問題、編寫電影腳本、通過高中生物學(xué)考試等。多模態(tài)模型,如 GPT-4 和 Google DeepMind 的 Gemini,可以解決視覺任務(wù)和語言任務(wù)。同樣的方法也適用于機(jī)器人,因此沒有必要訓(xùn)練一個(gè)機(jī)器人翻轉(zhuǎn)煎餅,另一個(gè)機(jī)器人打開門:一個(gè)放之四海而皆準(zhǔn)的模型可以讓機(jī)器人能夠同時(shí)處理多項(xiàng)任務(wù)。2023 年出現(xiàn)了該領(lǐng)域的幾個(gè)工作實(shí)例。今年6月,DeepMind發(fā)布了Robocat(去年Gato的更新),它通過反復(fù)試驗(yàn)生成自己的數(shù)據(jù),以學(xué)習(xí)如何控制許多不同的機(jī)器人手臂(而不是更典型的一個(gè)特定手臂)。今年10月,該公司與33個(gè)大學(xué)實(shí)驗(yàn)室合作,推出了另一個(gè)通用機(jī)器人模型RT-X,以及一個(gè)大型的新通用訓(xùn)練數(shù)據(jù)集。其他頂級(jí)研究團(tuán)隊(duì),如加州大學(xué)伯克利分校的RAIL(機(jī)器人人工智能和學(xué)習(xí)),正在研究類似的技術(shù)。
問題是缺乏數(shù)據(jù)。生成式 AI 利用互聯(lián)網(wǎng)大小的文本和圖像數(shù)據(jù)集。相比之下,機(jī)器人很少有好的數(shù)據(jù)來源來幫助它們學(xué)習(xí)如何完成我們希望它們完成的許多工業(yè)或家庭任務(wù)。
紐約大學(xué)的勒雷爾·平托(Lerrel Pinto)領(lǐng)導(dǎo)了一個(gè)團(tuán)隊(duì)來解決這個(gè)問題。他和他的同事們正在開發(fā)技術(shù),讓機(jī)器人通過反復(fù)試驗(yàn)來學(xué)習(xí),并隨時(shí)提出自己的訓(xùn)練數(shù)據(jù)。在一個(gè)更加低調(diào)的項(xiàng)目中,平托招募了志愿者,使用安裝在垃圾撿拾器上的iPhone攝像頭從他們家中收集視頻數(shù)據(jù)。在過去的幾年里,大公司也開始發(fā)布用于訓(xùn)練機(jī)器人的大型數(shù)據(jù)集,例如 Meta 的 Ego4D。
這種方法已經(jīng)在無人駕駛汽車中顯示出前景。Wayve、Waabi 和 Ghost 等初創(chuàng)公司正在引領(lǐng)新一波自動(dòng)駕駛 AI,它使用單個(gè)大型模型來控制車輛,而不是多個(gè)小型模型來控制特定的駕駛?cè)蝿?wù)。這讓小公司趕上了 Cruise 和 Waymo 等巨頭。Wayve現(xiàn)在正在倫敦狹窄繁忙的街道上測試其無人駕駛汽車。世界各地的機(jī)器人都將獲得類似的推動(dòng)力。
審核編輯:劉清
-
人工智能
+關(guān)注
關(guān)注
1791文章
47314瀏覽量
238643 -
GPT
+關(guān)注
關(guān)注
0文章
354瀏覽量
15402 -
聊天機(jī)器人
+關(guān)注
關(guān)注
0文章
339瀏覽量
12314 -
OpenAI
+關(guān)注
關(guān)注
9文章
1092瀏覽量
6541 -
AIGC
+關(guān)注
關(guān)注
1文章
362瀏覽量
1550
原文標(biāo)題:MIT科技評(píng)論:2024 年 AI 的四大熱門趨勢
文章出處:【微信號(hào):軟件質(zhì)量報(bào)道,微信公眾號(hào):軟件質(zhì)量報(bào)道】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論