0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

解析AI Agent的發(fā)展現(xiàn)狀和技術(shù)難點(diǎn)

jf_WZTOguxH ? 來(lái)源:AI前線 ? 2023-12-05 15:33 ? 次閱讀

AIGC 時(shí)代,AI Agent 無(wú)疑是一個(gè)新沸點(diǎn)。AI Agent(人工智能體)是一種能夠感知環(huán)境、進(jìn)行決策和執(zhí)行動(dòng)作的智能實(shí)體。不同于傳統(tǒng)的人工智能,AI Agent 具備通過(guò)獨(dú)立思考、調(diào)用工具去逐步完成給定目標(biāo)的能力。

AI Agent 和大模型的區(qū)別在于,大模型與人類之間的交互是基于 Prompt 實(shí)現(xiàn)的,用戶 Prompt 是否清晰明確會(huì)影響大模型回答的效果。而 AI Agent 的工作僅需給定一個(gè)目標(biāo),它就能夠針對(duì)目標(biāo)獨(dú)立思考并做出行動(dòng)。

從原理上說(shuō),AI Agent 的核心驅(qū)動(dòng)力是大模型,在此基礎(chǔ)上增加規(guī)劃(Planning)、記憶(Memory)和工具使用(Tool Use)三個(gè)關(guān)鍵組件。那么,這種 AI Agent 到底是什么?該如何定義?AI Agent 的發(fā)展現(xiàn)狀和技術(shù)難點(diǎn)是什么?將帶來(lái)哪些機(jī)遇和變革?帶著這些問(wèn)題,我們邀請(qǐng)到了美國(guó)五百?gòu)?qiáng)公司高級(jí)數(shù)據(jù)科學(xué)家王元,與他一起探討 AI Agent 的發(fā)展現(xiàn)狀和技術(shù)難點(diǎn)。

以下為訪談實(shí)錄,經(jīng)編輯。

InfoQ:大家晚上好,歡迎來(lái)到 InfoQ《極客有約》的直播間。在本期直播中,我們有幸邀請(qǐng)到了美國(guó) 500 強(qiáng)公司的高級(jí)數(shù)據(jù)科學(xué)家,王元老師,為我們分享他的專業(yè)見(jiàn)解。今天的直播主題聚焦于解析 AI agent 的發(fā)展現(xiàn)狀以及一些基礎(chǔ)難點(diǎn)?,F(xiàn)在,請(qǐng)讓我們熱烈歡迎王元老師,讓他為大家做一下自我介紹。

王元:大家好,我是王元,可能名字在一起是個(gè)“玩”字,所以對(duì)于流行的技術(shù)和項(xiàng)目,我一直充滿了好奇心,探尋它們的原因有一部分是因?yàn)槲业墓ぷ餍枰?,另一部分則是源于我個(gè)人對(duì)這個(gè)領(lǐng)域的熱愛(ài)。我已經(jīng)從事人工智能領(lǐng)域?qū)⒔?10 年了。近些年,AI 技術(shù)的迭代速度非???,基本上每 3 到 5 年就經(jīng)歷一次全新的學(xué)習(xí)過(guò)程。我很高興收到 QCon 主辦方的邀請(qǐng),能夠在這個(gè)平臺(tái)上與大家一同學(xué)習(xí)和交流。希望通過(guò)今天的分享,能夠?yàn)榇蠹規(guī)?lái)一些有趣的見(jiàn)解。

InfoQ:王元老師也是我們QCon 大會(huì)上海站的特邀講師,大家可以關(guān)注大會(huì)官網(wǎng)了解詳情。我了解到王老師您您一直從事與 AI 相關(guān)的工作,想請(qǐng)問(wèn)下您是如何看待最近兩年 AIGC 引發(fā)的技術(shù)變革的?

王元:首先要強(qiáng)調(diào)的是技術(shù)的變革非常大,特別是從去年到今年,大約一年到一年半的時(shí)間。從 AIGC 的角度來(lái)看,我認(rèn)為可能存在兩個(gè)重要的方向。首先是圖生成和文生成,這涉及到從生成式模型如 VAE 一直發(fā)展到 GAN,現(xiàn)在又到了擴(kuò)散模型,這個(gè)迭代速度非???。

有一個(gè)具有歷史意義的事件是在 2022 年 8 月,使用擴(kuò)散模型創(chuàng)作的《太空歌劇院》,這件作品在美國(guó)科羅納州博覽會(huì)上獲得了數(shù)字藝術(shù)創(chuàng)作一等獎(jiǎng)。這是第一次 AI 創(chuàng)作達(dá)到如此專業(yè)水平。這展示了在圖生成方向的擴(kuò)展模型的潛力。

另一方面,從我們處理大語(yǔ)言模型的角度來(lái)看,可以想象從 2018 年開(kāi)始,隨著 Bert 模型和 Transformer 架構(gòu)的出現(xiàn),這個(gè)領(lǐng)域變得一發(fā)不可收拾。今年是一個(gè)巨大的改變,GPT-3.5 和 GPT-4 的出現(xiàn)使以 OpenAI 為代表的這種架構(gòu)的模型一夜之間風(fēng)靡全球。如果你曾使用過(guò) OpenAI 的 ChatGPT 產(chǎn)品,你應(yīng)該能夠親身感受到其智能水平的逐漸提高。這是一個(gè)巨大的變化,因?yàn)閺囊郧暗?Bert 模型這種雙向的架構(gòu),到現(xiàn)在的 GPT 系列完全是解碼器結(jié)構(gòu),而且越來(lái)越出色。從模型結(jié)構(gòu)的角度來(lái)看,這也是一個(gè)巨大的變化。

除了這兩個(gè)核心方向上的算法層面的變革,還有一些周邊技術(shù)的變化,這些變化也是由大模型算法引起的。例如,向量數(shù)據(jù)庫(kù)可能在大模型時(shí)代之前并不受重視,但現(xiàn)在對(duì)于從事數(shù)據(jù)庫(kù)工作的人來(lái)說(shuō),向量數(shù)據(jù)庫(kù)公司的融資額在今年顯著增加。這表明 AIGC 帶來(lái)的算法變革也引發(fā)了周邊技術(shù)的演進(jìn),帶來(lái)了許多新的機(jī)會(huì)。因此,我認(rèn)為 AIGC 可能比我們想象的通用人工智能到來(lái)得更快。以前我們可能想象需要 30 年,但現(xiàn)在也許只需要十年,我們就能看到一些顯著變化。

AI Agent 到底是什么?

InfoQ:向量數(shù)據(jù)庫(kù)今年確實(shí)非常受關(guān)注,就連很多傳統(tǒng)的數(shù)據(jù)庫(kù)也增加了向量功能。那回到我們今天的話題 AI Agent,您能先跟我們聊聊到底什么是 AI Agent 嗎?它的定義是什么?

王元:AI Agent 這項(xiàng)技術(shù)可以說(shuō)是建立在大語(yǔ)言模型之上的一種全新技術(shù)。我們擁有了大語(yǔ)言模型之后,大家發(fā)現(xiàn)除了微調(diào)之外,還可以進(jìn)行所謂的上下文學(xué)習(xí)。于是,引入了一個(gè)新的概念,即在處理問(wèn)題時(shí)的“提示工程”。AI Agent 將這個(gè)概念更抽象地引入了一個(gè)新的維度。在學(xué)術(shù)前沿,通常會(huì)認(rèn)為 Agent 是一個(gè)可以感知環(huán)境并能夠基于當(dāng)前場(chǎng)景做出決策的“智能體”。它是完全自動(dòng)的,但我更愿意將其稱為“agent framework”,即一個(gè)框架。這個(gè)框架是抽象的,能夠根據(jù)具體的場(chǎng)景做出決策,然后執(zhí)行,之后能夠保持自主狀態(tài)。

實(shí)際上,它將大語(yǔ)言模型從一個(gè)無(wú)狀態(tài)的 API 轉(zhuǎn)變?yōu)橐粋€(gè)具有狀態(tài)的工具。我舉一個(gè)通俗易懂的例子,Agent 的本質(zhì)是教大模型一些思考方法論,就好像你已經(jīng)有了知識(shí),但可能缺乏思考的方法。因此,Agent 通過(guò)一個(gè)框架傳授方法論,這個(gè)框架具有一些具體模塊,支持整個(gè)結(jié)構(gòu)的運(yùn)行。比如我們?cè)诔踔小⒏咧忻媾R考試時(shí)需要在規(guī)定的時(shí)間內(nèi)盡量回答問(wèn)題,取得高分是我們的目標(biāo)。在這里,大語(yǔ)言模型相當(dāng)于提供具體問(wèn)題的真實(shí)知識(shí)。

例如,當(dāng)你遇到選擇題時(shí),讀完題目后,你確實(shí)能夠理解問(wèn)題是什么,然后根據(jù)你的知識(shí)回答問(wèn)題。這種思維方式可以被認(rèn)為是大語(yǔ)言模型的正向思維。然而,在考試中我們可能會(huì)遇到一些復(fù)雜的問(wèn)題,這些問(wèn)題可能不容易立即解決。如果我們只有一種正向解題的思維方式,可能會(huì)陷入困境。這時(shí),如果我們掌握了一些方法論,比如使用排除法,就能采用一種不同的思維方式,而非只依賴正向解題。通過(guò)排除法,我們或許能夠確定答案。這就是方法論的一種體現(xiàn)。另外,當(dāng)面臨困難題時(shí),我們可能會(huì)選擇暫時(shí)跳過(guò),轉(zhuǎn)而解答后面的題目。這同樣是一種方法論的應(yīng)用,而這在正向思維中是不常見(jiàn)的。將這些思維方式以某種方式交給大語(yǔ)言模型后,它就擁有了這種思維的方法論。因?yàn)橛辛诉@些方法論,它在解決具體問(wèn)題時(shí)可能比正向推導(dǎo)更高效,可以處理更廣泛的問(wèn)題。

InfoQ:這是否表明 AI Agent 更接近通用人工智能呢?

AI Agent 技術(shù)難點(diǎn)和應(yīng)用場(chǎng)景

王元:可以這么理解。AI Agent 將大語(yǔ)言模型提升到一個(gè)更高的水平,使其更接近我們所謂的通用人工智能的目標(biāo)方向。

InfoQ:AI Agent 技術(shù)難點(diǎn)有哪些?

王元:AI Agent 作為一項(xiàng)相對(duì)新的技術(shù),正在迅速發(fā)展。估計(jì)今年到目前為止,AI Agent 相關(guān)的論文可能已經(jīng)超過(guò) 100 篇。盡管技術(shù)仍在快速發(fā)展,但目前在學(xué)術(shù)界和行業(yè)界已經(jīng)形成了一個(gè)共識(shí),即該技術(shù)主要包括四個(gè)基本模塊。

第一個(gè)基本模塊是角色設(shè)定。這意味著 AI Agent 希望在執(zhí)行任務(wù)時(shí),需要像人一樣關(guān)注相關(guān)的背景信息和任務(wù)的要求。這可以被視為一種角色設(shè)定的數(shù)據(jù)組。

第二個(gè)模塊是內(nèi)存,用于獲取信息,分為短期和長(zhǎng)期內(nèi)存。短期內(nèi)存類似于模型的上下文,而長(zhǎng)期內(nèi)存則可能是通過(guò)向量數(shù)據(jù)庫(kù)等外部來(lái)源獲取的信息。

第三個(gè)模塊是規(guī)劃,它類似于人在解決問(wèn)題時(shí)將其分解為子問(wèn)題并逐個(gè)解決的方法。這可以被理解為一個(gè)專門的規(guī)劃模塊,用于將問(wèn)題分解成可解決的子問(wèn)題或子目標(biāo)。

最后一個(gè)模塊是執(zhí)行,涉及到與環(huán)境的交互。這可以包括調(diào)用 API、調(diào)用其他模塊或執(zhí)行具體的動(dòng)作,具體取決于任務(wù)的性質(zhì)。

AI Agent 作為基于大語(yǔ)言模型的技術(shù),面臨一些難點(diǎn)。首要難點(diǎn)是底層技術(shù),因?yàn)樗^承了大語(yǔ)言模型的一些問(wèn)題,比如“幻覺(jué)”問(wèn)題。此外,對(duì)于底層基礎(chǔ)模塊的質(zhì)量和性能,包括調(diào)用圖像識(shí)別等模型,也會(huì)直接影響到上層建筑的性能。其次,Agnet 各個(gè)模塊之間的交互和運(yùn)行可能會(huì)產(chǎn)生許多中間結(jié)果和狀態(tài),這也帶來(lái)了一些技術(shù)挑戰(zhàn)。例如,處理中間結(jié)果的魯棒性是一個(gè)問(wèn)題,下層模塊的性能和質(zhì)量會(huì)直接影響上層模塊的執(zhí)行。最后,從應(yīng)用層角度看,雖然 AI Agent 的能力得到了提升,但這也伴隨著一些代價(jià),比如用戶與大語(yǔ)言模型進(jìn)行多次交互可能引入時(shí)間和成本的問(wèn)題等。

InfoQ:目前,AI Agent 的應(yīng)用場(chǎng)景普遍集中在哪里,為什么是這些場(chǎng)景?

王元:關(guān)于 AI Agent 的發(fā)展,我認(rèn)為可以從兩個(gè)場(chǎng)景來(lái)考慮。首先,如果我們關(guān)注用戶場(chǎng)景,我們會(huì)發(fā)現(xiàn)有一些場(chǎng)景是具有交互性質(zhì)的。例如,智能機(jī)器人問(wèn)答式交互,這與 AI Agent 的迭代性質(zhì)天生匹配。在這種情境下,對(duì)于一些簡(jiǎn)單的任務(wù),比如購(gòu)買火車票或解決企業(yè)內(nèi)部 IT 服務(wù)的問(wèn)題,任務(wù)型機(jī)器人的應(yīng)用效果較好。這種機(jī)器人專注于解決用戶的具體任務(wù),其場(chǎng)景相對(duì)較為集中。在這種簡(jiǎn)單場(chǎng)景下,使用 AI Agent 是明智的選擇,并且相對(duì)容易維護(hù)。

另一種場(chǎng)景是用戶感覺(jué)是線性執(zhí)行的,例如文檔智能類的應(yīng)用。比如,一家支付公司要求用戶在開(kāi)戶時(shí)提交身份證明,這是一個(gè)局限性的任務(wù),不需要與用戶進(jìn)行過(guò)多的交互。在這種場(chǎng)景下,前臺(tái)是單向的,但后臺(tái)可以利用 AI Agent 更好地執(zhí)行,這種情況相較于原有的流水線,AI Agnet 更為高效。因?yàn)樵?AI Agent 中,有一些特定的分類方法,比如來(lái)自 Multipath Agent 的應(yīng)用。Multipath Agent 采用多通道的方式,可以在多個(gè)階段或通道上執(zhí)行操作,而不僅僅是在單一樣本上執(zhí)行。這種多通道的設(shè)計(jì)有助于提高性能,因?yàn)樗试S Agent 在處理任務(wù)時(shí)進(jìn)行更深入和全面的分析,通過(guò)多個(gè)步驟逐漸提煉信息,從而更有效地完成復(fù)雜的任務(wù)。

總的來(lái)說(shuō),對(duì)于這些場(chǎng)景,如果不考慮成本,特別是對(duì)延時(shí)要求相對(duì)較低的情況,AI Agent 是可以應(yīng)用的。然而,在實(shí)際商業(yè)上應(yīng)用時(shí)可能由于其成本較高,需要企業(yè)權(quán)衡利弊,綜合考慮技術(shù)優(yōu)勢(shì)和商業(yè)投入產(chǎn)出比,確保使用 AI Agent 是合理而有吸引力的選擇。

InfoQ:您提到 AI Agent 是一個(gè)相對(duì)較新的概念,對(duì)于如何評(píng)估這項(xiàng)技術(shù)的好壞,業(yè)內(nèi)是否存在用于判斷 AI Agent 效果的標(biāo)準(zhǔn)呢?

王元:當(dāng)評(píng)估 AI Agent 的效果時(shí),可以從多個(gè)角度考慮,業(yè)界通常采用以下幾種方法進(jìn)行評(píng)測(cè)。每個(gè)公司或研究機(jī)構(gòu)可能使用的方法略有不同,但總體來(lái)說(shuō)有以下幾個(gè)方向。

1. 主觀評(píng)估:在沒(méi)有數(shù)據(jù)和人工標(biāo)注的情況下,初始階段可能需要進(jìn)行主觀評(píng)估。這包括請(qǐng)專家對(duì) AI 的回答進(jìn)行人工評(píng)分,或者將問(wèn)題設(shè)計(jì)成圖靈測(cè)試,讓專家分辨 AI 生成的答案和人類的答案。這種評(píng)估方法以人類能力作為基線,但由于涉及人工評(píng)分,成本相對(duì)較高。

2. 端到端任務(wù)評(píng)估:如果有一定的數(shù)據(jù),可以基于端到端任務(wù)的指標(biāo)來(lái)評(píng)估 AI Agent 的性能。例如,在文檔智能領(lǐng)域,可以關(guān)注 OCR 提取的準(zhǔn)確率等具體任務(wù)指標(biāo)。這種方法側(cè)重于任務(wù)的具體要求,更注重 AI Agent 在特定領(lǐng)域的表現(xiàn)。

3. 通用數(shù)據(jù)集評(píng)估:目前常用的是一些通用數(shù)據(jù)集,如 ALFWorld、HotPotQA 和 HumanEval 等,用于測(cè)試 AI Agent 在決策、問(wèn)答和編程等多個(gè)方向的性能。這種方法強(qiáng)調(diào)綜合性能,但可能無(wú)法完全覆蓋所有應(yīng)用場(chǎng)景。

4. Benchmark 形式數(shù)據(jù)集評(píng)估:新興的評(píng)估方法包括一些綜合多個(gè)領(lǐng)域的 Benchmark 形式的數(shù)據(jù)集,如清華發(fā)布的 AgentBench 等。這些數(shù)據(jù)集跨足多個(gè)領(lǐng)域,對(duì) AI Agent 進(jìn)行全面評(píng)測(cè),使評(píng)估更具廣度。

5. 工程層面評(píng)估:從工程層面考慮,可以評(píng)估系統(tǒng)的穩(wěn)健性,包括平均報(bào)錯(cuò)率、與底層 API 交互的次數(shù)等。這種評(píng)估方法關(guān)注 AI Agent 的工程實(shí)現(xiàn),有助于了解系統(tǒng)的魯棒性和效率。

6. 系統(tǒng)層面評(píng)估:最終還需要考慮整個(gè)系統(tǒng)的性能,包括端到端的運(yùn)行效率、時(shí)延、成本等。這可以通過(guò)評(píng)估相同任務(wù)下不同 AI Agent 的迭代次數(shù)、交互次數(shù)和整體耗時(shí)來(lái)實(shí)現(xiàn)。

綜合而言,對(duì) AI Agent 的評(píng)估可以從主觀和客觀兩個(gè)方面進(jìn)行,包括人工評(píng)估、數(shù)據(jù)指標(biāo)評(píng)估、Benchmark 形式的全面評(píng)估以及工程和系統(tǒng)層面的性能評(píng)估。每個(gè)方向都有其獨(dú)特的優(yōu)勢(shì)和適用場(chǎng)景,綜合考慮可以更全面地了解 AI Agent 的效果。

InfoQ:目前業(yè)內(nèi)一些觀點(diǎn)認(rèn)為,AI Agent 代表了生成式 AI 下一代的新技術(shù)棧。您對(duì)這一說(shuō)法的理解是什么?您是否同意這個(gè)觀點(diǎn)?

王元:我認(rèn)為,隨著大模型的興起,確實(shí)涌現(xiàn)了一些新的技術(shù)棧,而 AI Agent 是其中一個(gè)關(guān)鍵的技術(shù)棧,盡管并非唯一的。要想成功構(gòu)建下一代技術(shù),僅僅擁有 AI Agent 可能是不夠的,因?yàn)樗鼤?huì)受到許多周邊技術(shù)棧的直接或間接影響,從而影響整個(gè)系統(tǒng)的性能。

我認(rèn)為 AI Agent 最顯著的特征之一是為群體智能提供了一種相對(duì)統(tǒng)一的機(jī)制。在人類社會(huì)中,一家公司可能擁有工程師、產(chǎn)品經(jīng)理、財(cái)務(wù)、管理人員和法規(guī)專家等各種不同的角色,而每個(gè)角色都是不可或缺的。在 AI 領(lǐng)域,這種多樣性可以通過(guò)設(shè)定不同的 AI Agent 角色來(lái)體現(xiàn),它們可以進(jìn)行交互,執(zhí)行各種任務(wù),實(shí)現(xiàn)群體智能。從這個(gè)角度來(lái)看,AI Agent 提供了一個(gè)橋梁。以前,想象如何實(shí)現(xiàn)群體智能可能沒(méi)有一個(gè)較好的方式,但現(xiàn)在有了 AI Agent 的框架,似乎在群體智能方面提供了更多的可能性?;?AI Agent 的思維方式和框架,我們可以更好地構(gòu)建,這在實(shí)踐和系統(tǒng)架構(gòu)上都提供了許多手段。

AI Agent 未來(lái)趨勢(shì)展望

InfoQ:根據(jù)您的觀察,哪些行業(yè)目前在 AI Agent 商業(yè)化落地的大模型?

王元:關(guān)于實(shí)際應(yīng)用方面,我之前提到了一些簡(jiǎn)單場(chǎng)景的交互型任務(wù)型機(jī)器人。以前在智能客服領(lǐng)域,我們可能會(huì)手寫有線狀態(tài)機(jī)與用戶進(jìn)行交互,例如詢問(wèn)用戶購(gòu)買火車票的相關(guān)信息。在這樣的典型場(chǎng)景中,用 AI Agent 替代以前的技術(shù)是可行的。

另一方面,對(duì)于一些線性場(chǎng)景,與用戶沒(méi)有直接交互但在背后有一些交互的情況,比如文檔智能中的分類,我們也嘗試使用大語(yǔ)言模型進(jìn)行分類,然后結(jié)合 Agent 進(jìn)行投票,以提高性能。

然而,在一些復(fù)雜場(chǎng)景,比如金融領(lǐng)域,想要通過(guò) AI Agent 完全執(zhí)行用戶開(kāi)戶等業(yè)務(wù)流程可能受到一定限制?,F(xiàn)在的技術(shù)可能只能做到輔助,而無(wú)法完全實(shí)現(xiàn)自動(dòng)執(zhí)行,盡管這樣的應(yīng)用在吸引力上有優(yōu)勢(shì),因?yàn)闇p少了人的介入,但技術(shù)目前可能仍然無(wú)法做到完全的自動(dòng)執(zhí)行。

最后,成本也是一個(gè)考慮因素。目前,從個(gè)人角度看,AI 技術(shù)的成本可能仍然相對(duì)較高。

InfoQ:隨著大模型多模態(tài)能力的提升,您認(rèn)為多模態(tài)會(huì)為 Agent 帶來(lái)什么?

王元:多模態(tài)技術(shù)現(xiàn)在看來(lái)是一個(gè)不可避免的趨勢(shì)。國(guó)內(nèi)外都在積極研究多模態(tài)技術(shù)。從邏輯分析來(lái)看,當(dāng)大語(yǔ)言模型底層的操作系統(tǒng)能力提升時(shí),AI Agent 的能力也會(huì)相應(yīng)提升。具體來(lái)說(shuō),多模態(tài)的原生大模型有幾個(gè)關(guān)鍵點(diǎn)。

首先,如果現(xiàn)有原生的多模態(tài)大模型,AI Agent 內(nèi)部執(zhí)行多模態(tài)任務(wù)的復(fù)雜性將指數(shù)級(jí)下降,這意味著它的交互減少,出錯(cuò)的概率也會(huì)顯著降低。原生大模型直接可以進(jìn)行圖像識(shí)別,而不需要調(diào)用單獨(dú)的模型并將中間結(jié)果轉(zhuǎn)換為文字,然后再讓大模型能夠理解其含義。

其次,從成本的角度來(lái)看,原生多模態(tài)大模型可以降低交互的繁雜性,從而降低了成本。盡管調(diào)用的多模態(tài)大模型可能是開(kāi)源的,但開(kāi)源模型并不代表沒(méi)有成本。企業(yè)作為一個(gè)要托管多模型的實(shí)體,需要去管理這些模型的版本、生命周期等,這也是需要投入資金的。因此,擁有原生多模態(tài)大模型可以將管理多個(gè)模型的復(fù)雜性轉(zhuǎn)變?yōu)楣芾硪粋€(gè)模型,從而大幅降低運(yùn)營(yíng)成本。

InfoQ:AI Agent 的倫理和隱私問(wèn)題如何解決?我們應(yīng)該如何規(guī)范和引導(dǎo) AI Agent 的發(fā)展?

王元:我們看到行業(yè)的一些領(lǐng)軍研究機(jī)構(gòu)和研究人員,如深度學(xué)習(xí)領(lǐng)域的教父——Geoffrey Hinton 和楊立昆等,對(duì) AI 的深度學(xué)習(xí)倫理問(wèn)題進(jìn)行了深入思考。在 AI Agent 的語(yǔ)境中,我認(rèn)為這一問(wèn)題變得更為重要。因?yàn)?AI Agent 賦予了一種基于回歸的大模型方法論,其思維層次實(shí)際上得到了提升。隨著思維層次的提高,我認(rèn)為 AI 可能會(huì)產(chǎn)生自我意識(shí)等問(wèn)題。在這方面,通過(guò)向 AI Agent 傳達(dá)一些方法論,我們或許可以慢慢引導(dǎo)它的行為。

在引入 AI Agent 之后,我認(rèn)為安全問(wèn)題可能變得更加緊迫。因?yàn)?AI Agent 不僅僅是一個(gè)機(jī)器,它往往被賦予一些角色,這些角色能力需要監(jiān)控。為了讓 AI Agent 表現(xiàn)得更好,我們往往需要賦予它創(chuàng)建、執(zhí)行和解決子任務(wù)的權(quán)限。這也是一個(gè)復(fù)雜的問(wèn)題,因?yàn)樵诮o定宏觀任務(wù)后,AI Agent 可能在完全自主的情況下創(chuàng)建許多子任務(wù),而這些子任務(wù)可能與宏觀任務(wù)或指導(dǎo)發(fā)生沖突,難以監(jiān)測(cè)。

在倫理方面,有了 AI Agent 之后,我們必須思考的一個(gè)問(wèn)題是如何處理權(quán)限問(wèn)題。給予 AI Agent 足夠的權(quán)限使其更加智能,但這也帶來(lái)了監(jiān)測(cè)和控制的難題,這也是深度學(xué)習(xí)教父?jìng)兯鶑?qiáng)調(diào)的問(wèn)題。而在 AI Agent 這個(gè)層面上,這一問(wèn)題可能變得更加復(fù)雜。雖然我對(duì)這個(gè)問(wèn)題尚未有確切的解決方案,但我認(rèn)為這是一個(gè)需要深入思考的事情。

InfoQ:未來(lái),AI Agent 的發(fā)展趨勢(shì)和前景是什么?您看好 AI Agent 未來(lái)的發(fā)展嗎?您認(rèn)為多久我們會(huì)迎來(lái) AI Agent 的大規(guī)模落地?

王元:我認(rèn)為 AI Agent 未來(lái)的發(fā)展有幾個(gè)前提條件。首先,如果底層的大語(yǔ)言模型在多模態(tài)方面取得顯著進(jìn)展,包括視覺(jué)和音頻多模態(tài),那么將這些技術(shù)應(yīng)用于 AI Agent 會(huì)顯著提升其性能。其次,如果我們將這些技術(shù)應(yīng)用于機(jī)器人環(huán)境,由于機(jī)器人能夠直接影響物理世界,這可能會(huì)帶來(lái)巨大的潛力。

我個(gè)人對(duì)這項(xiàng)技術(shù)的前景感到樂(lè)觀,我認(rèn)為在未來(lái) 3 到 5 年內(nèi),我們可能會(huì)看到一個(gè)相對(duì)智能、具備方法論的 AI 體。當(dāng)然,隨著其變得越來(lái)越智能,關(guān)于 AI 監(jiān)管、倫理和安全方面的討論聲音可能會(huì)不斷增加。我認(rèn)為這些問(wèn)題可能會(huì)與大語(yǔ)言大模型的監(jiān)管問(wèn)題緊密相連,因?yàn)?AI Agent 畢竟是大語(yǔ)言模型的一個(gè)衍生和集成,監(jiān)管方面可能需要在相同的程度上進(jìn)行考慮。

InfoQ:對(duì)于想要進(jìn)入這個(gè)領(lǐng)域的公司或個(gè)人來(lái)說(shuō),需要了解哪些相關(guān)知識(shí)?您有什么意見(jiàn)給到這些人嗎?

王元:技術(shù)的發(fā)展變得非常迅速。我還清楚記得 2018 年,NLP 領(lǐng)域的 Bert 模型發(fā)布,被認(rèn)為是一個(gè)新的高峰。然而,到了 2022 年底和 2023 年,GPT 系列模型又創(chuàng)造了一個(gè)新的方向或者說(shuō)一個(gè)分支。

我個(gè)人認(rèn)為,無(wú)論是從事相關(guān)技術(shù)的老手還是新進(jìn)者,每隔 3 到 5 年都會(huì)經(jīng)歷一次重大的重新學(xué)習(xí)過(guò)程。學(xué)習(xí)能力可能是最為寶貴的技能之一。具體而言,我建議關(guān)注一些行業(yè)中具有影響力的論壇,比如 QCon。這些論壇每年都會(huì)帶給聽(tīng)眾一些新的知識(shí)點(diǎn),因?yàn)樵谛袠I(yè)內(nèi),每個(gè)同行都可能接觸到一些新的技術(shù)點(diǎn)。通過(guò)這種大會(huì)的交流,這些新知識(shí)可以傳播給整個(gè)行業(yè),提供一個(gè)非常好的學(xué)習(xí)機(jī)會(huì)。

另外,歡迎大家參加我在 12 月份的 QCon 上的演講。在演講中,我將不僅僅討論 AI Agent,還會(huì)探討新一代所謂的 AI 2.0 技術(shù),以及涉及的周邊技術(shù)棧。對(duì)于進(jìn)入這個(gè)行業(yè)的人,我的建議是要多讀論文,因?yàn)檎撐拇碇袠I(yè)最新的研究方向??赡苊恐芑蛎刻扉喿x最新的論文,至少了解一下行業(yè)內(nèi)大牛們?cè)谘芯渴裁捶较?,這是一個(gè)非常好的實(shí)踐。

InfoQ:我看到有觀眾提問(wèn):“現(xiàn)在已經(jīng)在做大模型 +RPA 的公司已經(jīng)在做 Agent 方面了,這類 RPA 公司會(huì)走在前面嗎?”請(qǐng)王老師說(shuō)說(shuō)您的看法。

王元:我認(rèn)為結(jié)合大型模型和 AI Agent,在 RPA 應(yīng)用方面具有巨大的前景。如果目前的大型模型能夠在多模態(tài)方面取得更強(qiáng)的表現(xiàn),那么在 RPA 領(lǐng)域?qū)?huì)更具競(jìng)爭(zhēng)優(yōu)勢(shì)。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    32487

    瀏覽量

    271692
  • 人工智能
    +關(guān)注

    關(guān)注

    1800

    文章

    48094

    瀏覽量

    242227
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    2793

    瀏覽量

    3437

原文標(biāo)題:解析 AI Agent 的發(fā)展現(xiàn)狀和技術(shù)難點(diǎn) |InfoQ《極客有約》

文章出處:【微信號(hào):AI前線,微信公眾號(hào):AI前線】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    【書(shū)籍評(píng)測(cè)活動(dòng)NO.59】零基礎(chǔ)開(kāi)發(fā)AI Agent——手把手教你用扣子做智能體

    把握科技大勢(shì)。 ▊《零基礎(chǔ)開(kāi)發(fā)AI Agent——手把手教你用扣子做智能體》 葉濤管鍇張心雨 著 不懂編程也可以開(kāi)發(fā)Agent Agent(智能體)是大模型落地的重要方向,是
    發(fā)表于 03-10 16:29

    【「AI Agent應(yīng)用與項(xiàng)目實(shí)戰(zhàn)」閱讀體驗(yàn)】書(shū)籍介紹

    會(huì)追根溯源,讓你有種“大徹大悟”的感覺(jué)。 這本書(shū)主要講大語(yǔ)言模型的內(nèi)容,教我們做一個(gè)AI Agent應(yīng)用出來(lái),其實(shí)這個(gè)東西現(xiàn)在也叫智能體了,他跟我們平常使用大語(yǔ)言模型有個(gè)不同點(diǎn)在于他會(huì)專注某個(gè)領(lǐng)域
    發(fā)表于 03-05 20:40

    AI Agent 應(yīng)用與項(xiàng)目實(shí)戰(zhàn)》----- 學(xué)習(xí)如何開(kāi)發(fā)視頻應(yīng)用

    學(xué)習(xí)、自然語(yǔ)言處理(NLP)、計(jì)算機(jī)視覺(jué)(CV)等先進(jìn)技術(shù)提供的強(qiáng)大的數(shù)據(jù)處理和分析能力。 在視頻應(yīng)用開(kāi)發(fā)中,AI Agent可以用于視頻內(nèi)容分析、推薦、編輯等。 下面跟隨作者的指導(dǎo),使用語(yǔ)聚
    發(fā)表于 03-05 19:52

    AI Agent應(yīng)用與項(xiàng)目實(shí)戰(zhàn)》閱讀體驗(yàn)--跟著迪哥學(xué)Agent

    感謝電子發(fā)燒友的這次活動(dòng),讓我有幸抽中了《AI Agent應(yīng)用與項(xiàng)目實(shí)戰(zhàn)》(以下簡(jiǎn)稱《Agent》)這本書(shū)的贈(zèng)送。 收到書(shū)本之后我就迫不及待地學(xué)習(xí)書(shū)本中的知識(shí)。如果說(shuō)依靠各種平臺(tái)上的文章了解關(guān)于
    發(fā)表于 03-02 12:28

    研華與昆山數(shù)字化創(chuàng)新協(xié)會(huì)聯(lián)合舉辦AI Agent專題論壇

    研華與昆山數(shù)字化創(chuàng)新協(xié)會(huì)聯(lián)合舉辦AI Agent專題論壇,展示了與DeepSeek大模型結(jié)合的“零代碼”AI Agent智能體平臺(tái),幫助企業(yè)輕松實(shí)現(xiàn)智能化轉(zhuǎn)型。通過(guò)現(xiàn)場(chǎng)
    的頭像 發(fā)表于 03-01 10:00 ?824次閱讀

    AI Agent 應(yīng)用與項(xiàng)目實(shí)戰(zhàn)》閱讀心得2——客服機(jī)器人、AutoGen框架 、生成式代理

    行適應(yīng)性學(xué)習(xí)。生成式代理的技術(shù)實(shí)現(xiàn)為AI系統(tǒng)帶來(lái)了新的發(fā)展方向。項(xiàng)目中的記憶架構(gòu)設(shè)計(jì)特別值得關(guān)注,它不僅解決了傳統(tǒng)AI系統(tǒng)中的記憶瓶頸問(wèn)題,還為構(gòu)建具有持續(xù)學(xué)習(xí)能力的
    發(fā)表于 02-25 21:59

    AI Agent 應(yīng)用與項(xiàng)目實(shí)戰(zhàn)》第1-2章閱讀心得——理解Agent框架與Coze平臺(tái)的應(yīng)用

    為重要的競(jìng)爭(zhēng)力。作為一名技術(shù)從業(yè)者,我已經(jīng)開(kāi)始思考如何將Agent技術(shù)應(yīng)用到自己的工作中,利用Multi-Agent架構(gòu)優(yōu)化數(shù)據(jù)處理流程,提升分析效率。 關(guān)于
    發(fā)表于 02-19 16:35

    淺談AI Agent發(fā)展階段

    2025年伊始,有關(guān)AI變革潛力的討論熱度正不斷攀升。人們對(duì)AI的關(guān)注焦點(diǎn)正從AI工具轉(zhuǎn)向創(chuàng)建及部署AI Agent。在今年最新發(fā)布的文章中
    的頭像 發(fā)表于 02-19 09:50 ?224次閱讀

    AI Agent崛起為AI應(yīng)用的核心架構(gòu)

    最近,開(kāi)源中國(guó) OSCHINA、Gitee 與 Gitee AI 聯(lián)合發(fā)布了《2024 中國(guó)開(kāi)源開(kāi)發(fā)者報(bào)告》。 報(bào)告聚焦 AI 大模型領(lǐng)域,對(duì)過(guò)去一年的技術(shù)演進(jìn)動(dòng)態(tài)、技術(shù)趨勢(shì)、以及開(kāi)源
    的頭像 發(fā)表于 02-14 17:54 ?451次閱讀

    名單公布!【書(shū)籍評(píng)測(cè)活動(dòng)NO.55】AI Agent應(yīng)用與項(xiàng)目實(shí)戰(zhàn)

    。為了更深入理解 AI Agent技術(shù)基礎(chǔ),以下是其關(guān)鍵技術(shù)架構(gòu)及應(yīng)用場(chǎng)景的詳細(xì)解析: (1)自主性:
    發(fā)表于 01-13 11:04

    淺談生物傳感技術(shù)的定義、發(fā)展現(xiàn)狀與未來(lái)

    ,生物傳感技術(shù)能夠?qū)⑸镄畔⑥D(zhuǎn)化為可量化的電信號(hào)或光信號(hào),為醫(yī)學(xué)診斷、環(huán)境監(jiān)測(cè)、食品安全等多個(gè)領(lǐng)域提供了前所未有的便捷和準(zhǔn)確性。本文將深入探討生物傳感技術(shù)的定義、發(fā)展現(xiàn)狀以及未來(lái)趨勢(shì),以期為讀者提供一個(gè)全面而深
    的頭像 發(fā)表于 12-06 01:03 ?965次閱讀

    機(jī)器人諧波減速器的發(fā)展現(xiàn)狀與趨勢(shì)

    ? 機(jī)器人諧波減速器的 發(fā)展現(xiàn)狀與趨勢(shì). ? ? ? ?
    的頭像 發(fā)表于 11-29 10:41 ?603次閱讀
    機(jī)器人諧波減速器的<b class='flag-5'>發(fā)展現(xiàn)狀</b>與趨勢(shì)

    醫(yī)療機(jī)器人發(fā)展現(xiàn)狀與趨勢(shì)

    醫(yī)療機(jī)器人作為醫(yī)療領(lǐng)域與現(xiàn)代機(jī)器人科技的融合體,正逐步引領(lǐng)醫(yī)療服務(wù)向更高效、更精準(zhǔn)的方向發(fā)展。以下是對(duì)醫(yī)療機(jī)器人發(fā)展現(xiàn)狀與趨勢(shì)的詳細(xì)分析:
    的頭像 發(fā)表于 10-21 15:24 ?3302次閱讀

    工控機(jī)廠家發(fā)展現(xiàn)狀及未來(lái)趨勢(shì)

    中發(fā)揮著重要作用。本文將探討工控機(jī)廠家的發(fā)展現(xiàn)狀、市場(chǎng)需求、技術(shù)創(chuàng)新以及未來(lái)趨勢(shì)。一、工控機(jī)廠家發(fā)展現(xiàn)狀工控機(jī)廠家是指專門從事工業(yè)控制計(jì)算機(jī)設(shè)計(jì)、研發(fā)、生產(chǎn)和銷售的企業(yè)。在中國(guó)
    的頭像 發(fā)表于 09-29 11:01 ?723次閱讀
    工控機(jī)廠家<b class='flag-5'>發(fā)展現(xiàn)狀</b>及未來(lái)趨勢(shì)

    STM32國(guó)內(nèi)外發(fā)展現(xiàn)狀

    電子發(fā)燒友網(wǎng)站提供《STM32國(guó)內(nèi)外發(fā)展現(xiàn)狀.docx》資料免費(fèi)下載
    發(fā)表于 04-08 15:56 ?40次下載