InfoQ 趨勢(shì)報(bào)告為 InfoQ 讀者提供了一個(gè)關(guān)于我們認(rèn)為架構(gòu)師和技術(shù)領(lǐng)導(dǎo)者應(yīng)該關(guān)注的主題的高層級(jí)概述。此外,它們還可以幫助 InfoQ 的編輯團(tuán)隊(duì)專注于撰寫新聞和招募文章作者來報(bào)道創(chuàng)新技術(shù)。
在這份年度報(bào)告中,InfoQ 的編輯們討論了人工智能(AI)、機(jī)器學(xué)習(xí)(ML)和數(shù)據(jù)工程的現(xiàn)狀,以及作為軟件工程師、架構(gòu)師或數(shù)據(jù)科學(xué)家應(yīng)該關(guān)注的新興趨勢(shì)。文章將編輯們的討論整理成了一條技術(shù)采用曲線,并提供了支持性評(píng)論,以幫助大家了解事物是如何演進(jìn)的。
在今年的播客(podcast) 中,來自 Chime 的軟件工程師 Sherin Thomas 加入了 InfoQ 編輯團(tuán)隊(duì)。本文中下面的內(nèi)容總結(jié)了其中的一些趨勢(shì),以及不同技術(shù)在技術(shù)采用曲線中的位置。
生成式 AI
生成式 AI,包括 GPT-3、GPT-4 和 Chat GPT 等大語言模型,現(xiàn)已成為人工智能(AI)和機(jī)器學(xué)習(xí)(ML)行業(yè)的主要力量。這些技術(shù)已經(jīng)引起了極大的關(guān)注,特別是考慮到它們?cè)谶^去一年中取得的進(jìn)展。我們已經(jīng)看到這些技術(shù)被用戶廣泛采用,特別是在 ChatGPT 的推動(dòng)下。谷歌和 Meta 等多家公司已經(jīng)宣布了自己的生成式 AI 模型。
我們期望的下一步是更多地關(guān)注 LLMOps,以便在企業(yè)環(huán)境中操作這些大語言模型。對(duì)于 prompt 工程是否會(huì)成為未來的一個(gè)大主題,或者它是否會(huì)被廣泛采用以至于每個(gè)人都能夠?yàn)樽约核褂玫?prompt 做出貢獻(xiàn),我們存在分歧。
向量數(shù)據(jù)庫和嵌入存儲(chǔ)
隨著 LLM 技術(shù)的興起,人們?cè)絹碓疥P(guān)注向量數(shù)據(jù)庫和嵌入存儲(chǔ)。一個(gè)吸引人的應(yīng)用是使用句子嵌入來增強(qiáng)生成式 AI 應(yīng)用程序的可觀察性。
對(duì)向量搜索數(shù)據(jù)庫的需求源于大語言模型的限制,這些模型具有有限的 token 歷史記錄。向量數(shù)據(jù)庫可以將文檔摘要存儲(chǔ)為這些語言模型生成的特征向量,從而可能產(chǎn)生數(shù)百萬或更多的特征向量。對(duì)于傳統(tǒng)數(shù)據(jù)庫,隨著數(shù)據(jù)集的增長(zhǎng),查找相關(guān)文檔會(huì)變得很有挑戰(zhàn)性。向量搜索數(shù)據(jù)庫實(shí)現(xiàn)了高效的相似性搜索,允許用戶定位查詢向量的最近鄰居,從而增強(qiáng)了搜索過程。
一個(gè)顯著的趨勢(shì)是對(duì)這些技術(shù)的投資激增,這表明投資者認(rèn)識(shí)到了它們的重要性。然而,開發(fā)人員的采用速度較慢,但預(yù)計(jì)在未來幾年會(huì)加快。Pinecone、Milvus 等向量搜索數(shù)據(jù)庫和 Chroma 等開源解決方案正在獲得關(guān)注。數(shù)據(jù)庫的選擇取決于特定的應(yīng)用程序和所搜索數(shù)據(jù)的性質(zhì)。
在包括對(duì)地觀測(cè)在內(nèi)的各個(gè)領(lǐng)域,向量數(shù)據(jù)庫已顯示出它的潛在實(shí)力。例如,美國國家航空航天局(NASA)利用自監(jiān)督學(xué)習(xí)和向量搜索技術(shù)來分析地球的衛(wèi)星圖像,以幫助科學(xué)家追蹤颶風(fēng)等天氣現(xiàn)象。
機(jī)器人的成本正在下降。過去,腿型平衡機(jī)器人很難實(shí)現(xiàn),但現(xiàn)在已經(jīng)有一些型號(hào)的機(jī)器人售價(jià)約為 1500 美元。這使得更多的用戶可以在他們的應(yīng)用程序中使用機(jī)器人技術(shù)。機(jī)器人操作系統(tǒng)(ROS)仍然是該領(lǐng)域的領(lǐng)先軟件框架,但像 VIAM 這樣的公司也在開發(fā)中間件解決方案,以使集成和配置機(jī)器人開發(fā)插件變得更加容易。
我們預(yù)計(jì),無監(jiān)督學(xué)習(xí)和基礎(chǔ)模型的進(jìn)步將轉(zhuǎn)化為能力的提升。例如,通過將大語言模型集成到機(jī)器人的路徑規(guī)劃中,以實(shí)現(xiàn)使用自然語言來進(jìn)行規(guī)劃。
負(fù)責(zé)任且合乎道德的人工智能
隨著人工智能開始影響全人類,人們對(duì)負(fù)責(zé)任且合乎道德的人工智能越來越感興趣。人們同時(shí)呼吁對(duì)大語言模型進(jìn)行更嚴(yán)格的安全保護(hù),同時(shí)也對(duì)此類模型提醒用戶的現(xiàn)有保障措施輸出感到沮喪。
對(duì)于工程師來說,重要的是要牢記需要改善所有人的生活,而不僅僅是改善少數(shù)人的生活。我們預(yù)計(jì)人工智能監(jiān)管將產(chǎn)生與幾年前 GDPR 類似的影響。
我們已經(jīng)看到一些人工智能因?yàn)樵愀獾臄?shù)據(jù)而失敗。數(shù)據(jù)發(fā)現(xiàn)、操作、數(shù)據(jù)沿襲、標(biāo)記和良好的模型開發(fā)實(shí)踐將成為中心。數(shù)據(jù)對(duì)可解釋性至關(guān)重要。
數(shù)據(jù)工程
現(xiàn)代數(shù)據(jù)工程的特點(diǎn)是動(dòng)態(tài)地轉(zhuǎn)向更加分散和靈活的方法來管理不斷增長(zhǎng)的數(shù)據(jù)量。數(shù)據(jù)網(wǎng)格(Data Mesh) 是一個(gè)新穎的概念,它的出現(xiàn)是為了解決集中式數(shù)據(jù)管理團(tuán)隊(duì)成為數(shù)據(jù)運(yùn)營瓶頸所帶來的挑戰(zhàn)。它主張建立一個(gè)跨域分區(qū)的聯(lián)邦數(shù)據(jù)平臺(tái),將數(shù)據(jù)視為一種產(chǎn)品。這允許域所有者擁有對(duì)其數(shù)據(jù)產(chǎn)品的所有權(quán)和控制權(quán),從而減少了對(duì)中心團(tuán)隊(duì)的依賴。盡管數(shù)據(jù)網(wǎng)格的采用前景廣闊,但可能面臨與專業(yè)知識(shí)相關(guān)的障礙,需要先進(jìn)的工具和基礎(chǔ)設(shè)施來實(shí)現(xiàn)自助服務(wù)功能。
數(shù)據(jù)可觀察性在數(shù)據(jù)工程中已經(jīng)變得至關(guān)重要,類似于應(yīng)用程序架構(gòu)中的系統(tǒng)可觀察性??捎^察性在所有層面上都是必不可少的,包括數(shù)據(jù)的觀察性,尤其是在機(jī)器學(xué)習(xí)的背景下。對(duì)數(shù)據(jù)的信任是人工智能成功的關(guān)鍵,數(shù)據(jù)可觀察性解決方案對(duì)于監(jiān)測(cè)數(shù)據(jù)質(zhì)量、模型漂移和探索性數(shù)據(jù)分析至關(guān)重要,以確保可靠的機(jī)器學(xué)習(xí)結(jié)果。數(shù)據(jù)管理的這種范式轉(zhuǎn)變以及跨數(shù)據(jù)和機(jī)器學(xué)習(xí)(ML)管道的可觀察性集成反映了現(xiàn)代數(shù)據(jù)工程的發(fā)展前景。
曲線的更新的相關(guān)解釋
這份趨勢(shì)報(bào)告還提供了一張更新的圖表,顯示了我們對(duì)某些技術(shù)的看法。這些類別基于 Geoffrey Moore 的 《跨越鴻溝》(“Crossing the Chasm”) 一書。在 InfoQ,我們主要關(guān)注那些尚未跨越鴻溝的類別。
從創(chuàng)新者到早期采用者的一個(gè)顯著升級(jí)是“人工智能編碼助手”。盡管它們?cè)谶^去一年非常新,幾乎沒有使用過,但我們看到越來越多的公司將其作為一項(xiàng)服務(wù)提供給員工,以提高他們的效率。它并不是每個(gè)技術(shù)棧的默認(rèn)部分,我們?nèi)栽谔剿魅绾巫钣行У厥褂盟鼈?,但我們相信其采用率將?huì)繼續(xù)增長(zhǎng)。
我們認(rèn)為現(xiàn)在正在跨越鴻溝的是自然語言處理。這對(duì)任何人來說都不會(huì)感到驚訝,因?yàn)樵?ChatGPT 取得巨大成功之后,許多公司目前都在試圖找出如何在他們的產(chǎn)品中采用生成式人工智能的功能。因此,我們決定讓它跨越鴻溝,進(jìn)入早期多數(shù)的類別。它在這里仍然有很大的增長(zhǎng)潛力,時(shí)間會(huì)告訴我們更多關(guān)于這項(xiàng)技術(shù)的最佳實(shí)踐和能力。
有一些值得注意的類別根本沒有移動(dòng)。這些技術(shù)包括合成數(shù)據(jù)生成、腦機(jī)接口和機(jī)器人技術(shù)。所有這些似乎都一直被困在創(chuàng)新者的范疇里。在這方面最有希望的是合成數(shù)據(jù)生成主題,最近隨著 GenAI 的炒作,該主題受到越來越多的關(guān)注。我們確實(shí)看到越來越多的公司在談?wù)撋筛嗟挠?xùn)練數(shù)據(jù),但還沒有看到足夠多的應(yīng)用程序在它們的技術(shù)棧中實(shí)際使用這些數(shù)據(jù)來保證它進(jìn)入到早期采用者的類別。多年來,機(jī)器人技術(shù)一直備受關(guān)注,但它的采用率仍然太低,我們無法保證它的發(fā)展。
我們還在圖中引入了幾個(gè)新的類別。一個(gè)值得注意的是向量搜索數(shù)據(jù)庫,這是 GenAI 炒作的副產(chǎn)品。隨著我們對(duì)如何將概念表示為向量有了更多的理解,我們也更需要有效地存儲(chǔ)和檢索所述向量。我們還將可解釋的人工智能添加到創(chuàng)新者的類別中。我們相信,計(jì)算機(jī)解釋它們?yōu)槭裁磿?huì)做出某個(gè)決定,對(duì)于廣泛采用以對(duì)抗幻覺和其他危險(xiǎn)至關(guān)重要。然而,我們目前還沒有看到足夠的行業(yè)工作來保證它進(jìn)入更高的類別。
結(jié) 論
人工智能(AI)、機(jī)器學(xué)習(xí)(ML)和數(shù)據(jù)工程領(lǐng)域每年都在不斷發(fā)展。在技術(shù)能力和可能的應(yīng)用方面仍有很大的增長(zhǎng)。對(duì)于我們 InfoQ 的編輯來說,能夠如此接近這一進(jìn)展是令人興奮的,我們期待著明年能做出同樣的報(bào)告。在播客中,我們對(duì)未來一年做了一些預(yù)測(cè),從“將不會(huì)有 AGI”到“自動(dòng)代理將成為一件事”。我們希望你喜歡聽播客并閱讀這篇文章,并希望能在本文的下面看到你的預(yù)測(cè)和評(píng)論。
-
數(shù)據(jù)庫
+關(guān)注
關(guān)注
7文章
3842瀏覽量
64562 -
人工智能
+關(guān)注
關(guān)注
1793文章
47539瀏覽量
239392 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8434瀏覽量
132866
原文標(biāo)題:InfoQ 2023 年趨勢(shì)報(bào)告:數(shù)據(jù)工程、AI 和 ML
文章出處:【微信號(hào):AI前線,微信公眾號(hào):AI前線】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論