2025年初,大模型賽場(chǎng)熱度不減,有拼成本優(yōu)勢(shì),拼Tokens調(diào)用量的短跑賽;有比慢思考,比大模型推理能力的長(zhǎng)跑賽。但在觀看這些“經(jīng)典賽事”的同時(shí),我們還需要注意另一場(chǎng)正在舉行中,并且對(duì)大模型行業(yè)未來(lái)至關(guān)重要的比賽——RAG越野賽。
所謂RAG,是指Retrieval-Augmented Generation檢索增強(qiáng)生成。顧名思義,RAG是將大語(yǔ)言模型的生成能力與搜索引擎的信息檢索能力進(jìn)行結(jié)合,這已經(jīng)成為目前主流大模型的標(biāo)配。
之所以說(shuō)RAG是一場(chǎng)越野賽,是因?yàn)榇竽P妥畋蝗速|(zhì)疑的問(wèn)題,就是生成內(nèi)容時(shí)經(jīng)常會(huì)出現(xiàn)有明顯訛誤的大模型幻覺(jué)。這些幻覺(jué)就像崇山峻嶺,遮擋了大模型的進(jìn)化之路。
而RAG的戰(zhàn)略價(jià)值,就在于它是克服大模型幻覺(jué)的核心方案。換言之,誰(shuí)能贏得RAG越野賽,誰(shuí)就能解決大模型的核心痛點(diǎn),將AI帶到下一個(gè)時(shí)代。
讓我們進(jìn)入大模型RAG的賽道,看看這場(chǎng)越野將把AI帶向何方。
讓我們先把時(shí)針調(diào)回到你第一次接觸大語(yǔ)言模型的時(shí)候。初次嘗試與大模型聊天,驚艷之外,是不是感覺(jué)好像有哪里不對(duì)?
這種不適感,很可能來(lái)自大模型的三個(gè)問(wèn)題:
1.胡言亂語(yǔ)。對(duì)話過(guò)程中,我們經(jīng)常會(huì)發(fā)現(xiàn)大模型說(shuō)一些明顯不符合常識(shí)的話,比如“林黛玉的哥哥是林沖”“魯智深是法國(guó)文學(xué)家”之類的。這就是LLM模型的運(yùn)行原理,導(dǎo)致其在內(nèi)容生成過(guò)程中會(huì)為了生成而生成,不管信息正確與否。這也就是廣受詬病的大模型幻覺(jué)。業(yè)內(nèi)普遍認(rèn)為,幻覺(jué)不除,大模型就始終是玩具而非工具。
2.信息落后。大模型還有一個(gè)問(wèn)題,就是知識(shí)庫(kù)更新較慢,從而導(dǎo)致如果我們問(wèn)近期發(fā)生的新聞與實(shí)時(shí)熱點(diǎn)它都無(wú)法回答。但問(wèn)題在于,我們工作生活中的主要問(wèn)題都具有時(shí)效性,這導(dǎo)致大模型的實(shí)用價(jià)值大打折扣。
3.缺乏根據(jù)。另一種情況是,大模型給出了回答,但我們無(wú)法判斷這些回答的真?zhèn)魏涂煽啃?。畢竟我們知道有大模型幻覺(jué)的存在,進(jìn)而會(huì)對(duì)AGIC產(chǎn)生疑慮。我們更希望能夠讓大模型像論文一樣標(biāo)注每條信息的來(lái)源,從而降低辨別成本。
這些問(wèn)題可以被統(tǒng)稱為“幻覺(jué)荒野”。而想要穿越這片荒野,最佳途徑就是將大模型的理解、生成能力,與搜索引擎的信息檢索融合在一起。
因?yàn)樾畔z索能夠給大模型提供具有時(shí)效性的信息,并且指明每條信息的來(lái)源。在檢索帶來(lái)的信息庫(kù)加持下,大模型也可以不再“胡言亂語(yǔ)”。
檢索是方法,生成是目的,通過(guò)高質(zhì)量的檢索系統(tǒng),大模型有望克服幻覺(jué)這個(gè)最大挑戰(zhàn)。
于是,RAG技術(shù)應(yīng)運(yùn)而生。
在RAG賽道上,檢索的優(yōu)劣將很大程度上影響生成模型最終生成結(jié)果的優(yōu)劣。比如說(shuō),百度在中文搜索領(lǐng)域的積累,帶來(lái)了語(yǔ)料、語(yǔ)義理解、知識(shí)圖譜等方面的積淀。這些積淀有助于提升中文RAG的質(zhì)量,從而讓RAG技術(shù)更快在中文大模型中落地。在搜索引擎領(lǐng)域,百度構(gòu)建了龐大的知識(shí)庫(kù)與實(shí)時(shí)數(shù)據(jù)體系,在眾多需要專業(yè)檢索的垂直領(lǐng)域進(jìn)行了重點(diǎn)布局。
其實(shí),把搜索領(lǐng)域的積累,第一時(shí)間帶到大模型領(lǐng)域,這一點(diǎn)并不容易。因?yàn)槲覀兌贾?,面向人類的搜索結(jié)果并不適合大模型來(lái)閱讀理解。想要實(shí)現(xiàn)高質(zhì)量的RAG,就需要尋找能夠高效支持搜索業(yè)務(wù)場(chǎng)景和大模型生成場(chǎng)景的架構(gòu)解決方案。
百度早在2023年3月發(fā)布文心一言時(shí)就提出了檢索增強(qiáng),大模型發(fā)展到今天,檢索增強(qiáng)也早成為業(yè)界共識(shí)。百度檢索增強(qiáng)融合了大模型能力和搜索系統(tǒng),構(gòu)建了“理解-檢索-生成”的協(xié)同優(yōu)化技術(shù),提升了模型技術(shù)及應(yīng)用效果。通俗來(lái)看,理解階段,基于大模型理解用戶需求,對(duì)知識(shí)點(diǎn)進(jìn)行拆解;檢索階段,面向大模型進(jìn)行搜索排序優(yōu)化,并將搜索返回的異構(gòu)信息統(tǒng)一表示,送給大模型;生成階段,綜合不同來(lái)源的信息做出判斷,并基于大模型邏輯推理能力,解決信息沖突等問(wèn)題,從而生成準(zhǔn)確率高、時(shí)效性好的答案。
就這樣,RAG成為百度文心大模型的核心差異化技術(shù)路徑。可以說(shuō),檢索增強(qiáng)成為文心大模型的一張名片。
讓我們隨便問(wèn)個(gè)問(wèn)題,測(cè)測(cè)
如今,基本主流大模型都會(huì)提供RAG體驗(yàn),比如告知用戶模型調(diào)用了多少個(gè)網(wǎng)頁(yè),檢索信息的出處在哪里等。但RAG這場(chǎng)越野賽依舊有著鮮明的身位差距,想要知道這個(gè)排位方法也非常簡(jiǎn)單,隨便問(wèn)各款大模型一個(gè)相同的問(wèn)題就可以。
比如說(shuō),春節(jié)將至,逛廟會(huì)是北京春節(jié)必不可少的一部分。但北京春節(jié)廟會(huì)眾多,小伙伴們肯定會(huì)想知道哪個(gè)廟會(huì)更適合自己,以及他們的營(yíng)業(yè)時(shí)間是怎么樣的。
于是,我把“北京春節(jié)廟會(huì)哪個(gè)更推薦?它們的營(yíng)業(yè)時(shí)間是什么?”分別提問(wèn)給百度文心一言、豆包、Kimi、DeepSeek等。在這里,文心一言我們使用的是付費(fèi)版,文心大模型4.0 Turbo。
文心一言的答案是這樣的,首先它結(jié)合檢索到的信息,推薦了數(shù)十個(gè)北京的春節(jié)廟會(huì),并且列出了每個(gè)廟會(huì)的地點(diǎn)、時(shí)間等信息。
但到這里還沒(méi)有結(jié)束,接下來(lái)文心一言還進(jìn)行了總結(jié)。
可以看到,文心一言理解了我“最推薦”的提問(wèn),給出眾多選項(xiàng)的同時(shí),還主要推薦了東岳廟廟會(huì)、地壇廟會(huì)、娘娘廟廟會(huì)、石景山游樂(lè)園廟會(huì),并且給出了相應(yīng)的推薦理由,做到了在信息全面化與推薦個(gè)性化之間達(dá)成平衡。
同樣的問(wèn)題給到豆包,則會(huì)發(fā)現(xiàn)它的回答也非常不錯(cuò),但內(nèi)容完整度上有所欠缺。
豆包的答案,是按照每類愛(ài)好者應(yīng)該去哪個(gè)廟會(huì)進(jìn)行分類,總共給出了7個(gè)廟會(huì)的信息。但需要注意的是,一方面豆包的答案在廟會(huì)數(shù)量和對(duì)每個(gè)廟會(huì)特色的介紹上都不夠詳盡。另外豆包沒(méi)有進(jìn)行總結(jié),并不符合問(wèn)題中“哪個(gè)最推薦”的訴求。
同樣的問(wèn)題給Kimi則是另一種景象。
不知道為什么,Kimi的答案里只回答了廠甸廟會(huì)一個(gè)答案,完全沒(méi)有提及其他廟會(huì)。這樣確實(shí)符合“最推薦”的需求,但未免過(guò)分片面和武斷,沒(méi)有讓用戶完整了解北京春節(jié)廟會(huì)的信息。
同樣的問(wèn)題來(lái)問(wèn)最近火熱的DeepSeek R1大模型,會(huì)發(fā)現(xiàn)它也能進(jìn)行RAG深度聯(lián)網(wǎng)檢索,并且給出了思考過(guò)程,最終給出了10個(gè)廟會(huì)的推薦信息。
唯一稍顯不足的是,其最終也是只給出了幾個(gè)廟會(huì)的基本情況,沒(méi)有呼應(yīng)“最推薦”哪個(gè)廟會(huì)的提問(wèn),并且其思考過(guò)程稍顯冗長(zhǎng),閱讀體驗(yàn)也有待提升。
從中不難看出,在“今年春節(jié)去哪個(gè)廟會(huì)”這樣非常具有時(shí)效性與實(shí)用性的問(wèn)答上,幾家大模型回答得都還可以,但還是有差異的。這背后就是RAG技術(shù)能力的差異。
單看RAG能力,文心一言在檢索增強(qiáng),尤其是上面這類問(wèn)答類需求上更顯優(yōu)勢(shì),另外我們也能看到,文心一言在結(jié)果呈現(xiàn)上調(diào)用了表格工具來(lái)結(jié)構(gòu)化呈現(xiàn)結(jié)果。整體來(lái)說(shuō),在深度思考和工具調(diào)用上,文心一言表現(xiàn)不錯(cuò)。
不難看出,檢索增強(qiáng)對(duì)大模型實(shí)用性和體驗(yàn)感有著非常重要的影響。
RAG越野賽的持續(xù),或許將會(huì)給整個(gè)數(shù)字世界帶來(lái)新的驚喜。
比如說(shuō),RAG可能是——
1.搜索引擎的新引擎。讓大模型理解信息檢索,也將反向帶給搜索引擎與全新發(fā)展動(dòng)力,用戶的模糊性搜索、提問(wèn)性搜索、多模態(tài)搜索將被更好滿足。
2.大語(yǔ)言模型的新支點(diǎn)。大模型不僅要生成內(nèi)容,更要生成可信、可靠、即時(shí)的內(nèi)容,想要實(shí)現(xiàn)這些目標(biāo),RAG是已經(jīng)得到驗(yàn)證的核心方向。
3.通往未來(lái)的一張船票。預(yù)訓(xùn)練大模型只是故事的起點(diǎn),而故事的高潮則在于創(chuàng)造AI原生應(yīng)用的無(wú)盡可能性。理解、生成、檢索這些數(shù)智核心能力的相遇與融合,或許才能真正揭示出AI原生應(yīng)用的底層邏輯與未來(lái)形態(tài)。
基礎(chǔ)模型本身是需要靠應(yīng)用才能顯現(xiàn)出來(lái)價(jià)值。這個(gè)時(shí)代無(wú)數(shù)人在好奇,AI原生應(yīng)用的核心載體應(yīng)該是什么?
或許,理解、檢索與生成的結(jié)合就是方向。
又或許,RAG越野賽的盡頭就是答案。
-
AI
+關(guān)注
關(guān)注
87文章
31493瀏覽量
270096 -
大模型
+關(guān)注
關(guān)注
2文章
2544瀏覽量
3062
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論