0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

云知聲山海大模型的創(chuàng)新應用與實踐探索

云知聲 ? 來源:云知聲 ? 2024-09-19 15:45 ? 次閱讀

每一次技術(shù)風口,在掀起浪潮的同時也伴生著泡沫,盡管這輪GenAI革命無疑是一次深刻改變?nèi)祟愇拿鬟M程的革命,但過去一年,關(guān)于AI, 有太多荒謬不實、不負責任的雜音,也有太多為技術(shù)而技術(shù)的錯誤應用范式。

近日,昆侖巢聯(lián)合各路AI領(lǐng)域大咖和組織機構(gòu),舉辦首期人工智能應用實踐討論專場,打造了一場圍繞AI應用的線上思辨對談,旨在促進AI行業(yè)的深入思考和建設(shè)性對話。云知聲算法研發(fā)總監(jiān)王亦寧應邀出席活動并帶來主題為《基于山海大模型的領(lǐng)域級RAG技術(shù)探索及其實踐》的深度演講。

現(xiàn)場,王亦寧結(jié)合其在人工智能領(lǐng)域的豐富經(jīng)驗,深入剖析了RAG技術(shù)在大模型中的關(guān)鍵作用,并基于山海大模型的構(gòu)建與實際落地探索,分享了山海大模型的企業(yè)級優(yōu)化策略,為與會者提供了實現(xiàn)技術(shù)深度融合與價值最大化的前瞻性洞見。

以下為分享精華,我們做了整理,謹供學習:

PART 1

RAG:山海大模型的創(chuàng)新應用與實踐探索

當前,大語言模型應用主要面臨私有部署難、幻覺問題、安全合規(guī)以及知識更新局限性等問題。正是在這樣的背景下,檢索增強生成技術(shù)(Retrieval-Augmented Generation,RAG)應時而生,成為大模型時代的一大趨勢。

RAG是指檢索增強生成(Retrieval Augmented Generation )技術(shù),其在大語言模型生成答案之前,先從廣泛的文檔數(shù)據(jù)庫中檢索相關(guān)信息,然后利用這些信息來引導生成過程,極大地提升了內(nèi)容的準確性和相關(guān)性。

盡管RAG技術(shù)在提升語言模型的復雜查詢處理能力方面具有顯著優(yōu)勢,但在實際應用中仍面臨一些關(guān)鍵挑戰(zhàn)。這些挑戰(zhàn)包括保持語義連貫性、過濾無關(guān)信息、處理口語化表達、避免生成錯誤信息以及減少干擾等。王亦寧強調(diào),解決這些問題對于提升RAG性能和應用范圍至關(guān)重要。

會上,王亦寧向與會觀眾展示了RAG技術(shù)如何與大模型結(jié)合,以強化其在特定領(lǐng)域的應用效能。具體來說,首先通過口語改寫和Query優(yōu)化,精確捕捉用戶意圖。隨后,利用向量化技術(shù)在向量數(shù)據(jù)庫中高效檢索相關(guān)信息,并通過多路召回策略全面搜集數(shù)據(jù),過濾噪聲。在生成階段,采用關(guān)鍵信息抽取和Prompt工程技術(shù),確?;卮鸬臏蚀_性和相關(guān)性,避免錯誤信息的產(chǎn)生。最后,嚴格的問答校驗流程,保證了輸出回答的高質(zhì)量,確保為用戶提供更可靠的內(nèi)容。

整體而言,RAG技術(shù)的應用,幫助山海大模型打造了一個高效、準確的問答系統(tǒng),有效緩解了幻覺問題,提高了知識更新的速度,并增強了內(nèi)容生成的可追溯性,使得大語言模型在實際應用中變得更加實用和可信。

為了具體展示RAG在山海大模型中的應用,王亦寧以工業(yè)問答為例,向與會嘉賓生動展示了如何利用山海模型進行高效的Query Answer Retrieval。通過基于Copy機制的RAG、Query改寫、檢索精排、候選結(jié)果過濾、關(guān)鍵信息抽取和片段校驗等技術(shù),山海RAG技術(shù)方案在增強大模型回答質(zhì)量的同時,更確保了在不確定性情況下的可靠性,使得大模型在特定領(lǐng)域的應用更加精準、高效和可信。

PART 2

打造企業(yè)級應用范式,山海的六大優(yōu)化實踐路徑

演講后半段,王亦寧分享了山海大模型在企業(yè)級應用中的優(yōu)化實踐,包含預訓練、指令微調(diào)、對齊、Agent、解碼策略、提示工程六大策略。

預訓練:

利用行業(yè)特定的語料庫對模型進行進一步的預訓練,使其能夠更好地理解和適應特定行業(yè)的術(shù)語、概念和上下文。在醫(yī)療行業(yè)語料庫的加持下,山海大模型于2023年6月的MedQA任務中超越Med-PaLM 2,取得87.1%的優(yōu)異成績;在臨床執(zhí)業(yè)醫(yī)師資格考試中提升至523(總分600分),超過99%的考生水平。

指令微調(diào):

在企業(yè)級應用中,云知聲采用了一系列微調(diào)策略以提升其大模型的性能——全量SFT通過大規(guī)模標注數(shù)據(jù)集對模型進行全面訓練,以確保模型在特定任務上達到最優(yōu)表現(xiàn);LoRA和QLoRA技術(shù)通過引入低秩結(jié)構(gòu)和量化方法,高效調(diào)整模型參數(shù),使模型能夠快速適應新任務,同時降低資源消耗;P-Tuning策略則專注于優(yōu)化模型的特定部分,以增強模型對新數(shù)據(jù)的適應性;Adaptor技術(shù)通過在模型主體之外添加小型適配器網(wǎng)絡,使模型能夠在保持原有結(jié)構(gòu)的同時,學習并適應新任務的特征。這些策略的綜合應用,使得山海大模型在保持預訓練優(yōu)勢的基礎(chǔ)上,能夠精準滿足企業(yè)級應用的多樣化需求。

對齊:

為確保大模型的輸出與用戶需求和偏好保持一致,云知聲在大模型的企業(yè)級優(yōu)化過程中采用了RLHF、RLAIF、DPO三大對齊策略——RLHF通過分析用戶的直接反饋,使用強化學習來優(yōu)化模型行為,使其生成的答復更加精準和符合期望;RLAIF進一步通過逆向獎勵機制增強模型的學習能力,鼓勵生成高質(zhì)量答案并避免不相關(guān)輸出;DPO則直接針對用戶偏好進行優(yōu)化,通過比較不同輸出樣本來提升模型輸出的滿意度。這些策略的結(jié)合不僅提升了模型的響應質(zhì)量,還增強了模型適應不同用戶需求的能力,從而在企業(yè)級應用中實現(xiàn)更加個性化和更高效的服務。

Agent:

山海大模型通過一系列Agent創(chuàng)新策略,顯著提升了企業(yè)級應用的效能。Web搜索增強賦予了Agent實時訪問互聯(lián)網(wǎng)信息的能力,確保答復的時效性和準確性;外部檢索增強則讓Agent深入挖掘企業(yè)內(nèi)部知識庫,提供專業(yè)且深入的答復;ToolLLM進一步擴展了Agent的功能,集成了多種輔助工具,使得語言模型能夠執(zhí)行更復雜的任務。

解碼策略:

解碼策略是優(yōu)化語言模型輸出的關(guān)鍵環(huán)節(jié),涉及多種技術(shù)以適應不同的應用需求。Greedy Search以其簡潔性快速選擇最可能的詞,而Beam Search通過考慮多個最可能的序列來增加找到最優(yōu)解的幾率。Top-k采樣通過限制詞的選擇范圍來平衡結(jié)果的多樣性和準確性。Copy Mechanism允許模型復制輸入中的短語,以提高回答的準確性。Restricted Decoding確保輸出內(nèi)容的適當性,而推測性解碼Speculative Decoding允許模型生成基于假設(shè)的答案,適用于需要創(chuàng)造性的場景。這些策略的綜合應用,使得語言模型能夠靈活地處理各種復雜的查詢,提供高質(zhì)量、多樣化且符合用戶需求的回答。

提示工程:

提示工程提升了模型對任務的理解和生成文本的準確性,是提高語言模型在各種應用場景中表現(xiàn)的關(guān)鍵。它包括利用上下文學習(In-context Learning)為模型提供豐富的背景信息,使其能夠基于少量示例快速適應新任務;構(gòu)建思維鏈(Chain of Thought)和思維樹(Thought Trees)以模擬逐步的邏輯推理過程,增強模型解決復雜問題的能力;以及確保自我一致性(Self-consistency),使模型輸出在邏輯上連貫無矛盾。

此外,云知聲UniDataOps框架通過其綜合性的數(shù)據(jù)處理能力,為大型語言模型的訓練和微調(diào)提供了一個強大、可靠的數(shù)據(jù)基礎(chǔ),從而顯著提升企業(yè)級大模型應用的性能和效果。

演講的尾聲,王亦寧對未來人工智能技術(shù)的發(fā)展前景表達了積極樂觀的態(tài)度,他表示,云知聲期望通過深化對復雜文本數(shù)據(jù)的分析和格式處理,提升對視覺信息的解讀能力,并實現(xiàn)基于圖像的內(nèi)容問答功能,從而拓展AI在多模態(tài)交互和智能理解方面的可能性,為用戶帶來更加多樣化和個性化的應用體驗。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    31294

    瀏覽量

    269654
  • 人工智能
    +關(guān)注

    關(guān)注

    1792

    文章

    47514

    瀏覽量

    239246
  • 云知聲
    +關(guān)注

    關(guān)注

    0

    文章

    194

    瀏覽量

    8405

原文標題:云知聲出席昆侖巢首期人工智能應用實踐討論專場并作主題分享

文章出處:【微信號:云知聲,微信公眾號:云知聲】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    與英內(nèi)物聯(lián)簽署戰(zhàn)略合作協(xié)議 探索基于山海模型的多元智慧場景

    ?? 12月6日,(上海)智能科技有限公司(以下簡稱““)與上海英內(nèi)物聯(lián)網(wǎng)科技股份有
    的頭像 發(fā)表于 12-06 20:05 ?897次閱讀
    <b class='flag-5'>云</b><b class='flag-5'>知</b><b class='flag-5'>聲</b>與英內(nèi)物聯(lián)簽署戰(zhàn)略合作協(xié)議 <b class='flag-5'>探索</b>基于<b class='flag-5'>云</b><b class='flag-5'>知</b><b class='flag-5'>聲</b><b class='flag-5'>山海</b>大<b class='flag-5'>模型</b>的多元智慧場景

    榮登2024大模型企業(yè)TOP50榜單

    近日,智領(lǐng)未來·向新而行—2024人工智能大模型產(chǎn)業(yè)大會在京召開,會上揭曉2024大模型企業(yè)TOP50榜單,榮登榜單,
    的頭像 發(fā)表于 11-29 17:52 ?538次閱讀

    入選創(chuàng)業(yè)邦《2024 AIGC創(chuàng)新應用洞察報告》

    近日,創(chuàng)業(yè)邦研究中心發(fā)布《2024 AIGC 創(chuàng)新應用洞察報告》,分析AIGC行業(yè)發(fā)展趨勢,洞察產(chǎn)業(yè)創(chuàng)新機會。成功入選《報告》,并憑借
    的頭像 發(fā)表于 10-25 16:38 ?452次閱讀

    山海模型多項能力全球領(lǐng)跑

    國內(nèi)人工智能權(quán)威機構(gòu)清華大學基礎(chǔ)模型研究中心發(fā)布SuperBench九月綜合榜單。本次評測選取海內(nèi)外24個具有代表性的大模型,結(jié)果顯示,山海模型對齊、智能體、安全等多項能力全球領(lǐng)跑。
    的頭像 發(fā)表于 10-12 14:30 ?439次閱讀
    <b class='flag-5'>云</b><b class='flag-5'>知</b><b class='flag-5'>聲</b><b class='flag-5'>山海</b>大<b class='flag-5'>模型</b>多項能力全球領(lǐng)跑

    山海模型的訓練優(yōu)化方法及應用實踐

    由AI大模型工場主辦的AI大模型生態(tài)暨算力大會在京舉行。作為國內(nèi)最具影響力與最懂大模型的AI生態(tài)大會,此次大會以「AI NATIVE,生成未來」為主題,圍繞大模型、算力、數(shù)據(jù)產(chǎn)業(yè)、基礎(chǔ)
    的頭像 發(fā)表于 10-12 14:12 ?294次閱讀

    山海多模態(tài)大模型UniGPT-mMed登頂MMMU測評榜首

    近日,多模態(tài)人工智能模型基準評測集MMMU更新榜單,山海多模態(tài)大模型UniGPT-mMed
    的頭像 發(fā)表于 10-12 14:09 ?310次閱讀
    <b class='flag-5'>云</b><b class='flag-5'>知</b><b class='flag-5'>聲</b><b class='flag-5'>山海</b>多模態(tài)大<b class='flag-5'>模型</b>UniGPT-mMed登頂MMMU測評榜首

    山海模型醫(yī)療專業(yè)能力全球第一

    近日,由上海AI實驗室和上海市數(shù)字醫(yī)學創(chuàng)新中心聯(lián)合推出的MedBench評測更新榜單,繼4月份奪冠后,山海
    的頭像 發(fā)表于 09-19 15:47 ?365次閱讀

    山海模型助力司法領(lǐng)域智慧化升級

    近期,成功助力上海市徐匯區(qū)虹梅街道司法所打造基于山海模型的司法領(lǐng)域應用,極大提升了司法服務的可及性與便利性。這不僅是
    的頭像 發(fā)表于 09-12 14:44 ?627次閱讀

    推出山海多模態(tài)大模型

    在人工智能技術(shù)的浩瀚星海中,多模態(tài)交互技術(shù)正成為引領(lǐng)未來的新航標。繼OpenAI的GPT-4o掀起滔天巨浪后,創(chuàng)新之姿,推出了其匠心獨運的
    的頭像 發(fā)表于 08-27 15:20 ?407次閱讀

    在邊緣側(cè)大模型技術(shù)探索和應用

    解決的課題。 2024高工智能汽車開發(fā)者大會暨艙駕智能與跨域論壇上,智慧座艙解決方案中心總經(jīng)理鮑晴峰以《邊緣側(cè)大模型帶來智能座艙交互新體驗》為題,分享了
    的頭像 發(fā)表于 06-29 15:30 ?857次閱讀

    攜手耘途教育成立學院福建分院,探索智慧教育新思路

    近日,與耘途教育聯(lián)合成立學院福建分院,深入探索智慧教育新模式、新思路。
    的頭像 發(fā)表于 05-11 15:52 ?570次閱讀
    <b class='flag-5'>云</b><b class='flag-5'>知</b><b class='flag-5'>聲</b>攜手耘途教育成立<b class='flag-5'>云</b><b class='flag-5'>知</b>學院福建分院,<b class='flag-5'>探索</b>智慧教育新思路

    山海模型醫(yī)療行業(yè)版登頂上海AI實驗室權(quán)威大模型評測榜

    近日,上海AI實驗室和上海市數(shù)字醫(yī)學創(chuàng)新中心聯(lián)合推出的MedBench評測更新榜單,山海模型
    的頭像 發(fā)表于 04-24 14:28 ?1882次閱讀
    <b class='flag-5'>云</b><b class='flag-5'>知</b><b class='flag-5'>聲</b><b class='flag-5'>山海</b>大<b class='flag-5'>模型</b>醫(yī)療行業(yè)版登頂上海AI實驗室權(quán)威大<b class='flag-5'>模型</b>評測榜

    山海模型再赴港IPO

    智能科技股份有限公司(簡稱“”)于3月15日更新了招股書,繼續(xù)其在港交所主板上市的步
    的頭像 發(fā)表于 03-22 14:51 ?743次閱讀

    再闖港股IPO

    近日,備受矚目的智能科技股份有限公司(以下簡稱)再次更新了其招股書,繼續(xù)穩(wěn)步推進其在
    的頭像 發(fā)表于 03-22 14:42 ?731次閱讀

    山海模型獲得華為昇騰技術(shù)認證

    山海模型近日取得了重大突破,順利通過了華為Atlas 800訓練服務器和華為AI框架昇思MindSpore的兼容性測試。這一成就標志
    的頭像 發(fā)表于 02-05 09:32 ?1029次閱讀