0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

浪潮信息發(fā)布源2.0基礎(chǔ)大模型,千億參數(shù)全面開源

全球TMT ? 來(lái)源:全球TMT ? 作者:全球TMT ? 2023-11-28 09:10 ? 次閱讀

11月27日,浪潮信息發(fā)布"源2.0"基礎(chǔ)大模型,并宣布全面開源。源2.0基礎(chǔ)大模型包括1026億、518億、21億等三種參數(shù)規(guī)模的模型,在編程、推理、邏輯等方面展示出了先進(jìn)的能力。

當(dāng)前,大模型技術(shù)正在推動(dòng)生成式人工智能產(chǎn)業(yè)迅猛發(fā)展,而基礎(chǔ)大模型的關(guān)鍵能力則是大模型在行業(yè)和應(yīng)用落地能力表現(xiàn)的核心支撐,但基礎(chǔ)大模型的發(fā)展也面臨著在算法、數(shù)據(jù)和算力等方面的諸多挑戰(zhàn)。源2.0基礎(chǔ)大模型則針對(duì)性地提出了新的改進(jìn)方法并獲得了能力的提升。

算法方面,源2.0提出并采用了一種新型的注意力算法結(jié)構(gòu):局部注意力過(guò)濾增強(qiáng)機(jī)制(LFA:Localized Filtering-based Attention)。LFA通過(guò)先學(xué)習(xí)相鄰詞之間的關(guān)聯(lián)性,然后再計(jì)算全局關(guān)聯(lián)性的方法,能夠更好地學(xué)習(xí)到自然語(yǔ)言的局部和全局的語(yǔ)言特征,對(duì)于自然語(yǔ)言的關(guān)聯(lián)語(yǔ)義理解更準(zhǔn)確、更人性,提升了模型的自然語(yǔ)言表達(dá)能力,進(jìn)而提升了模型精度。

wKgZomVkrZuAFWGyAACX2OTQDsk961.jpg


數(shù)據(jù)方面,源2.0通過(guò)使用中英文書籍、百科、論文等高質(zhì)量中英文資料,降低了互聯(lián)網(wǎng)語(yǔ)料內(nèi)容占比,結(jié)合高效的數(shù)據(jù)清洗流程,為大模型訓(xùn)練提供了高質(zhì)量的專業(yè)數(shù)據(jù)集和邏輯推理數(shù)據(jù)集。為了獲取中文數(shù)學(xué)數(shù)據(jù),我們清洗了從2018年至今約12PB的互聯(lián)網(wǎng)數(shù)據(jù),但僅獲取到了約10GB的數(shù)學(xué)數(shù)據(jù),投入巨大,收益較小。為了更高效地獲得相對(duì)匱乏的高質(zhì)量中文數(shù)學(xué)及代碼數(shù)據(jù)集,源2.0采用了基于大模型的數(shù)據(jù)生產(chǎn)及過(guò)濾方法,在保證數(shù)據(jù)的多樣性的同時(shí)也在每一個(gè)類別上提升數(shù)據(jù)質(zhì)量,獲取了一批高質(zhì)量的數(shù)學(xué)與代碼預(yù)訓(xùn)練數(shù)據(jù)。

wKgaomVkrZuAeYSmAADRtny3Qdk117.jpg


算力方面,源2.0采用了非均勻流水并行的方法,綜合運(yùn)用流水線并行+優(yōu)化器參數(shù)并行+數(shù)據(jù)并行的策略,讓模型在流水并行各階段的顯存占用量分布更均衡,避免出現(xiàn)顯存瓶頸導(dǎo)致的訓(xùn)練效率降低的問題,該方法顯著降低了大模型對(duì)芯片間P2P帶寬的需求,為硬件差異較大訓(xùn)練環(huán)境提供了一種高性能的訓(xùn)練方法。

wKgaomVlP6mALQxWAAM0Ok9OLqE815.jpg


源2.0作為千億級(jí)基礎(chǔ)大模型,在業(yè)界公開的評(píng)測(cè)上進(jìn)行了代碼生成、數(shù)學(xué)問題求解、事實(shí)問答方面的能力測(cè)試,測(cè)試結(jié)果顯示,源2.0在多項(xiàng)模型評(píng)測(cè)中,展示出了較為先進(jìn)的能力表現(xiàn)。

wKgZomVkrZ6Af_R2AABvvDO94lM918.jpg


源2.0采用全面開源策略,全系列模型參數(shù)和代碼均可免費(fèi)下載使用。

審核編輯:湯梓紅

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 半導(dǎo)體
    +關(guān)注

    關(guān)注

    334

    文章

    27390

    瀏覽量

    219087
  • 浪潮
    +關(guān)注

    關(guān)注

    1

    文章

    461

    瀏覽量

    23877
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    2465

    瀏覽量

    2763
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    浪潮信息與智研究院攜手共建大模型多元算力生態(tài)

    近日,浪潮信息與北京智人工智能研究院正式簽署戰(zhàn)略合作協(xié)議,雙方將緊密合作,共同構(gòu)建大模型多元算力開源創(chuàng)新生態(tài)。 此次合作旨在提升大模型創(chuàng)新
    的頭像 發(fā)表于 12-31 11:49 ?172次閱讀

    浪潮信息與智研究院達(dá)成戰(zhàn)略合作協(xié)議

    近日,浪潮信息與智研究院達(dá)成戰(zhàn)略合作協(xié)議,雙方將緊密協(xié)作共建大模型多元算力開源創(chuàng)新生態(tài),提升大模型創(chuàng)新研發(fā)的算力效率,降低大
    的頭像 發(fā)表于 12-26 10:25 ?152次閱讀

    浪潮信息發(fā)布""Yuan-EB,刷新RAG檢索最高成績(jī)

    近日,浪潮信息在AI領(lǐng)域取得了重大突破,成功發(fā)布了其嵌入模型""Yuan-EB(Yuan-embedding-1.0)。在備受矚目的C-MTEB榜單中,"
    的頭像 發(fā)表于 12-25 15:54 ?127次閱讀

    浪潮信息發(fā)布”Yuan-EB助力RAG檢索精度新高

    近日,浪潮信息發(fā)布”Yuan-EB(Yuan-embedding-1.0,嵌入模型),在C-MTEB榜單中斬獲檢索任務(wù)第一名,以78.41的平均精度刷新大
    的頭像 發(fā)表于 11-26 13:54 ?194次閱讀
    <b class='flag-5'>浪潮信息</b><b class='flag-5'>發(fā)布</b>“<b class='flag-5'>源</b>”Yuan-EB助力RAG檢索精度新高

    浪潮信息源2.0模型與百度PaddleNLP全面適配

    近日,浪潮信息宣布其開源模型2.0全面適配百度PaddleNLP。這一舉措標(biāo)志著大
    的頭像 發(fā)表于 10-17 18:15 ?529次閱讀

    浪潮信息發(fā)布AIStation V5,全面支持大模型開發(fā)流程與高效算力調(diào)度

    北京2024年7月11日?/美通社/ -- 7月9日,在"元腦中國(guó)行"全國(guó)巡展?jié)险旧希?b class='flag-5'>浪潮信息發(fā)布AIStation 人工智能開發(fā)平臺(tái)V5升級(jí)版,具備全面的大模型流程支持能力,幫助企
    的頭像 發(fā)表于 07-12 09:37 ?415次閱讀
    <b class='flag-5'>浪潮信息</b><b class='flag-5'>發(fā)布</b>AIStation V5,<b class='flag-5'>全面</b>支持大<b class='flag-5'>模型</b>開發(fā)流程與高效算力調(diào)度

    浪潮信息重磅發(fā)布2.0-M32”開源模型

    浪潮信息近日發(fā)布了一款全新的開源模型——“2.0-M32”。這款大
    的頭像 發(fā)表于 06-05 14:50 ?787次閱讀

    浪潮信息發(fā)布2.0-M32開源模型,模算效率大幅提升

    5月28日,浪潮信息發(fā)布2.0-M32”開源模型。“
    的頭像 發(fā)表于 05-29 09:34 ?437次閱讀
    <b class='flag-5'>浪潮信息</b><b class='flag-5'>發(fā)布</b><b class='flag-5'>源</b><b class='flag-5'>2.0</b>-M32<b class='flag-5'>開源</b>大<b class='flag-5'>模型</b>,模算效率大幅提升

    浪潮信息發(fā)布2.0-M32”開源模型

    浪潮信息近日推出了革命性的“2.0-M32”開源模型。該模型
    的頭像 發(fā)表于 05-29 09:08 ?652次閱讀

    為大模型專門優(yōu)化 浪潮信息發(fā)布分布式全閃存儲(chǔ)AS13000G7-N系列

    北京2024年5月10日?/美通社/ -- 近日,浪潮信息發(fā)布為大模型專門優(yōu)化的分布式全閃存儲(chǔ)AS13000G7-N系列。該系列依托浪潮信息自研分布式文件系統(tǒng),搭載新一代數(shù)據(jù)加速引擎
    的頭像 發(fā)表于 05-10 16:37 ?437次閱讀
    為大<b class='flag-5'>模型</b>專門優(yōu)化 <b class='flag-5'>浪潮信息</b><b class='flag-5'>發(fā)布</b>分布式全閃存儲(chǔ)AS13000G7-N系列

    浪潮信息發(fā)布為大模型專門優(yōu)化的分布式全閃存儲(chǔ)AS13000G7-N系列

    近日,浪潮信息發(fā)布為大模型專門優(yōu)化的分布式全閃存儲(chǔ)AS13000G7-N系列。該系列依托浪潮信息自研分布式文件系統(tǒng),搭載新一代數(shù)據(jù)加速引擎DataTurbo,
    的頭像 發(fā)表于 05-08 09:38 ?570次閱讀
    <b class='flag-5'>浪潮信息</b><b class='flag-5'>發(fā)布</b>為大<b class='flag-5'>模型</b>專門優(yōu)化的分布式全閃存儲(chǔ)AS13000G7-N系列

    浪潮信息“元腦”品牌全面升級(jí),全力進(jìn)擊人工智能!

    在北京舉行的浪潮信息生態(tài)伙伴大會(huì)(IPF2024)上,浪潮信息總經(jīng)理胡雷鈞表示,未來(lái),一切計(jì)算皆AI,“元腦”全面升級(jí)為包括所有計(jì)算產(chǎn)品的智算品牌,同時(shí)“元腦”也是生態(tài)品牌。
    的頭像 發(fā)表于 04-19 10:42 ?635次閱讀
    <b class='flag-5'>浪潮信息</b>“元腦”品牌<b class='flag-5'>全面</b>升級(jí),全力進(jìn)擊人工智能!

    浪潮信息發(fā)布企業(yè)大模型開發(fā)平臺(tái)“元腦企智”EPAI

    4月17日,在2024浪潮信息生態(tài)伙伴大會(huì)(IPF2024)上,浪潮信息重磅發(fā)布企業(yè)大模型開發(fā)平臺(tái)“元腦企智”EPAI(Enterprise Platform of AI),為企業(yè)AI
    的頭像 發(fā)表于 04-18 10:12 ?394次閱讀
    <b class='flag-5'>浪潮信息</b><b class='flag-5'>發(fā)布</b>企業(yè)大<b class='flag-5'>模型</b>開發(fā)平臺(tái)“元腦企智”EPAI

    浪潮信息&quot;2.0&quot;大模型YuanChat支持英特爾最新商用AI PC

    北京2024年3月27日 /美通社/ -- 3月26日, 浪潮信息與英特爾正式宣布,浪潮信息"2.0系列基礎(chǔ)大模型"已和最新的英特爾? 酷
    的頭像 發(fā)表于 03-27 22:52 ?511次閱讀
    <b class='flag-5'>浪潮信息</b>&quot;<b class='flag-5'>源</b><b class='flag-5'>2.0</b>&quot;大<b class='flag-5'>模型</b>YuanChat支持英特爾最新商用AI PC

    浪潮信息與英特爾合作推出一種大模型效率工具“YuanChat”

    3月26日,浪潮信息與英特爾正式宣布,浪潮信息2.0系列基礎(chǔ)大模型”已和最新的英特爾? 酷睿? Ultra處理器平臺(tái)完成適配,本地推理速
    的頭像 發(fā)表于 03-27 13:50 ?642次閱讀
    <b class='flag-5'>浪潮信息</b>與英特爾合作推出一種大<b class='flag-5'>模型</b>效率工具“YuanChat”