0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

布朗大學(xué)90后研究生:我們復(fù)現(xiàn)了15億參數(shù)GPT-2模型,你也行!

DPVg_AI_era ? 來源:lq ? 2019-09-01 07:11 ? 次閱讀

布朗大學(xué)的計算機科學(xué)研究畢業(yè)生 Vanya Cohen 近日在 Medium 分享了他復(fù)現(xiàn) GPT-2 大模型的全過程。作者復(fù)刻了Open-AI 15億參數(shù)模型,允許其他人在其預(yù)訓(xùn)練模型上進行構(gòu)建并進一步改進。

BERT,XLNet,GPT-2和Grover等大型語言模型在生成文本和多個NLP任務(wù)方面取得了令人矚目的成果。

本文試圖去復(fù)刻GPT-2的15億模型以供研究人員使用。

Google Colab地址:

https://colab.research.google.com/drive/1esbpDOorf7DQJV8GXWON24c-EQrSKOit

單獨提供的模型權(quán)重:

https://drive.google.com/drive/u/1/folders/1KfK5MXtvgH8C615UUZoKPIUVJYIdJxX1

復(fù)刻

之所以采取遲遲不放出模型的安全戰(zhàn)略,是因為這些模型難以復(fù)刻并需要高度專業(yè)的領(lǐng)域知識。

但是布朗大學(xué)的兩名碩士研究生卻證明了本文的許多結(jié)果復(fù)刻起來并不是那么的難。而且不僅他們倆可以,絕大多數(shù)感興趣的人都可以復(fù)刻GPT-2。

研究生之一:Vanya Cohen

此外,Zellers等人表明像GPT-2這樣的大型語言模型是一種非常有用的工具,可以抵制使用與文本生成器相同的模型。

兩位研究生經(jīng)過深思熟慮后認為,復(fù)刻工作并不是獨一無二的,并且大型語言模型是目前抵制生成文本的最有效手段,因此在對抗未來模型被濫用的可能性方面,發(fā)布本模型是有益的。

本模型的實現(xiàn)基于Grover模型,并修改其代碼庫以匹配GPT-2的語言建模訓(xùn)練目標。由于他們的模型是在類似的大型語料庫上進行訓(xùn)練的,因此大部分代碼和超參數(shù)都可以重復(fù)使用。本模型沒有從Grover中大幅改變超參數(shù)。

使用本模型代碼從頭開始訓(xùn)練模型的成本約為5萬美元。要注意這個數(shù)字是云計算的估計值,并不包含所涉及的各種其他細微的內(nèi)部成本。

存在顯著的時間-成本平衡,并且較慢的訓(xùn)練方法具有相當小的成本,因此降低了使用門檻。

數(shù)據(jù)集

原始文件提供了有關(guān)如何清理數(shù)據(jù)集的最低限度的詳細信息

與在WebText中一樣,首先從Reddit中解析出超過3個向上投票的所有鏈接。接著,從PushshiftRedditscrape開始。這是一個包含不斷更新的Reddit帖子、評論以及相關(guān)元數(shù)據(jù)集合的數(shù)據(jù)集。

然后過濾一些鏈接以刪除不太可能包含可用文本或HTML(即視頻文件,PDF和CSS樣式文件)的文件類型的直接鏈接。

同時還過濾網(wǎng)頁以刪除維基百科,因為它被各種評估基準和數(shù)據(jù)集使用。目前還無法確定過濾標準是否與OpenAI相匹配,因為此信息從未發(fā)布過。

使用Newspaper Python庫從HTML頁面中提取文本,然后使用fastText Python庫來提取英文文本、過濾掉其他語言。具體來說,使用WhatTheLangpython Wrapper。

使用局部敏感散列(LSH)來去重。然后將文檔散列為5-grams的集合,并且刪除了相似度閾值大于0.5的所有文檔。

使用Heuristic Cleaning算法,從數(shù)據(jù)集中刪除少于128個令牌的文檔。這些較短的文件往往質(zhì)量較低,這是由文本連貫性決定的。最后將此數(shù)據(jù)集作為OpenWebTextCorpus發(fā)布。

使用Radford等人發(fā)布的小型模型和Binary Pattern Encoder對數(shù)據(jù)集進行編碼,并使用OpenWebText web-scrapingcodebase的修改版本作為數(shù)據(jù)集集合的起點。

勘誤表

從公開發(fā)布的來自WebText的260k文檔集合中來看,研究人員發(fā)現(xiàn)所有文件都具有最小字節(jié)對(BPE)編碼,長度為40,最大值為1024.

OpenWebText的不同之處在于為128個令牌設(shè)置文檔長度的下限(而不是BPE代碼),并且不限制最大文檔長度。

原始的WebTextCorpus在這些樣本可用之前發(fā)布,因此沒有使用該信息來生成cleaning heuristics。

研究人員曾多次嘗試聯(lián)系Radford等人,以澄清評估和模型細節(jié),但最終都沒有成功。

結(jié)果

盡管訓(xùn)練分布存在差異,但確實報告了與大多數(shù)數(shù)據(jù)集相似的困惑。

示例:輸入“Recycling is good for the world. NO! YOU COULD NOT BE MORE WRONG!!”輸出結(jié)果如下:

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 語言模型
    +關(guān)注

    關(guān)注

    0

    文章

    524

    瀏覽量

    10277
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1208

    瀏覽量

    24704

原文標題:布朗大學(xué)90后研究生:我們復(fù)現(xiàn)了15億參數(shù)GPT-2模型,你也行!

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    中軟國際助力廣東外語外貿(mào)大學(xué)發(fā)布涉外法治人才實訓(xùn)大模型

    近期,2024年全國法律專業(yè)學(xué)位研究生培養(yǎng)單位工作會議在廣東外語外貿(mào)大學(xué)隆重召開。在此次會議期間,由廣東外語外貿(mào)大學(xué)(以下簡稱:廣外)聯(lián)合華為、中軟國際共同研發(fā)的“涉外法治人才實訓(xùn)大模型
    的頭像 發(fā)表于 12-26 10:09 ?90次閱讀

    RISC-V AI技術(shù)正式納入北京大學(xué)研究生課程

    希姆計算與北京大學(xué)達成SOC課程合作2024年10月14日,希姆計算的范福杰博士走進北京大學(xué)集成電路學(xué)院的研究生課堂,為同學(xué)們講授一節(jié)生動的《現(xiàn)代SoC芯片架構(gòu)設(shè)計實驗課程》。RIS
    的頭像 發(fā)表于 10-18 08:09 ?389次閱讀
    RISC-V AI技術(shù)正式納入北京<b class='flag-5'>大學(xué)</b><b class='flag-5'>研究生</b>課程

    名單公布!【書籍評測活動NO.41】大模型時代的基礎(chǔ)架構(gòu):大模型算力中心建設(shè)指南

    工程技術(shù)人員,都可以參考和閱讀本書。 作者介紹 方天戟騰訊專有云與智算平臺shou席架構(gòu)師,本科畢業(yè)于北京航空航天大學(xué)自動控制專業(yè),碩士研究生畢業(yè)于中國科學(xué)院研究生院計算機科學(xué)與技術(shù)專業(yè)。從業(yè)近20年,從事過硬
    發(fā)表于 08-16 18:33

    OpenAI 推出 GPT-4o mini 取代GPT 3.5 性能超越GPT 4 而且更快 API KEY更便宜

    GPT-4. GPT-4o mini的定價為每百萬輸入標記15美分和每百萬輸出標記60美分,比之前的前沿模型便宜一個數(shù)量級,比
    的頭像 發(fā)表于 07-21 10:20 ?1048次閱讀
    OpenAI 推出 <b class='flag-5'>GPT</b>-4o mini 取代<b class='flag-5'>GPT</b> 3.5 性能超越<b class='flag-5'>GPT</b> 4 而且更快 API KEY更便宜

    谷歌Gemini Ultra模型訓(xùn)練成本近2美元

    斯坦福大學(xué)研究巨頭Epoch AI聯(lián)合揭示云計算時代下AI模型訓(xùn)練成本的飛速增長。最新研究結(jié)果顯示,AI巨頭OpenAI的
    的頭像 發(fā)表于 06-07 09:36 ?592次閱讀

    潤和軟件董事長周紅衛(wèi)獲頒江蘇省產(chǎn)業(yè)教授(研究生導(dǎo)師類)聘任證書

    2024年5月25日,東南大學(xué)研究生院副院長陸建教授,東南大學(xué)計算機科學(xué)與工程學(xué)院、軟件學(xué)院、人工智能學(xué)院(以下簡稱“計軟智學(xué)院”)黨委副書記兼副院長孟杰副教授及中國(南京)軟件谷管委會副主任潘勇濤
    的頭像 發(fā)表于 05-30 10:22 ?1147次閱讀
    潤和軟件董事長周紅衛(wèi)獲頒江蘇省產(chǎn)業(yè)教授(<b class='flag-5'>研究生</b>導(dǎo)師類)聘任證書

    【大語言模型:原理與工程實踐】揭開大語言模型的面紗

    維基百科、網(wǎng)頁內(nèi)容和書籍等,不僅掌握語言的語法、語義和上下文信息,還能生成結(jié)構(gòu)連貫、語義合理的句子和段落。大語言模型的一個顯著特點是其龐大的參數(shù)量,已達數(shù)甚至數(shù)十億級別。這種規(guī)模賦
    發(fā)表于 05-04 23:55

    商湯科技推出6000參數(shù)模型,全力對標GPT-4 Turbo?

    稍晚些時候,商湯科技發(fā)布公告稱,4月23日在上海臨港AIDC舉辦技術(shù)交流日活動,推出了6000參數(shù)模型(日日新5.0),其知識、數(shù)學(xué)、推理和代碼能力均有顯著提升,綜合性能可媲美GPT
    的頭像 發(fā)表于 04-25 10:11 ?403次閱讀

    微軟發(fā)布phi-3AI模型,性能超越GPT-3.5

    微軟稱,帶有38參數(shù)的phi-3-mini經(jīng)過3.3萬億token的強化學(xué)習(xí),其基礎(chǔ)表現(xiàn)已經(jīng)超過Mixtral 8x7B及GPT-3.5;此外,該模型可在手機等移動設(shè)備上運行,并在p
    的頭像 發(fā)表于 04-23 14:32 ?546次閱讀

    蘋果ReALM模型在實體識別測試中超越OpenAI GPT-4.0

    我們模型在識別各種類型實體方面都有顯著提升,即使是小尺寸模型,在屏幕實體識別準確性上也已超過原有的系統(tǒng)5%以上。在與GPT-3.5和GPT
    的頭像 發(fā)表于 04-02 11:23 ?473次閱讀

    騰訊攜手清華港科大推出圖視頻模型:Follow-Your-Click,實現(xiàn)在線物體追蹤

    15 日消息,騰訊與清華大學(xué)及香港科技大學(xué)聯(lián)合發(fā)布新型圖視頻模型 “Follow-Your-Click”,已上線 GitHub(代碼于
    的頭像 發(fā)表于 03-15 16:24 ?635次閱讀

    Anthropic推出Claude 3大型語言模型,在認知任務(wù)性能上創(chuàng)新高

    據(jù)官方披露,Claude 3 旗艦 Opus 在大學(xué)生和研究生范疇的學(xué)術(shù)知識、復(fù)雜數(shù)理任務(wù)了解部分超越 OpenAI 的 GPT-4 以及谷歌的 Gemini 1.0 Ultra。
    的頭像 發(fā)表于 03-05 11:16 ?515次閱讀

    高分工作!Uni3D:3D基礎(chǔ)大模型,刷新多個SOTA!

    我們主要探索3D視覺中scale up模型參數(shù)量和統(tǒng)一模型架構(gòu)的可能性。在NLP / 2D v
    的頭像 發(fā)表于 01-30 15:56 ?886次閱讀
    高分工作!Uni3D:3D基礎(chǔ)大<b class='flag-5'>模型</b>,刷新多個SOTA!

    OPPO推出GPT模型手機 搭載天璣9300卷天卷地卷大模型

    X7 在端側(cè)實現(xiàn)70參數(shù)模型的部署,為用戶帶來了前所未有的快速響應(yīng)和高智能化的使用體驗?;诎驳谒勾?b class='flag-5'>模型
    的頭像 發(fā)表于 01-08 18:52 ?1014次閱讀

    視覺模型weak-to-strong的實現(xiàn)

    幾天前,OpenAI「超級對齊」(Superalignment)團隊發(fā)布成立以來的首篇論文,聲稱開辟對超人類模型進行實證對齊的新研究方向。GPT
    的頭像 發(fā)表于 01-08 11:07 ?443次閱讀
    視覺<b class='flag-5'>模型</b>weak-to-strong的實現(xiàn)