0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

Google研究科學家:告別卷積

新機器視覺 ? 來源:AI科技大本營 ? 作者:AI科技大本營 ? 2020-10-23 09:45 ? 次閱讀

編譯 |凱隱 出品 | AI科技大本營(ID:rgznai100)

Transformer是由谷歌于2017年提出的具有里程碑意義的模型,同時也是語言AI革命的關鍵技術。在此之前的SOTA模型都是以循環(huán)神經(jīng)網(wǎng)絡為基礎(RNN, LSTM等)。從本質(zhì)上來講,RNN是以串行的方式來處理數(shù)據(jù),對應到NLP任務上,即按照句中詞語的先后順序,每一個時間步處理一個詞語。


相較于這種串行模式,Transformer的巨大創(chuàng)新便在于并行化的語言處理:文本中的所有詞語都可以在同一時間進行分析,而不是按照序列先后順序。為了支持這種并行化的處理方式,Transformer依賴于注意力機制。注意力機制可以讓模型考慮任意兩個詞語之間的相互關系,且不受它們在文本序列中位置的影響。通過分析詞語之間的兩兩相互關系,來決定應該對哪些詞或短語賦予更多的注意力。

相較于RNN必須按時間順序進行計算,Transformer并行處理機制的顯著好處便在于更高的計算效率,可以通過并行計算來大大加快訓練速度,從而能在更大的數(shù)據(jù)集上進行訓練。例如GPT-3(Transformer的第三代)的訓練數(shù)據(jù)集大約包含5000億個詞語,并且模型參數(shù)量達到1750億,遠遠超越了現(xiàn)有的任何基于RNN的模型。

現(xiàn)有的各種基于Transformer的模型基本只是與NLP任務有關,這得益于GPT-3等衍生模型的成功。然而,最近ICLR 2021的一篇投稿文章開創(chuàng)性地將Transformer模型跨領域地引用到了計算機視覺任務中,并取得了不錯地成果。這也被許多AI學者認為是開創(chuàng)了CV領域的新時代,甚至可能完全取代傳統(tǒng)的卷積操作。 其中,Google的Deepmind 研究科學家Oriol Vinyals的看法很直接:告別卷積。 以下為該論文的詳細工作:

基本內(nèi)容 Transformer的核心原理是注意力機制,注意力機制在具體實現(xiàn)時主要以矩陣乘法計算為基礎,這意味著可以通過并行化來加快計算速度,相較于只能按時間順序進行串行計算的RNN模型而言,大大提高了訓練速度,從而能夠在更大的數(shù)據(jù)集上進行訓練。 此外,Transformer模型還具有良好的可擴展性和伸縮性,在面對具體的任務時,常用的做法是先在大型數(shù)據(jù)集上進行訓練,然后在指定任務數(shù)據(jù)集上進行微調(diào)。并且隨著模型大小和數(shù)據(jù)集的增長,模型本身的性能也會跟著提升,目前為止還沒有一個明顯的性能天花板。

Transformer的這兩個特性不僅讓其在NLP領域大獲成功,也提供了將其遷移到其他任務上的潛力。此前已經(jīng)有文章嘗試將注意力機制應用到圖像識別任務上,但他們要么是沒有脫離CNN的框架,要么是對注意力機制進行了修改,導致計算效率低,不能很好地實現(xiàn)并行計算加速。因此在大規(guī)模圖片分類任務中,以ResNet為基本結(jié)構的模型依然是主流。

這篇文章首先嘗試在幾乎不做改動的情況下將Transformer模型應用到圖像分類任務中,在 ImageNet 得到的結(jié)果相較于 ResNet 較差,這是因為Transformer模型缺乏歸納偏置能力,例如并不具備CNN那樣的平移不變性和局部性,因此在數(shù)據(jù)不足時不能很好的泛化到該任務上。然而,當訓練數(shù)據(jù)量得到提升時,歸納偏置的問題便能得到緩解,即如果在足夠大的數(shù)據(jù)集上進行與訓練,便能很好地遷移到小規(guī)模數(shù)據(jù)集上。 在此基礎上,作者提出了Vision Transformer模型。下面將介紹模型原理。

模型原理 該研究提出了一種稱為Vision Transformer(ViT)的模型,在設計上是盡可能遵循原版Transformer結(jié)構,這也是為了盡可能保持原版的性能。 雖然可以并行處理,但Transformer依然是以一維序列作為輸入,然而圖片數(shù)據(jù)都是二維的,因此首先要解決的問題是如何將圖片以合適的方式輸入到模型中。本文采用的是切塊 + embedding的方法,如下圖:

首先將原始圖片劃分為多個子圖(patch),每個子圖相當于一個word,這個過程也可以表示為:

其中x是輸入圖片,xp則是處理后的子圖序列,P2則是子圖的分辨率,N則是切分后的子圖數(shù)量(即序列長度),顯然有。由于Transformer只接受1D序列作為輸入,因此還需要對每個patch進行embedding,通過一個線性變換層將二維的patch嵌入表示為長度為D的一維向量,得到的輸出被稱為patch嵌入。 ? 類似于BERT模型的[class] token機制,對每一個patch嵌入,都會額外預測一個可學習的嵌入表示,然后將這個嵌入表示在encoder中的最終輸出()作為對應patch的表示。在預訓練和微調(diào)階段,分類頭都依賴于。 ? 此外還加入了位置嵌入信息(圖中的0,1,2,3…),因為序列化的patch丟失了他們在圖片中的位置信息。作者嘗試了各種不同的2D嵌入方法,但是相較于一般的1D嵌入并沒有任何顯著的性能提升,因此最終使用聯(lián)合嵌入作為輸入。 ? 模型結(jié)構與標準的Transformer相同(如上圖右側(cè)),即由多個交互層多頭注意力(MSA)和多層感知器(MLP)構成。在每個模塊前使用LayerNorm,在模塊后使用殘差連接。使用GELU作為MLP的激活函數(shù)。整個模型的更新公式如下:

其中(1)代表了嵌入層的更新,公式(2)和(3)則代表了MSA和MLP的前向傳播。 此外本文還提出了一種直接采用ResNet中間層輸出作為圖片嵌入表示的方法,可以作為上述基于patch分割方法的替代。

模型訓練和分辨率調(diào)整 和之前常用的做法一樣,在針對具體任務時,先在大規(guī)模數(shù)據(jù)集上訓練,然后根據(jù)具體的任務需求進行微調(diào)。這里主要是更換最后的分類頭,按照分類數(shù)來設置分類頭的參數(shù)形狀。此外作者還發(fā)現(xiàn)在更高的分辨率進行微調(diào)往往能取得更好的效果,因為在保持patch分辨率不變的情況下,原始圖像分辨率越高,得到的patch數(shù)越大,因此得到的有效序列也就越長。

對比實驗4.1 實驗設置 首先作者設計了多個不同大小的ViT變體,分別對應不同的復雜度。

數(shù)據(jù)集主要使用ILSVRC-2012,ImageNet-21K,以及JFT數(shù)據(jù)集。 4.2 與SOTA模型的性能對比 首先是和ResNet以及efficientNet的對比,這兩個模型都是比較有代表的基于CNN的模型。

其中ViT模型都是在JFT-300M數(shù)據(jù)集上進行了預訓練。從上表可以看出,復雜度較低,規(guī)模較小的ViT-L在各個數(shù)據(jù)集上都超過了ResNet,并且其所需的算力也要少十多倍。ViT-H規(guī)模更大,但性能也有進一步提升,在ImageNet, CIFAR,Oxford-IIIT, VTAB等數(shù)據(jù)集上超過了SOTA,且有大幅提升。 作者進一步將VTAB的任務分為多組,并對比了ViT和其他幾個SOTA模型的性能:

可以看到除了在Natrual任務中ViT略低于BiT外,在其他三個任務中都達到了SOTA,這再次證明了ViT的性能強大。 4.3 不同預訓練數(shù)據(jù)集對性能的影響 預訓練對于該模型而言是一個非常重要的環(huán)節(jié),預訓練所用數(shù)據(jù)集的規(guī)模將影響模型的歸納偏置能力,因此作者進一步探究了不同規(guī)模的預訓練數(shù)據(jù)集對性能的影響:

上圖展示了不同規(guī)模的預訓練數(shù)據(jù)集(橫軸)對不同大小的模型的性能影響,注意微調(diào)時的數(shù)據(jù)集固定為ImageNet??梢钥吹綄Υ蟛糠帜P投裕A訓練數(shù)據(jù)集規(guī)模越大,最終的性能越好。并且隨著數(shù)據(jù)集的增大,較大的ViT模型(ViT-H/14)要由于較小的ViT模型(ViT-L)。 此外,作者還在不同大小的JFT數(shù)據(jù)集的子集上進行了模型訓練:

可以發(fā)現(xiàn)ViT-L對應的兩個模型在數(shù)據(jù)集規(guī)模增大時有非常明顯的提升,而ResNet則幾乎沒有變化。這里可以得出兩個結(jié)論,一是ViT模型本身的性能上限要優(yōu)于ResNet,這可以理解為注意力機制的上限高于CNN。二是在數(shù)據(jù)集非常大的情況下,ViT模型性能大幅超越ResNet, 這說明在數(shù)據(jù)足夠的情況下,注意力機制完全可以代替CNN,而在數(shù)據(jù)集較小的情況下(10M),卷積則更為有效。 除了以上實驗,作者還探究了ViT模型的遷移性能,實驗結(jié)果表明不論是性能還是算力需求,ViT模型在進行遷移時都優(yōu)于ResNet。

可視化分析 可視化分析可以幫助我們了解ViT的特征學習過程。顯然,ViT模型的注意力一定是放在了與分類有關的區(qū)域:

總結(jié) 本文提出的基于patch分割的圖像解釋策略,在結(jié)合Transformer的情況下取得了非常好的效果,這為CV領域的其他研究提供了一個很好的思路。此外,接下來應該會出現(xiàn)許多基于這篇工作的研究,進一步將這一劃時代的模型應用到更多的任務上,例如目標檢測、實例分割、行為識別等等。此外,也會出現(xiàn)針對patch分割策略的改進,來進一步提高模型性能。

原文標題:告別 CNN?一張圖等于 16x16 個字,計算機視覺也用上 Transformer 了

文章出處:【微信公眾號:新機器視覺】歡迎添加關注!文章轉(zhuǎn)載請注明出處。

責任編輯:haq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 谷歌
    +關注

    關注

    27

    文章

    6177

    瀏覽量

    105687
  • AI
    AI
    +關注

    關注

    87

    文章

    31294

    瀏覽量

    269647
  • CV
    CV
    +關注

    關注

    0

    文章

    53

    瀏覽量

    16882
  • 解釋器
    +關注

    關注

    0

    文章

    103

    瀏覽量

    6546

原文標題:告別 CNN?一張圖等于 16x16 個字,計算機視覺也用上 Transformer 了

文章出處:【微信號:vision263com,微信公眾號:新機器視覺】歡迎添加關注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關推薦

    深開鴻亮相“小小科學家”品牌發(fā)布暨科學探索研學營開營活動

    為在青少年中營造學科學、愛科學、用科學的濃厚氛圍,1月14日,由市委組織部、市委教育工委、團市委共同主辦的“小小科學家”品牌發(fā)布暨科學探索研
    的頭像 發(fā)表于 01-15 21:17 ?112次閱讀
    深開鴻亮相“小小<b class='flag-5'>科學家</b>”品牌發(fā)布暨<b class='flag-5'>科學</b>探索研學營開營活動

    西湖大學:科學家+AI,科研新范式的樣本

    ,創(chuàng)新科研新范式。這一點在西湖大學的科研項目中已得到體現(xiàn)。 成立于2018年的西湖大學是由施一公院士領銜創(chuàng)辦的、聚焦前沿科學研究研究型大學,該校鼓勵科學家們探索AI與各學科交叉融合,為科研創(chuàng)新提速。為此,西湖大學在浪潮信息等企
    的頭像 發(fā)表于 12-12 15:59 ?207次閱讀
    西湖大學:<b class='flag-5'>科學家</b>+AI,科研新范式的樣本

    螞蟻集團收購邊塞科技,吳翼出任強化學習實驗室首席科學家

    學習領域的研究與發(fā)展。令人矚目的是,邊塞科技的創(chuàng)始人吳翼已正式加入該實驗室,并擔任首席科學家一職。 吳翼在其個人社交平臺上對這一變動進行了回應。他表示,自己最近接受了螞蟻集團的邀請,負責大模型強化學習領域的研究
    的頭像 發(fā)表于 11-22 11:14 ?664次閱讀

    AI for Science:人工智能驅(qū)動科學創(chuàng)新》第4章-AI與生命科學讀后感

    了傳統(tǒng)學科界限,使得科學家們能夠從更加全面和深入的角度理解生命的奧秘。同時,AI技術的引入也催生了一種全新的科學研究范式,即數(shù)據(jù)驅(qū)動的研究范式,這種范式強調(diào)從大量數(shù)據(jù)中提取有價值的信息,從而推動
    發(fā)表于 10-14 09:21

    《AI for Science:人工智能驅(qū)動科學創(chuàng)新》第一章人工智能驅(qū)動的科學創(chuàng)新學習心得

    的效率,還為科學研究提供了前所未有的洞察力和精確度。例如,在生物學領域,AI能夠幫助科學家快速識別基因序列中的關鍵變異,加速新藥研發(fā)進程。 2. 跨學科融合的新范式 書中強調(diào),人工智能的應用促進了多個
    發(fā)表于 10-14 09:12

    受人眼啟發(fā)!科學家開發(fā)出新型改良相機

    新型事件相機系統(tǒng)與標準事件相機系統(tǒng)對比圖。 馬里蘭大學計算機科學家領導的一個研究小組發(fā)明了一種照相機裝置,可以改善機器人觀察周圍世界并做出反應的方式。受人眼工作原理的啟發(fā),他們的創(chuàng)新型照相機系統(tǒng)模仿
    的頭像 發(fā)表于 07-22 06:24 ?331次閱讀
    受人眼啟發(fā)!<b class='flag-5'>科學家</b>開發(fā)出新型改良相機

    中國科學家發(fā)現(xiàn)新型高溫超導體

    據(jù)新華社報道,我國科學家再立新功,又一新型高溫超導體被發(fā)現(xiàn)。 復旦大學物理學系趙俊團隊利用高壓光學浮區(qū)技術成功生長了三層鎳氧化物,成功證實在鎳氧化物中具有壓力誘導的體超導電性,而且超導體積分數(shù)達到
    的頭像 發(fā)表于 07-19 15:14 ?737次閱讀

    新華社:突破性成果!祝賀我國科學家成功研發(fā)這一傳感器!

    6月25日,新華社以《突破性成果!祝賀我國科學家》為標題,報道了由我國科學家研發(fā)的傳感器成果。 我國科學家研發(fā)高通道神經(jīng)探針實現(xiàn)獼猴全腦尺度神經(jīng)活動監(jiān)測 神經(jīng)探針是一種用來記錄神經(jīng)活動的針狀電傳
    的頭像 發(fā)表于 06-27 18:03 ?540次閱讀
    新華社:突破性成果!祝賀我國<b class='flag-5'>科學家</b>成功研發(fā)這一傳感器!

    前OpenAI首席科學家創(chuàng)辦新的AI公司

    消息在業(yè)界引起了廣泛關注,因為蘇茨克維曾是OpenAI的聯(lián)合創(chuàng)始人及首席科學家,并在去年在OpenAI董事會上扮演了重要角色。
    的頭像 發(fā)表于 06-21 10:42 ?541次閱讀

    助力科學發(fā)展,NVIDIA AI加速HPC研究

    科學家研究人員正在利用 NVIDIA 技術將生成式 AI 應用于代碼生成、天氣預報、遺傳學和材料科學領域的 HPC 工作。
    的頭像 發(fā)表于 05-14 09:17 ?434次閱讀
    助力<b class='flag-5'>科學</b>發(fā)展,NVIDIA AI加速HPC<b class='flag-5'>研究</b>

    本源量子參與的國家重點研發(fā)計劃青年科學家項目啟動會順利召開

    2024年4月23日,國家重點研發(fā)計劃“先進計算與新興軟件”重點專項“面向復雜物理系統(tǒng)求解的量子科學計算算法、軟件、應用與驗證”青年科學家項目啟動會暨實施方案論證會在合肥順利召開。該項目由合肥綜合性國家科學中心人工智能
    的頭像 發(fā)表于 05-11 08:22 ?784次閱讀
    本源量子參與的國家重點研發(fā)計劃青年<b class='flag-5'>科學家</b>項目啟動會順利召開

    NVIDIA首席科學家Bill Dally:深度學習硬件趨勢

    Bill Dally于2009年1月加入NVIDIA擔任首席科學家,此前在斯坦福大學任職12年,擔任計算機科學系主任。Dally及其斯坦福團隊開發(fā)了系統(tǒng)架構、網(wǎng)絡架構、信號傳輸、路由和同步技術,在今天的大多數(shù)大型并行計算機中都可以找到。
    的頭像 發(fā)表于 02-25 16:16 ?1219次閱讀
    NVIDIA首席<b class='flag-5'>科學家</b>Bill Dally:深度學習硬件趨勢

    康奈爾大學科學家研制出5分鐘快速充電鋰電池

    鋰離子電池如今廣泛應用于電動汽車及智能手機領域。其優(yōu)點包括輕巧、抗震、環(huán)保,但充電時間較長及承受大功率電涌的能力不足。隨著最新研究成果發(fā)布,科學家找到了一種獨特的銦陽極材料,與鋰離子電池內(nèi)的陰極材料實現(xiàn)良好配合。
    的頭像 發(fā)表于 01-26 09:57 ?703次閱讀
    康奈爾大學<b class='flag-5'>科學家</b>研制出5分鐘快速充電鋰電池

    谷歌DeepMind科學家欲建AI初創(chuàng)公司

    據(jù)知情人士透露,谷歌人工智能部門DeepMind的兩名杰出科學家Laurent Sifre和Karl Tuyls正在與投資者商討在巴黎成立一家新的人工智能初創(chuàng)公司的事宜。
    的頭像 發(fā)表于 01-22 14:41 ?521次閱讀

    飛騰首席科學家竇強榮獲 “國家卓越工程師” 稱號

    ? ? ?飛騰首席科學家竇強榮獲 “國家卓越工程師” 稱號 1月19日上午,首屆 “國家工程師獎” 表彰大會在北京人民大會堂隆重舉行。81 名個人被授予 “國家卓越工程師” 稱號,50 個團隊被授予
    的頭像 發(fā)表于 01-19 19:22 ?1820次閱讀
    飛騰首席<b class='flag-5'>科學家</b>竇強榮獲 “國家卓越工程師” 稱號