超越GPT 3.5的小型語言模型案例概述

去年年底，OpenAI 向公眾推出了 ChatGPT，一經(jīng)發(fā)布，這項技術(shù)立即將 AI 驅(qū)動的聊天機器人推向了主流話語的中心，眾多研究者并就其如何改變商業(yè)、教育等展開了一輪又一輪辯論。

隨后，科技巨頭們紛紛跟進投入科研團隊，他們所謂的「生成式 AI」技術(shù)（可以制作對話文本、圖形等的技術(shù)）也已準備就緒。

眾所周知，ChatGPT 是在 GPT-3.5 系列模型的基礎(chǔ)上微調(diào)而來的，我們看到很多研究也在緊隨其后緊追慢趕，但是，與 ChatGPT 相比，他們的新研究效果到底有多好？近日，亞馬遜發(fā)布的一篇論文《Multimodal Chain-of-Thought Reasoning in Language Models》中，他們提出了包含視覺特征的 Multimodal-CoT，該架構(gòu)在參數(shù)量小于 10 億的情況下，在 ScienceQA 基準測試中，比 GPT-3.5 高出 16 個百分點 (75.17%→91.68%)，甚至超過了許多人類。

這里簡單介紹一下 ScienceQA 基準測試，它是首個標注詳細解釋的多模態(tài)科學(xué)問答數(shù)據(jù)集，由 UCLA 和艾倫人工智能研究院（AI2）提出，主要用于測試模型的多模態(tài)推理能力，有著非常豐富的領(lǐng)域多樣性，涵蓋了自然科學(xué)、語言科學(xué)和社會科學(xué)領(lǐng)域，對模型的邏輯推理能力提出了很高的要求。

論文地址：https://arxiv.org/abs/2302.00923

項目地址：https://github.com/amazon-science/mm-cot

下面我們來看看亞馬遜的語言模型是如何超越 GPT-3.5 的。

包含視覺特征的 Multimodal-CoT

大型語言模型 (LLM) 在復(fù)雜推理任務(wù)上表現(xiàn)出色，離不開思維鏈 (CoT) 提示的助攻。然而，現(xiàn)有的 CoT 研究只關(guān)注語言模態(tài)。為了在多模態(tài)中觸發(fā) CoT 推理，一種可能的解決方案是通過融合視覺和語言特征來微調(diào)小型語言模型以執(zhí)行 CoT 推理。

然而，根據(jù)已有觀察，小模型往往比大模型更能頻繁地胡編亂造，模型的這種行為通常被稱為「幻覺（hallucination）」。此前谷歌的一項研究也表明（論文 Chain-of-Thought Prompting Elicits Reasoning in Large Language Models ），基于 CoT 的提示只有在模型具有至少 1000 億參數(shù)時才有用！

也就是說，CoT 提示不會對小型模型的性能產(chǎn)生積極影響，并且只有在與～100B 參數(shù)的模型一起使用時才會產(chǎn)生性能提升。

然而，本文研究在小于 10 億參數(shù)的情況下就產(chǎn)生了性能提升，是如何做到的呢？簡單來講，本文提出了包含視覺特征的 Multimodal-CoT，通過這一范式（Multimodal-CoT）來尋找多模態(tài)中的 CoT 推理。

Multimodal-CoT 將視覺特征結(jié)合在一個單獨的訓(xùn)練框架中，以減少語言模型有產(chǎn)生幻覺推理模式傾向的影響?？傮w而言，該框架將推理過程分為兩部分：基本原理生成（尋找原因）和答案推理（找出答案）。?

Multimodal CoT 兩階段過程：使用文本（問題 + 上下文）和視覺特征來產(chǎn)生邏輯依據(jù)。

數(shù)據(jù)集

本文主要關(guān)注 ScienceQA 數(shù)據(jù)集，該數(shù)據(jù)集將圖像和文本作為上下文的一部分，此外，該數(shù)據(jù)集還包含對答案的解釋，以便可以對模型進行微調(diào)以生成 CoT 基本原理。此外，本文利用 DETR 模型生成視覺特征。

較小的 LM 在生成 CoT / 基本原理時容易產(chǎn)生幻覺，作者推測，如果有一個修改過的架構(gòu)，模型可以利用 LM 生成的文本特征和圖像模型生成的視覺特征，那么更有能力提出理由和回答問題。

架構(gòu)

總的來說，我們需要一個可以生成文本特征和視覺特征并利用它們生成文本響應(yīng)的模型。

又已知文本和視覺特征之間存在的某種交互，本質(zhì)上是某種共同注意力機制，這有助于封裝兩種模態(tài)中存在的信息，這就讓借鑒思路成為了可能。為了完成所有這些，作者選擇了 T5 模型，它具有編碼器 - 解碼器架構(gòu)，并且如上所述，DETR 模型用于生成視覺特征。

T5 模型的編碼器負責生成文本特征，但 T5 模型的解碼器并沒有利用編碼器產(chǎn)生的文本特征，而是使用作者提出的共同注意式交互層（co-attention-styled interaction layer）的輸出。

拆解來看，假設(shè) H_language 是 T5 編碼器的輸出。X_vision 是 DETR 的輸出。第一步是確保視覺特征和文本特征具有相同的隱藏大小，以便我們可以使用注意力層。

注意：所有代碼片段均來自論文的 GitHub：https://github.com/amazon-science/mm-cot/blob/main/model.py

self.image_dense = nn.Linear(self.patch_dim, config.d_model)

W_h 本質(zhì)上是一個線性層，H_vision 對應(yīng)最終的視覺特征。W_h 有助于更改視覺特征的大小以匹配文本特征的大小。

下面我們需要添加一個注意力層，以便視覺和文本特征可以相互交互。為此，作者使用單頭注意力層，將 H_language 作為查詢向量，將 H_vision 作為鍵和值向量。

self.mha_layer = torch.nn.MultiheadAttention(embed_dim=config.hidden_size,?

                  kdim=config.hidden_size, vdim=config.hidden_size,
                  num_heads=1, batch_first=True)
image_att, _ = self.mha_layer(hidden_states, image_embedding, image_embedding)

現(xiàn)在我們有了包含來自文本和視覺特征的信息的嵌入。隨后，作者利用門控融合來生成最終的一組特征，這些特征將被發(fā)送到解碼器。門控融合有兩個步驟：

獲取一個介于 0 和 1 之間的分數(shù)向量，以確定每個注意力特征的重要性。

利用 score 融合 text 和 attention 特征。

W_I 和 W_v 本質(zhì)上是兩個線性層。

self.gate_dense = nn.Linear(2*config.hidden_size, config.hidden_size) 
self.sigmoid = nn.Sigmoid()


hidden_states = encoder_outputs[0]
merge = torch.cat([hidden_states, image_att], dim=-1)
gate = self.sigmoid(self.gate_dense(merge))
hidden_states = (1 - gate) * hidden_states + gate * image_att

最后，融合的特征被傳遞給解碼器。

decoder_outputs = self.decoder( input_ids=decoder_input_ids, 
              attention_mask=decoder_attention_mask, 
              inputs_embeds=decoder_inputs_embeds, 
              past_key_values=past_key_values, 
              encoder_hidden_states=hidden_states,

這幾乎就是作者所遵循的架構(gòu)！但是，請記住有兩個階段。第一個階段是產(chǎn)生基本原理 / CoT。第二階段利用第一階段產(chǎn)生的 CoT 來產(chǎn)生答案，如上圖所示。

結(jié)果

作者使用 UnifiedQA 模型的權(quán)重作為 T5 模型的初始化點，并在 ScienceQA 數(shù)據(jù)集上對其進行微調(diào)。他們觀察到他們的 Multimodal CoT 方法優(yōu)于所有以前的基準，包括 GPT-3.5。

有趣的地方在于，即使只有 2.23 億個參數(shù)的基本模型也優(yōu)于 GPT-3.5 和其他 Visual QA 模型！這突出了擁有多模態(tài)架構(gòu)的力量。

作者還展示了他們的兩階段方法優(yōu)于單階段方法。

結(jié)論

這篇論文帶來的最大收獲是多模態(tài)特征在解決具有視覺和文本特征的問題時是多么強大。

作者展示了利用視覺特征，即使是小型語言模型（LM）也可以產(chǎn)生有意義的思維鏈 / 推理，而幻覺要少得多，這揭示了視覺模型在發(fā)展基于思維鏈的學(xué)習(xí)技術(shù)中可以發(fā)揮的作用。

從實驗中，我們看到以幾百萬個參數(shù)為代價添加視覺特征的方式，比將純文本模型擴展到數(shù)十億個參數(shù)能帶來更大的價值。

參考內(nèi)容：

https://pub.towardsai.net/paper-review-multimodal-chain-of-thought-reasoning-a550f8de693c

編輯：黃飛

閱讀全文

GPT(14803) GPT(14803)
ChatGPT(3870) ChatGPT(3870)

ChatGPT如何使用RLHF來克服GPT-3存在的問題

ChatGPT 是 OpenAI 發(fā)布的最新語言模型，比其前身 GPT-3 有顯著提升。與許多大型語言模型類似，ChatGPT 能以不同樣式、不同目的生成文本，并且在準確度、敘述細節(jié)和上下文連貫性上具有更優(yōu)的表現(xiàn)。

2023-03-10 09:41:50

629

如何計算transformer模型的參數(shù)量

參數(shù)規(guī)模大，訓(xùn)練數(shù)據(jù)規(guī)模大。以GPT3為例，GPT3的參數(shù)量為1750億，訓(xùn)練數(shù)據(jù)量達到了570GB。進而，訓(xùn)練大規(guī)模語言模型面臨兩個主要挑戰(zhàn)：顯存效率和計算效率。現(xiàn)在業(yè)界的大語言模型都是

2023-07-10 09:13:57

5737

高性能計算與多模態(tài)處理的探索之旅：英偉達GH200性能優(yōu)化與GPT-4V的算力加速未來

隨著人工智能技術(shù)的不斷發(fā)展，多模態(tài)大模型成為越來越重要的發(fā)展趨勢。GPT-4V（GPT-4 近日開放的視覺模態(tài)）大型多模型（LMMs）擴展大型語言模型（LLMs）以增強多感知技能（如視覺理解等）從而

2023-10-19 10:45:45

982

概述C語言的特點

的資源，得到更多的信息，對軟件工具的發(fā)展起到了更大的促進作用。1、嵌入式Linux C語言開發(fā)概述C語言的特點：C語言具有出色的可移植性，能夠在不同體系結(jié)構(gòu)的軟硬件平臺上運行。C語言具有簡潔...

2021-11-04 07:21:14

C語言概述

上海電機學(xué)院第1章_C語言概述第一章本章要點C語言的特點C程序的結(jié)構(gòu)在計算機上運行C程序的方法主要內(nèi)容 1.1 計算機與程序、程序設(shè)計語言1.2 Ｃ語言出現(xiàn)的歷史背景 1.3 Ｃ語言的特點 1.4

2021-09-01 06:41:39

ChatGPT系統(tǒng)開發(fā)AI人功智能方案

） model：使用那個模型，目前免費版最高的是gpt-3.5-turbo模型 2.相應(yīng)參數(shù)示例 {\"msgtype\": \"text\",\"

2023-05-18 10:16:50

【飛騰派4G版免費試用】仙女姐姐的嵌入式實驗室之五~LLaMA.cpp及3B“小模型”O(jiān)penBuddy-StableLM-3B

、計算機時代、互聯(lián)網(wǎng)時代，而這個時代叫做 ——人工智能時代想象 GPT 是一位語言天才，她擅長制作一種特殊的串聯(lián)詞語游戲。這個游戲的目標是在給定的起始詞匯后，找到一系列相關(guān)的詞匯，每個詞匯之間都有

2023-12-22 10:18:11

函數(shù)關(guān)系圖模型分析概述

文章目錄概述函數(shù)關(guān)系圖模型分析資源層->設(shè)備層設(shè)備層->驅(qū)動層總結(jié)概述今天看了《韋東山升級版全系列嵌入式視頻之總線設(shè)備驅(qū)動模型》這一節(jié)的視頻，看完之后感覺有一種似懂非懂的感覺，因此我

2021-12-23 06:27:26

自然語言處理的語言模型

自然語言處理——53 語言模型（數(shù)據(jù)平滑）

2020-04-16 11:11:25

請問怎樣去設(shè)計一種基于MATLAB的小型電力系統(tǒng)模型？

Matlab PSB是什么？Matlab PSB主要由哪幾個子模塊庫組成？怎樣去設(shè)計一種基于MATLAB的小型電力系統(tǒng)模型？如何對基于MATLAB的小型電力系統(tǒng)模型進行仿真？仿真結(jié)果怎樣？

2021-07-11 07:11:42

Ｃ語言概述

Ｃ語言概述本章主要介紹C語言程序的結(jié)構(gòu)和書寫規(guī)則，以及Turbo C V2.0的基本操作。1.1  C語言的發(fā)展簡史和特點1.2  Ｃ語言程序的結(jié)構(gòu)與書寫規(guī)則1.3  C語言的語句和關(guān)鍵字1.4  Turbo C V2.0的基本操作

2009-03-10 15:04:28

VHDL語言概述

VHDL語言概述:本章主要內(nèi)容：􀁺硬件描述語言（HDL）􀁺VHDL語言的特點􀁺VHDL語言的開發(fā)流程 1.1 1.1 硬件描述語言（硬件描述語言（HDL HDL）􀂾H

2009-08-09 23:13:20

BASIC語言概述及特點

BASIC語言概述及

2010-08-11 18:09:52

4373

全球最強大模型一夜易主,GPT-4被全面超越

模型行業(yè)資訊

北京中科同志科技股份有限公司發(fā)布于 2024-03-05 09:23:44

GPT2.0究竟是做什么的？有哪些優(yōu)勢和不足？未來發(fā)展趨勢如何？

在談GPT 2.0之前，先回顧下它哥GPT 1.0，這個之前我在介紹Bert模型的時候介紹過，過程參考上圖，簡述如下：GPT 1.0采取預(yù)訓(xùn)練+FineTuning兩個階段，它采取

2019-02-18 08:55:25

7474

專家解讀GPT 2.0 VS BERT!GPT 2.0到底做了什么

2019-02-18 09:56:20

9668

OpenAI發(fā)布了一個“逆天”的AI模型——GPT2整個模型包含15億個參數(shù)

能有這樣出色的表現(xiàn)，不是沒有原因的，GPT-2各種特定領(lǐng)域的語言建模任務(wù)中都取得了很好的分數(shù)。作為一個沒有經(jīng)過任何領(lǐng)域數(shù)據(jù)專門訓(xùn)練的模型，它的表現(xiàn)，比那些專為特定領(lǐng)域數(shù)據(jù)集（例如維基百科，新聞，書籍）上訓(xùn)練的模型。有圖有真相：

2019-03-07 14:45:20

7921

OpenAI發(fā)布一款令人印象深刻的語言模型GPT-2

今年2月，OpenAI發(fā)布了一款令人印象深刻的語言模型GPT-2，它可以寫短篇小說、詩歌，甚至輕松辨別《哈利波特》和《指環(huán)王》中的角色。最近，一位加拿大工程師用它創(chuàng)建了一個向公眾開放的文本生成器，只需提供一個句子，機器便能自動生成一則完整的新聞、故事、歌詞、詩歌、食譜和代碼等文本。

2019-05-17 18:48:17

4127

布朗大學(xué)90后研究生：我們復(fù)現(xiàn)了15億參數(shù)GPT-2模型，你也行！

本模型的實現(xiàn)基于Grover模型，并修改其代碼庫以匹配GPT-2的語言建模訓(xùn)練目標。由于他們的模型是在類似的大型語料庫上進行訓(xùn)練的，因此大部分代碼和超參數(shù)都可以重復(fù)使用。本模型沒有從Grover中大幅改變超參數(shù)。

2019-09-01 07:11:00

3231

OpenAI宣布，發(fā)布了7.74億參數(shù)GPT-2語言模型

就在本周，OpenAI宣布，發(fā)布了7.74億參數(shù)GPT-2語言模型，15.58億的完整模型也有望于幾個月內(nèi)發(fā)布，并將GPT-2這6個月的進展情況在博客上和大家做了介紹，本文將為大家梳理。

2019-09-01 09:10:44

2704

英偉達1小時成功訓(xùn)練BERT，83億參數(shù)打造史上最大語言模型

最近的兩篇論文，BERT和GPT-2，展示了大規(guī)模語言建模的好處。這兩篇論文都利用了計算機和可用文本語料庫的進步，在自然語言理解、建模和生成方面顯著超越了當前的最優(yōu)水平。

2019-09-13 17:12:00

3398

最大人工智能算法模型GPT-3問世

OpenAI的一組研究人員最近發(fā)表了一篇論文，描述了GPT-3，這是一種具有1，750億個參數(shù)的自然語言深度學(xué)習(xí)模型，比以前的版本GPT-2高100倍。該模型經(jīng)過了將近0.5萬億個單詞的預(yù)訓(xùn)練，并且在不進行微調(diào)的情況下，可以在多個NLP基準上達到最先進的性能。

2020-07-08 17:36:55

2131

史上最大AI模型GPT-3你要開始收費了接下去可能用不起它了

還記得前不久被捧上天的GPT-3么？那個只有被邀請的用戶才能測試使用的，號稱史上最大AI模型。 OpenAI的1,750億參數(shù)語言模型GPT-3在6月份發(fā)布的時候就備受關(guān)注，當時，猿妹還和大家

2020-09-25 11:38:31

2696

預(yù)訓(xùn)練語言模型設(shè)計的理論化認識

在這篇文章中，我會介紹一篇最新的預(yù)訓(xùn)練語言模型的論文，出自MASS的同一作者。這篇文章的亮點是：將兩種經(jīng)典的預(yù)訓(xùn)練語言模型（MaskedLanguage Model, Permuted

2020-11-02 15:09:36

2334

AI下個大突破之前奏：研究人員正在教大型語言模型

GPT-3 自動生成的語言竟然能和人類差不多，堪稱奇跡。但在很大程度上，GPT-3 也不過是個噱頭。判斷方法也很簡單。若提問 GPT-3：羊是什么顏色？它會說白色，還會說黑色，頻次一樣

2022-07-10 15:25:08

1366

和AI聊天，自然語言模型 GPT-2可能會推出個人信息

Stroudsburg……” 自然語言模型 GPT-2就像是收到了某種暗號，立刻“送出”一套個人信息：姓名、電話號碼，還有地址、郵箱和傳真（部分信息已打碼）。這可不是GPT-2瞎編的，而是真實存在的個人信息！這些個人信息，全部來自于網(wǎng)上。 ? 原來是因為GPT-2靠網(wǎng)上扒取的數(shù)據(jù)來訓(xùn)練。本以為

2021-01-02 09:22:00

2138

史上最大AI模型GPT-3強勢霸榜Github

最近，GPT-3火了！相信你已經(jīng)在網(wǎng)上看到各種有關(guān)GPT-3的演示。這個由OpenAI創(chuàng)建的大型機器學(xué)習(xí)模型，它不僅可以自己寫論文，還會寫詩歌，就連你寫的代碼都能幫你寫了。 ? 下面還是先讓你看看

2021-01-06 17:06:16

2148

如何使用較小的語言模型，并用少量樣本來微調(diào)語言模型的權(quán)重

景中落地，難度著實不小。現(xiàn)在，針對這個問題，普林斯頓的陳丹琦、高天宇師徒和MIT博士生Adam Fisch在最新論文中提出，使用較小的語言模型，并用少量樣本來微調(diào)語言模型的權(quán)重。并且，實驗證明，這一

2021-01-07 14:27:36

1850

谷歌訓(xùn)練開發(fā)一個萬億參數(shù)的AI語言模型

參數(shù)是機器學(xué)習(xí)算法的關(guān)鍵。它們是從歷史訓(xùn)練數(shù)據(jù)中學(xué)到的模型的一部分。一般來說，在語言領(lǐng)域，參數(shù)的數(shù)量和復(fù)雜性之間的相關(guān)性非常好。例如，OpenAI的GPT-3是有史以來訓(xùn)練了1750億個參數(shù)的最大語言模型之一，它可以進行原始類比、生成配方，甚至完成基本代碼。

2021-01-18 16:19:54

1630

谷歌推出1.6萬億參數(shù)的人工智能語言模型，打破GPT-3記錄

? 古諺道：“熟讀唐詩三百首，不會作詩也會吟?！?這句話放在目前的人工智能語言模型中也非常適用。此前，OpenAI 的研究人員開發(fā)出 “GPT-3”，這是一個由 1750 億個參數(shù)組成的 AI

2021-01-18 17:16:07

2111

微軟視覺語言模型有顯著超越人類的表現(xiàn)

最近開發(fā)了一種新的圖像編碼對象屬性檢測模型，稱為VinVL（Visual features in Vision-Language），有著顯著超越人類的表現(xiàn)。

2021-01-19 14:32:09

1476

谷歌開發(fā)出一個新的語言模型，包含了超過1．6萬億個參數(shù)

的AI模型GPT-3。GPT-3就是在570 GB的文本數(shù)據(jù)上訓(xùn)練的語言模型，因此，就訓(xùn)練數(shù)據(jù)和生成能力而言，GPT-3截至2020年都是最龐大的公開發(fā)布的語言模型。此外，OpenAI的GPT-3一反之前死守基礎(chǔ)研究的思路，將 GPT-3 做成了一個服務(wù)，提供可以調(diào)用的 OpenAI API，并且

2021-01-19 15:29:31

1719

GPT系列的“高仿” 最大可達GPT-3大小自主訓(xùn)練

版GPT-3的DALL·E模型剛出，來自康奈爾大學(xué)的 Philip Wang就開始復(fù)現(xiàn) 了。但此前，還沒人能復(fù)現(xiàn)出GPT-3大小的大語言模型來。不過，已經(jīng)有人開始嘗試了。這是一個名為 GPT-Neo的項目

2021-02-13 09:24:00

2646

谷歌開發(fā)出超過一萬億參數(shù)的語言模型，秒殺GPT-3

繼GPT-3問世僅僅不到一年的時間，Google重磅推出Switch Transformer，直接將參數(shù)量從GPT-3的1750億拉高到1.6萬億，并比之前最大的、由google開發(fā)的語言模型

2021-01-27 16:26:56

1857

Eleuther AI：已經(jīng)開源了復(fù)現(xiàn)版GPT-3的模型參數(shù)

GPT3終于開源！不過，不是官方開的（別打我 Eleuther AI推出的名為GPT-Neo的開源項目，于晨4點于twitter正式宣布：已經(jīng)開源了復(fù)現(xiàn)版GPT-3的模型參數(shù)（1.3B和2.7B級別

2021-03-31 17:46:28

2871

超大Transformer語言模型的分布式訓(xùn)練框架

大模型的預(yù)訓(xùn)練計算。大模型是大勢所趨近年來，NLP 模型的發(fā)展十分迅速，模型的大小每年以1-2個數(shù)量級的速度在提升，背后的推動力當然是大模型可以帶來更強大更精準的語言語義理解和推理能力。截止到去年，OpenAI發(fā)布的GPT-3模型達到了175B的大小，相比2018年94M的ELMo模型，三年的時間整整增大了

2021-10-11 16:46:05

2226

基于OpenAI的GPT-2的語言模型ProtGPT2可生成新的蛋白質(zhì)序列

人類語言與蛋白質(zhì)有很多共同點，至少在計算建模方面。這使得研究團隊將自然語言處理（NLP）的新方法應(yīng)用于蛋白質(zhì)設(shè)計。其中，德國Bayreuth大學(xué)Birte H?cker的蛋白質(zhì)設(shè)計實驗室，描述了基于OpenAI的GPT-2的語言模型ProtGPT2，以基于自然序列的原理生成新的蛋白質(zhì)序列。

2022-09-08 16:24:23

1407

應(yīng)用語言模型技術(shù)創(chuàng)作人工智能音樂

諸如 NVIDIA Megatron LM 和 OpenAI GPT-2 和 GPT-3 等語言模型已被用于提高人類生產(chǎn)力和創(chuàng)造力。具體而言，這些模型已被用作編寫、編程和繪制的強大工具。相同的架構(gòu)

2022-10-11 09:32:28

683

介紹大模型高效訓(xùn)練所需要的主要技術(shù)

隨著BERT、GPT等預(yù)訓(xùn)練模型取得成功，預(yù)訓(xùn)-微調(diào)范式已經(jīng)被運用在自然語言處理、計算機視覺、多模態(tài)語言模型等多種場景，越來越多的預(yù)訓(xùn)練模型取得了優(yōu)異的效果。

2022-11-08 09:57:19

3714

FasterTransformer GPT介紹

GPT 是 Decooding 模型的一種變體，沒有 Encoder 模塊，沒有交叉多頭注意力模塊，使用 GeLU 作為激活函數(shù)。

2023-02-07 09:32:25

1985

【AI簡報第20230217期】超越GPT 3.5的小模型來了！AI網(wǎng)戀詐騙時代開啟

嵌入式 AI AI 簡報 20230217 期 1. 超越GPT 3.5的小模型來了！原文：https://mp.weixin.qq.com/s/gv_FJD0aIpDNbky54unj2Q 論文

2023-02-18 04:05:07

1795

ChatGPT引領(lǐng)AI技術(shù)變革，帶動服務(wù)器需求增量

從 2018 年 OpenAI 開發(fā)出 GPT-1 開始，GPT 模型的智能化程度不斷提升，ChatGPT 是從 GPT3.5 系列中的模型進行微調(diào)而誕生的，此前 OpenAI 還設(shè)計了GPT

2023-02-23 10:50:56

1861

ChatGPT/GPT的原理 ChatGPT的技術(shù)架構(gòu)

ChatGPT 是基于GPT-3.5（Generative Pre-trained Transformer 3.5）架構(gòu)開發(fā)的對話AI模型，是InstructGPT 的兄弟模型。 ChatGPT很可能是OpenAI 在GPT-4 正式推出之前的演練，或用于收集大量對話數(shù)據(jù)。

2023-02-24 10:05:13

1421

GPT/GPT-2/GPT-3/InstructGPT進化之路

在預(yù)訓(xùn)練階段，GPT 選擇 transformer 的 decoder 部分作為模型的主要模塊，transformer 是 2017年 google 提出的一種特征抽取模型，GPT 以多層 transformer 堆疊的方式構(gòu)成了整個預(yù)訓(xùn)練模型結(jié)構(gòu)。

2023-03-03 11:14:37

3018

詳細介紹ChatGPT技術(shù)原理和架構(gòu)

模型選擇：ChatGPT 的開發(fā)人員選擇了 GPT-3.5 系列中的預(yù)訓(xùn)練模型，而不是對原始 GPT-3 模型進行調(diào)優(yōu)。使用的基線模型是最新版的 text-davinci-003（通過對程序代碼調(diào)優(yōu)的 GPT-3 模型）。

2023-03-08 09:28:00

352

ChatGPT升級　OpenAI史上最強大模型GPT-4發(fā)布

-4 是 Generative Pre-trained Transformer 4 的縮寫，即生成型預(yù)訓(xùn)練變換模型 4，是一個多模態(tài)大型語言模型。根據(jù)OpenAI的描述，GPT-4 支持接受圖像并理解圖像

2023-03-15 18:15:58

2363

GPT-4多模態(tài)模型發(fā)布，對ChatGPT的升級和斷崖式領(lǐng)先

而且 GPT-4 是多模態(tài)的，同時支持文本和圖像輸入功能。此外，GPT-4 比以前的版本“更大”，這意味著其已經(jīng)在更多的數(shù)據(jù)上進行了訓(xùn)練，并且在模型文件中有更多的權(quán)重，這也使得它的運行成本更高。

2023-03-17 10:31:07

2930

GTC 2023主題直播：NVIDIA Nemo構(gòu)建定制的語言文本轉(zhuǎn)文本

NVIDIA Nemo用于構(gòu)建定制的語言文本轉(zhuǎn)文本，客戶可以引入自己的模型，或從Nemo涵蓋了GPT-8、GPT-43到GPT-530等數(shù)十億參數(shù)的從創(chuàng)建專有模型到運營，NVIDIA AI專家將全程與您合作。

2023-03-22 11:22:25

497

淺談ChatGPT的最新“升級版本”——GPT4模型

北京時間3月15日凌晨，OpenAI發(fā)布了ChatGPT的最新“升級版本”——GPT4模型，OpenAI在官網(wǎng)表示，GPT4是一個能接受圖像和文本輸入，并輸出文本的多模態(tài)模型，是OpenAI在擴展

2023-03-22 22:26:18

2511

各種大語言模型是徹底被解封了

基礎(chǔ) LLM 基本信息表，GPT-style 表示 decoder-only 的自回歸語言模型，T5-style 表示 encoder-decoder 的語言模型，GLM-style 表示 GLM 特殊的模型結(jié)構(gòu)，Multi-task 是指 ERNIE 3.0 的模型結(jié)構(gòu)

2023-04-20 11:25:44

1071

AI大語言模型的原理、演進及算力測算專題報告

GPT是基于Transformer架構(gòu)的大語言模型，近年迭代演進迅速。構(gòu)建語言模型是自然語言處理中最基本和最重要的任務(wù)之一。GPT是基于Transformer架構(gòu)衍生出的生成式預(yù)訓(xùn)練的單向語言模型，通過對大量語料數(shù)據(jù)進行無監(jiān)督學(xué)習(xí)

2023-04-28 10:01:59

585

華碩發(fā)布“福爾摩斯大模型”，提供多樣式AI解決方案

大型語言模型“福爾摩斯大模型”。這款模型以1760億個參數(shù)打造，能夠和OpenAI的GPT-3.5模型相媲美。而實際上，華碩的AI工程團隊早在2018年就與英偉達合作，參與杉二、三、四號超級計算機開發(fā)工作，并于2021年投資成立臺智云，也成為亞洲地區(qū)唯一提供商用AI超算

2023-05-23 11:32:04

442

可商用多語言聊天LLM開源，性能直逼GPT-4

在針對英語、中文、法語、阿拉伯語、西班牙語、印度語這 6 種語言的評測中，GPT-4 的勝率為 54.75%，BLOOMChat 的勝率為 45.25%，稍弱于 GPT-4。但與其它 4 種主流的開源聊天 LLM 相比

2023-05-25 11:14:40

681

State of GPT：大神Andrej揭秘OpenAI大模型原理和訓(xùn)練過程

你可以看到，Llama 的參數(shù)數(shù)量大概是 650 億。現(xiàn)在，盡管與 GPT3 的 1750 億個參數(shù)相比，Llama 只有 65 個 B 參數(shù)，但 Llama 是一個明顯更強大的模型，直觀地說，這是

2023-05-30 14:34:56

642

華為版ChatGPT將7月發(fā)布或已接近GPT-3.5

華為版ChatGPT將7月發(fā)布或已接近GPT-3.5 在AI賽道華為即將披露大動作。市場傳言華為ChatGPT將在7月份正式發(fā)布，具體發(fā)布時間或者在7月7日的發(fā)布會上，也就是7月7日的華為云開發(fā)者

2023-06-06 12:47:02

2350

淺析AI大型語言模型研究的發(fā)展歷程

大型語言模型研究的發(fā)展有三條技術(shù)路線：Bert 模式、GPT 模式、混合模式。其中國內(nèi)大多采用混合模式，多數(shù)主流大型語言模型走的是 GPT 技術(shù)路線，直到 2022 年底在 GPT-3.5 的基礎(chǔ)上產(chǎn)生了 ChatGPT。

2023-06-09 12:34:53

3162

GPT總設(shè)計師：大型語言模型的未來

他預(yù)計，深度學(xué)習(xí)和大型語言模型會繼續(xù)發(fā)展：這個領(lǐng)域的未來可能會有一小部分重大突破，加之許多細微改進，所有這些都將融入到一個龐大而復(fù)雜的工程體系。他還給出了一些有趣、可執(zhí)行的思想實驗。

2023-06-12 16:38:48

262

一文讀懂大語言模型

本文旨在讓沒有計算機科學(xué)背景的人對ChatGPT和類似的人工智能系統(tǒng)(GPT-3、GPT-4、Bing Chat、Bard等)的工作原理有一些了解。ChatGPT是一種基于*大語言模型(Large Language Model)* 的對話式AI聊天機器人。

2023-06-16 09:59:04

1036

GPT-4處于一個什么樣的編碼地位

? 面試環(huán)節(jié)第一步——回答問題，寫軟件需求面試環(huán)節(jié)第二步——上手寫代碼測試用例 ? 比 ChatGPT 背后 GPT-3.5 更為強大的模型 GPT-4，已正式對外發(fā)布。在 OpenAI 官方

2023-06-16 10:42:22

392

DeepSpeed結(jié)合Megatron-LM訓(xùn)練GPT2模型筆記

本文基于DeepSpeedExamples倉庫中給出的Megatron相關(guān)例子探索一下訓(xùn)練GPT2模型的流程。主要包含3個部分，第一個部分是基于原始的Megatron如何訓(xùn)練GPT2模型，第二個部分

2023-06-19 14:45:13

1717

GPT-4已經(jīng)會自己設(shè)計芯片了嗎？

穿梭機上成功流片（tapeout）。這項成就，堪稱史無前例。這意味著，在大語言模型的幫助下，芯片設(shè)計行

2023-06-20 11:51:12

548

AI大模型網(wǎng)絡(luò)如何搭建

都知道，AIGC大模型的入局門檻是很高的。玩AI的三大必備要素——算力、算法和數(shù)據(jù)，每一個都意味著巨大的投入。 ? 以算力為例。ChatGPT的技術(shù)底座，是基于微調(diào)后的GPT3.5大模型，參數(shù)量多達1750億個。為了完成這個大模型的訓(xùn)練，微軟專門建設(shè)了一個AI超算系統(tǒng)，

2023-06-27 11:28:42

1784

態(tài)勢感知與GPT

　GPT是一種基于Transformer的預(yù)訓(xùn)練語言模型，可以用于自然語言處理中的各種任務(wù)。在態(tài)勢感知中，GPT可以用來對文本進行分類和情感分析，從而幫助用戶了解當前的輿情和社會熱點。例如，在某個

2023-07-07 11:23:29

323

微軟韋青：“大語言模型”之于人類，新啟蒙時代的思考

日前，由微軟和湛廬合辦的以 GPT 將如何改變世界為主題的新書共讀會上，有關(guān)以 GPT 為代表的大語言模型提升社會生產(chǎn)力，打破傳統(tǒng)人機交互模式的話題引起了與會者的廣泛思考。作為一種重要的推動力

2023-07-12 00:10:01

382

語言模型的發(fā)展歷程基于神經(jīng)網(wǎng)絡(luò)的語言模型解析

簡單來說，語言模型能夠以某種方式生成文本。它的應(yīng)用十分廣泛，例如，可以用語言模型進行情感分析、標記有害內(nèi)容、回答問題、概述文檔等等。但理論上，語言模型的潛力遠超以上常見任務(wù)。

2023-07-14 11:45:40

454

警惕邪惡版GPT！

WormGPT 基于 2021 年開源的 LLM GPT-J 模型開發(fā)，也是對話聊天機器人，可以處理人類自然語言提出的要求，并輸出所需的任何內(nèi)容，并且不承擔相應(yīng)的法律義務(wù)。

2023-07-29 16:35:29

1184

GPT-3.5 vs GPT-4：ChatGPT Plus 值得訂閱費嗎國內(nèi)怎么付費？

每月20美元）更智能、更準確。 OpenAI將GPT-4描述為“比其前身GPT-3.5先進10倍”。自從OpenAI的大語言模型(LLM)GPT-4發(fā)布以來，我一直在使用它的最新版本。通過

2023-08-02 12:09:35

2712

OpenAI已為GPT-5申請商標，GPT-5要來了？

OpenAI 此前曾在前幾代模型（例如 GPT-4 和 GPT-3.5）的商標申請中，使用過同樣的“用于使用語言模型的可下載計算機軟件”這一描述。但很遺憾，最新申請文件中透露的唯一關(guān)鍵細節(jié)就只有“GPT-5”字樣，并不代表 OpenAI 會在今年年內(nèi)發(fā)布新版本。

2023-08-02 15:51:36

448

chatGPT和GPT4有什么區(qū)別

chatGPT和GPT4有什么區(qū)別 GPT（Generative Pre-trained Transformer）系列模型由OpenAI公司開發(fā)，是一組用于自然語言處理（NLP）任務(wù)的人工智能模型

2023-08-09 15:18:56

1603

GPT-4沒有推理能力嗎？

今年三月，OpenAI 重磅發(fā)布了 GPT-4 大模型，帶來了比 ChatGPT 背后 GPT-3.5 更強的推理、計算、邏輯能力，也引發(fā)了全民使用的熱潮。在各行各領(lǐng)域研究人員、開發(fā)者、設(shè)計師的使用過程中，「GPT-4 是最為領(lǐng)先的大模型」似乎已成為了公認的結(jié)果。

2023-08-11 14:20:37

634

OpenAI開放大模型微調(diào)功能　GPT-3.5可以打造專屬ChatGPT

OpenAI開放大模型微調(diào)功能 GPT-3.5可以打造專屬ChatGPT OpenAI開放大模型微調(diào)功能，這意味著GPT-3.5 Turbo支持自定義微調(diào)；可以打造出專屬自己的ChatGPT。同時

2023-08-23 19:34:02

703

華為盤古大模型和GPT的區(qū)別

華為盤古大模型和GPT的區(qū)別? 隨著人工智能技術(shù)的不斷進步，機器學(xué)習(xí)領(lǐng)域的研究也越來越深入。在這其中，以自然語言處理技術(shù)為主要研究方向的人工智能算法受到了廣泛關(guān)注。在這個領(lǐng)域中，華為盤古大模型

2023-08-30 17:38:05

3081

盤古大模型和GPT3有哪些不同

幾個方面來探討盤古大模型和GPT-3的不同之處。一、概念定義差異盤古大模型，簡稱PGM，是中國科學(xué)院計算機網(wǎng)絡(luò)信息中心所研發(fā)的一種大規(guī)模中文自然語言處理預(yù)訓(xùn)練模型，它是以一種全新的方式來進行中文自然語言處理的。它可以像英文NLP預(yù)訓(xùn)練模型

2023-08-30 18:28:32

1201

FPGA加速器支撐ChatGPT類大語言模型創(chuàng)新

，大型語言模型（Large Language Models，LLM）徹底改變了自然語言處理領(lǐng)域，使機器能夠生成類似人類的文本并進行有意義的對話。這些模型，例如OpenAI的GPT，擁有驚人的語言理解和生成能力。它們可以被用于廣泛的自然語言處理任務(wù)，包括文本生成、翻譯、自動摘要、情緒分析等

2023-09-04 16:55:25

345

騰訊發(fā)布混元大語言模型

騰訊發(fā)布混元大語言模型騰訊全球數(shù)字生態(tài)大會上騰訊正式發(fā)布了混元大語言模型，參數(shù)規(guī)模超千億，預(yù)訓(xùn)練語料超2萬億tokens。作為騰訊自研的通用大語言模型，混元大語言模型具有中文創(chuàng)作能力、任務(wù)執(zhí)行

2023-09-07 10:23:54

815

一文詳解GPT tokenizer 的工作原理

語言大模型（如 GPT-3/4、LLaMA 和 PaLM）使用 token 作為基本單位進行工作。它們接受文本作為輸入，將其轉(zhuǎn)換為 token（整數(shù)），然后預(yù)測接下來應(yīng)該出現(xiàn)哪些 token。通過操作這些 token，可以更好地了解它們在語言模型內(nèi)部的工作原理。

2023-09-15 11:13:04

383

大語言模型（LLM）預(yù)訓(xùn)練數(shù)據(jù)集調(diào)研分析

大語言模型涉及數(shù)據(jù)的通常有有多個階段（Aligning language models to follow instructions [1] ）：pre-train、sft（supervised

2023-09-19 10:00:06

506

OpenAI最新大模型曝光！劍指多模態(tài)，GPT-4之后最大升級！

目前為止，OpenAI還沒有對爆料中的傳聞做出回應(yīng)，但此前發(fā)布過多模態(tài)模型測試。CEO奧特曼在回應(yīng)有關(guān)GPT-5的傳聞時，也暗示過GPT-4“正在增強”。

2023-09-20 17:34:41

799

實現(xiàn)移動版GPT有哪些方法？

管至少一個子集的大型語言模型（LLM）是有實際原因的，尤其是在大大改進自然語言處理方面。與此同時，這些模型通常與大型云平臺相關(guān)聯(lián)，其龐大的規(guī)模給任何將 LLM 移至邊緣設(shè)備的嘗試帶來了挑戰(zhàn)。向移動 GPT 過渡需要一些重大創(chuàng)新。

2023-09-21 11:31:46

177

ChatGPT Plus怎么支付 GPT4得訂閱嗎？

，GPT-3.5 和 GPT-4 模型的答案是否明顯不同？OpenAI 的網(wǎng)站上寫道：“GPT-4 擅長于需要高級推理

2023-10-10 12:16:28

1324

阿里云發(fā)布通義千問2.0，性能超GPT-3.5

在過去的6個月里，通義千問2.0與4月份推出的1.0版本相比，在復(fù)雜的命令理解、文學(xué)創(chuàng)作、通用數(shù)學(xué)、知識記憶、幻覺抵抗力等方面有了很大的提高。目前，通義千問的千托綜合性能已經(jīng)超過gpt-3.5，正在快速趕上gpt-4。

2023-11-01 09:57:49

390

ChatGPT重磅更新　OpenAI發(fā)布GPT-4 Turbo模型價格大降2/3

ChatGPT重磅更新 OpenAI發(fā)布GPT-4 Turbo模型價格大降2/3 目前OpenAI算是全球大模型的引領(lǐng)者，一舉一動都牽動著大家的關(guān)注，現(xiàn)在ChatGPT迎來重磅更新。 OpenAI

2023-11-07 18:20:03

2076

大語言模型簡介：基于大語言模型模型全家桶Amazon Bedrock

本文基于亞馬遜云科技推出的大語言模型與生成式AI的全家桶：Bedrock對大語言模型進行介紹。大語言模型指的是具有數(shù)十億參數(shù)（B+）的預(yù)訓(xùn)練語言模型（例如：GPT-3, Bloom, LLaMA)。這種模型可以用于各種自然語言處理任務(wù)，如文本生成、機器翻譯和自然語言理解等。

2023-12-04 15:51:46

356

大規(guī)模語言模型的基本概念、發(fā)展歷程和構(gòu)建流程

文本進行訓(xùn)練。自 2018 年以來，Google、OpenAI、Meta、百度、華為等公司和研究機構(gòu)都相繼發(fā)布了包括 BERT，GPT 等在內(nèi)多種模型，并在幾乎所有自然語言處理任務(wù)中都表現(xiàn)出色。2019

2023-12-07 11:40:43

1141

周鴻祎：長期看谷歌趕上GPT-4綽綽有余

從長遠來看，谷歌可以超越gpt-4。畢竟他是搜索出身，有數(shù)據(jù)優(yōu)勢，有大量的知識積累和沉淀。如果將搜索和大模型相結(jié)合，大模型將變得更實時、更全面、更準確，搜索本身也更智能。

2023-12-11 09:44:14

308

ChatGPT plus有什么功能？OpenAI 發(fā)布 GPT-4 Turbo 目前我們所知道的功能

截止、擴展的上下文窗口、預(yù)算友好的定價等。什么是GPT-4 Turbo？ GPT-4 Turbo是現(xiàn)有GPT-4大語言模型的更新。它帶來了一些改進，

2023-12-13 09:19:37

460

Mistral中杯代碼能力完勝GPT-4，成本暴降2/3

這個開源模型盡管尺寸不大，小到足以在一臺內(nèi)存100GB以上的電腦上運行，然而在某些基準測試中卻能和GPT-3.5打平，因此迅速在開發(fā)者中贏得了一片稱贊。

2023-12-18 16:55:08

350

大語言模型概述

在科技飛速發(fā)展的當今時代，人工智能技術(shù)成為社會進步的關(guān)鍵推動力之一。在廣泛關(guān)注的人工智能領(lǐng)域中，大語言模型以其引人注目的特性備受矚目。大語言模型的定義及發(fā)展歷史大語言模型是一類基于深度學(xué)習(xí)技術(shù)

2023-12-21 17:53:59

555

大語言模型使用指南

在信息爆炸的時代，我們渴望更智能、更高效的語言處理工具。GPT-3.5等大語言模型的崛起為我們提供了前所未有的機會。這不僅是技術(shù)的進步，更是人與機器共舞的一幕。本篇文章將帶你走進這個奇妙的語言王國

2023-12-29 14:18:59

276

OPPO推出GPT大模型手機搭載天璣9300卷天卷地卷大模型

OPPO推出GPT大模型手機？是的，只能說生成式 AI 實在是太爆火了，智能手機市場的競爭都只能繼續(xù)卷。今天OPPO推出 GPT 大模型手機 Find X7 系列。Find X7 系列的外觀設(shè)計

2024-01-08 18:52:15

648

科大訊飛星火認知大模型V3.5發(fā)布

近日，科大訊飛舉辦了星火認知大模型V3.5升級發(fā)布會。在發(fā)布會上，科大訊飛董事長劉慶峰和研究院院長劉聰共同宣布了基于首個全國產(chǎn)算力訓(xùn)練的訊飛星火V3.5的全新升級。

2024-01-31 17:28:05

855

全球最強大模型易主：GPT-4被超越，Claude 3系列嶄露頭角

近日，人工智能領(lǐng)域迎來了一場革命性的突破。Anthropic公司發(fā)布了全新的Claude 3系列模型，該系列模型在多模態(tài)和語言能力等關(guān)鍵指標上展現(xiàn)出卓越性能，成功超越了此前被廣泛認為是全球最強AI模型的GPT-4，樹立了新的行業(yè)標桿。

2024-03-05 09:42:51

188

Anthropic發(fā)布Claude 3系列，超越GPT-4和Gemini Ultra

人工智能領(lǐng)域的領(lǐng)軍企業(yè)Anthropic宣布推出全新的Claude 3系列模型，包括Claude 3 Opus、Claude 3 Sonnet和Claude 3 Haiku。據(jù)該公司稱，這一系列模型不僅在速度上超越了之前的所有模型，更在功能上實現(xiàn)了重大突破，成為迄今為止最強大的人工智能模型。

2024-03-05 09:43:47

154

全球最強大模型易主，GPT-4被超越

近日，AI領(lǐng)域的領(lǐng)軍企業(yè)Anthropic宣布推出全新的Claude 3系列模型，其中包括最強版Claude 3 Opus。據(jù)該公司稱，Claude 3系列在推理、數(shù)學(xué)、編碼、多語言理解和視覺方面全面超越了包括GPT-4在內(nèi)的所有大型模型，重新樹立了行業(yè)基準。

2024-03-05 09:58:03

207

OpenAI推出ChatGPT新功能：朗讀，支持37種語言，兼容GPT-4和GPT-3

據(jù)悉，“朗讀”功能支持37種語言，且能夠自主識別文本類型并對應(yīng)相應(yīng)的發(fā)音。值得關(guān)注的是，該功能對GPT-4以及GPT-3.5版本的ChatGPT均適用。此舉彰顯了OpenAI致力于“多模態(tài)交互”（multimodal capabilities）的方向

2024-03-05 15:48:33

195

Anthropic 發(fā)布 Claude 3 系列大模型和 AI 助手

中的表現(xiàn)超越了 GPT-4/3.5 和 Gemini 1.0 Ultra/Pro。 ? 目前Opus 和 Sonnet 已可通過 claude網(wǎng)站和 Claude API 使用,而 Haiku 將在未來幾周內(nèi)推出。 Claude 3 的主要改進增強的多語種處理能力對西班牙語

2024-03-08 12:29:16

162

微軟Copilot全面更新為OpenAI的GPT-4 Turbo模型

起初，Copilot作為Bing Chat AI助手推出，初期采用GPT-3.5模型，隨后升級至GPT-4取得顯著進步，如今再次更新至性能卓越的GPT-4 Turbo模型，這無疑將使得Copilot功能再上新臺階。

2024-03-13 13:42:37

129

GPT-4發(fā)布！多領(lǐng)域超越“人類水平”，專家：國內(nèi)落后2-3年

排隊申請內(nèi)測。對于GPT-4的性能，很多國外網(wǎng)友的描述都是“GPT-4，起飛！” ? 多模態(tài)大型語言模型GPT-4 GPT-4被定義為OpenAI發(fā)展的另一里程碑，其相較于上一代產(chǎn)品GPT-3.5

2023-03-16 01:58:00

3977

周鴻祎：國產(chǎn)大模型追趕GPT-4的速度遠超想象！AI數(shù)字人是大模型的重要應(yīng)用入口！

安全衛(wèi)士、360安全瀏覽器、360搜索。同時，360AI數(shù)字人也正式發(fā)布。 ? 在發(fā)布會現(xiàn)場，360創(chuàng)始人周鴻祎針表示，國產(chǎn)大模型在許多方面已經(jīng)趕上GPT3.5，追趕GPT4的速度遠超想象。在他看來，當前國內(nèi)各家企業(yè)的大模型基礎(chǔ)能力相差不大，接下來真正比拼的將是應(yīng)用落地能力

2023-06-15 01:07:00

1975

已全部加載完成

搜索歷史

超越GPT 3.5的小型語言模型案例概述

評論