大語言模型Fine-tuning踩坑經(jīng)驗分享

作者 |?FelixCoder

前言

由于 ChatGPT 和 GPT4 興起，如何讓人人都用上這種大模型，是目前 AI 領(lǐng)域最活躍的事情。當(dāng)下開源的??LLM（Large language model）非常多，可謂是百模大戰(zhàn)。面對諸多開源本地模型，根據(jù)自己的需求，選擇適合自己的基座模型和參數(shù)量很重要。選擇完后需要對訓(xùn)練數(shù)據(jù)進行預(yù)處理，往往這一步就難住很多同學(xué)，無從下手，更別說 training。

然后再對模型進行 finetuning 來更好滿足自己的下游任務(wù)。那么對于如果要訓(xùn)練一個專家模型。預(yù)訓(xùn)練也是必不可缺的工作。不管是預(yù)訓(xùn)練還是??finetuning（微調(diào)），無論選用何種方案，都避免不了訓(xùn)練中產(chǎn)生的災(zāi)難性遺忘問題，那么怎么減少和避免這種情況的發(fā)生，也是本文想講的一個重點。對于推理，在 GPU 資源不富裕的情況，如何最小化的利用內(nèi)存，提升推理效率，也是可以討論的內(nèi)容。

模型選擇

先看一下最好的模型有哪些，以下數(shù)據(jù)是最新 LLM 排行，來自?UC 伯克利?[1]

▲ FireShot Capture 015 - Chatbot Arena Leaderboard Week 8_ Introducing MT-Bench and Vicuna-33B_ - lmsys.org.png

當(dāng)然這里前 3 名都閉源模型，后面開源模型，大多數(shù)也都是英文的模型。如果 GPU 資源充足（至少 A100*8），這里也可以基于開源模型做中文的預(yù)訓(xùn)練，最后再 finetuning 。但我們沒有 GPU 資源，我們可以選擇開源的中文模型直接做微調(diào)。?

具體有哪些中文模型可以選擇，可以參考這兩個地址?中文語言理解測評基準(zhǔn)（CLUE）[2] 和?SuperCLUE 瑯琊榜?[3]。開源領(lǐng)域 ChatGLM，LLAMA，RWKV 主要就是這 3 種模型，中文好一點就是 ChatGLM，潛力最好的就是 LLAMA，RNN 架構(gòu)決定 RWKV 有很好的推理效率（隨輸入長度內(nèi)存占比線性自增，而 LLAMA 則是指數(shù)增加）和? Length Extrapolation?（關(guān)于長度外推性，可以參考蘇神的文章?[4]）。

當(dāng)然?MPT-7B-StoryWriter-65k+?[5] 模型也有較長的外推能力，主要在于，注意力這塊使用了?ALIBI?[6]。要擁有什么樣的長度，取決你的需求。對于對話模型，往往不需要那么長的外推能力。但對于想做知識庫領(lǐng)域相關(guān)的應(yīng)用，需要模型能夠看更多的內(nèi)容，是有這個需求的。

這里不做推薦，一切來自你的具體需求和 GPU 資源，不知道怎么樣選擇，可以將您的需求和資源情況留言，我給你做一個選擇。

模型大小選擇

當(dāng)然對于模型參數(shù)的選擇，往往是參數(shù)越大效果越好。如果資源充足，當(dāng)然是推薦 30B 以上的模型。不管是 6B, 7B 和 13B 同樣的訓(xùn)練數(shù)據(jù)，同樣訓(xùn)練參數(shù)，模型參數(shù)量大效果則優(yōu)于低參數(shù)的模型。那么根據(jù)模型參數(shù)，如何預(yù)估我們的訓(xùn)練所需的內(nèi)存開銷，這里有一個簡單的方法比如 6B 模型，60 億規(guī)模參數(shù)，根據(jù)以下公式計算：?

模型參數(shù) + 梯度參數(shù) + 優(yōu)化器參數(shù) = 6B * 1bytes + 6GB + 2*6GB = 24GB?

以上是全量預(yù)訓(xùn)練，當(dāng)然如果采用 lora 這種方法，則會有更低內(nèi)存占用。當(dāng)然我們還可以對模型進行量化，來提高內(nèi)存效率。?

注意：參數(shù)多量化低的模型要優(yōu)于參數(shù)低量化高的模型，舉例：33B-fb4 模型要優(yōu)于 13b-fb16 模型.

數(shù)據(jù)處理

對于 LLM 訓(xùn)練，數(shù)據(jù)質(zhì)量很重要。預(yù)訓(xùn)練時，我們可以將數(shù)據(jù)先進行預(yù)處理，比如對數(shù)據(jù)進行一定規(guī)則的篩選，數(shù)據(jù)去重，去除一些低質(zhì)量的數(shù)據(jù)。同時，我們可能面臨各種類型的數(shù)據(jù)，PDF，Word，HTML，代碼文件等等，對于這種不同類型的數(shù)據(jù)我們需要都處理成文本，同時還過濾掉一些干擾項或亂碼的數(shù)據(jù)。

當(dāng)然，我們也可以利用一些工具去處理，比如 justext?[7]，trafilatura?[8]，來提取文檔主要內(nèi)容，減少數(shù)據(jù)的噪音。對于空的文檔或文檔長度低于 100 進行過濾，進一步減少噪音。

對于一些機器生成的文本或 OCR?識別錯誤的文本，質(zhì)量不高，由沒有什么邏輯性，雖然比較難以檢測，但是還是會有一些工具能做這樣的事情，比如?ctrl-detector?[9]。當(dāng)然對于一些有毒的或帶有偏見的數(shù)據(jù)，可以采用?PerspectiveAPI?[10] 或垃圾郵件檢測的辦法來過濾。

我們還不得不考慮數(shù)據(jù)的一些隱私風(fēng)險，也需要考慮，比如身份證號，銀行卡等信息，比如 presidio 和 pii-codex 等工具提供了檢測、分析和處理文本數(shù)據(jù)中的個人身份信息的能力。

指令微調(diào)數(shù)據(jù)，我們可以使用?PromptSource?[11] 來創(chuàng)建微調(diào)數(shù)據(jù)。當(dāng)然我們還可以讓 GPT4 給我們標(biāo)注一些數(shù)據(jù)，這樣蒸餾知識，可以讓數(shù)據(jù)質(zhì)量進一步提升。這里我分享一個我使用的 Prompt 工程：

first_prompt?=?"""
作為一位專業(yè)的xxxx，您的任務(wù)是從給定的上下文回答問題。
給定的上下文：
"""
last_prompt?=?"""
請綜合上述信息，你給出的回復(fù)需要包含以下三個字段：
1.questions:?基于上下文內(nèi)容，提出與這個內(nèi)容相關(guān)的問題，至少兩個以上。
2.answers:?然后根據(jù)問題，分別給出每個問題的答案，請用 markdown 格式。
3.instruction:?給出上下文內(nèi)容的總結(jié)，盡量精簡，用 markdown 格式。
請按照以下JSON格式來回答：
前括號
??????"questions":?[
??????????"<內(nèi)容相關(guān)問題1>",
??????????"<內(nèi)容相關(guān)問題2>"
??????],
??????"answers":?[
???????????"<內(nèi)容相關(guān)問題1的答案>",
???????????"<內(nèi)容相關(guān)問題2的答案>"
??????],
??????instruction:?"<總結(jié)性的內(nèi)容>"
后括號
注意：如果碰到上下文內(nèi)容信息不夠，無法回答問題的情況，answers和questions可以返回空。
最后強調(diào)一下：你的回復(fù)將直接用于javascript的JSON.parse解析，所以注意一定要以標(biāo)準(zhǔn)的JSON格式做回答，不要包含任何其他非JSON內(nèi)容，否則你將被扣分?。?！
"""

微調(diào)方案

目前對于 LLM 微調(diào)方案有很多，我將常用的一些方案和相關(guān)資料做一個列舉。?

Prefix-Tuning（P-Tuning v2）[12]

Prompt Tuning?[13]

Lora?/?QLora [14]

根據(jù)實際經(jīng)驗，這里推薦采用 Lora 或 QLora。簡單介紹一下 QLoRA，重點改進是將模型采用 4bit 量化后加載，訓(xùn)練時把數(shù)值反量化到 bf16 后進行訓(xùn)練，利用 LoRA 可以鎖定原模型參數(shù)不參與訓(xùn)練，只訓(xùn)練少量 LoRA 參數(shù)的特性使得訓(xùn)練所需的顯存大大減少。例如 33B 的 LLaMA 模型經(jīng)過這種方式可以在 24GB 的顯卡上訓(xùn)練，也就是說消費級單卡都可以實現(xiàn)，大大降低了微調(diào)的門檻。

英文模型需要做詞表擴充嗎？

對于像 LLaMA 模型的詞表大小是 32K，其主要針對英語進行訓(xùn)練（具體詳見?LLaMA 論文 [15]），對多語種支持不是特別理想（可以對比一下多語言經(jīng)典模型 XLM-R 的詞表大小為 250K）。

通過初步統(tǒng)計發(fā)現(xiàn)，LLaMA 詞表中僅包含很少的中文字符，所以在切詞時會把中文切地更碎，需要多個 byte token 才能拼成一個完整的漢字，進而導(dǎo)致信息密度降低。比如，在擴展詞表后的模型中，單個漢字傾向于被切成 1 個 token，而在 LLaMA 中可能就需要 2-3 個才能組合成一個漢字，顯著降低模型的推理效率。

如何避免災(zāi)難遺忘

通常我們有以下方式，可以減少或避免災(zāi)難性遺忘問題

將重要的權(quán)重凍結(jié) - 像 Lora 就是采用的這種方案，只學(xué)習(xí)部分網(wǎng)絡(luò)權(quán)重。但這里 Lora 的配置其實是要注意一下，如果你是用 Lora 做預(yù)訓(xùn)練，lora 訓(xùn)練模塊可以配上 q_proj,v_proj,k_proj,o_proj??如果是微調(diào)則只需要訓(xùn)練? q_proj,v_proj? lora_rank 的設(shè)置也有講究，初始設(shè) lora_ran 為 8，訓(xùn)練存在遺忘時，可以將 lora_rank 改為 64（原因是與原模型數(shù)據(jù)領(lǐng)域相差較大的話，需要更大的秩，原論文有說明）。

復(fù)習(xí) - 跟人一樣，在預(yù)訓(xùn)練或微調(diào)時，回看之前訓(xùn)練的數(shù)據(jù)。還可以專門把特征圖存起來，量化以后放在一個類似于記憶庫的地方，之后在新任務(wù)上訓(xùn)練的時候從這個記憶庫里重構(gòu)出記憶和新數(shù)據(jù)一起訓(xùn)練。感興趣可以看這篇論文?[16]。?

MoE - 稀疏門控制的專家混合層，最近爆出 GPT4 是由 8 個 220B 的模型組合。關(guān)于?Moe 相關(guān)資料?[17]?大家自行了解。?

推理加速

對于推理，一般我們采用量化方案，這里有兩個辦法。第一個則是采用 ggml 工具，比如?llama.cpp?[18] 針對 llama 模型，將模型量化運行在 cpu 或 gpu 上，也可以 cpu 和 gpu 一起跑，內(nèi)存則大大減少，推理速度有極大的提高。?

▲ image.png

這里如果將 llama.cpp 運行在 gpu 上，編譯時一定要加?LLAMA_CUBLAS=1，同時推理的時候，指定? --gpu-layers|-ngl? 來分配運行在 gpu 上的層數(shù)，當(dāng)然越大，占用 gpu 的內(nèi)存會越多。

如果是 RWKV 模型，則考慮采用?rwkv.cpp?[19]，此方法與?llama.cpp?類似，使用方式也是類似的。

還有 Llama 模型還可以考慮使用?exllama?[20] 純 GPU 的加速，雖然還不夠完善，但也可以值得一試。

另一個，采用?LLM Accelerator?[21]，LLM 存在大量的相似性推理，基于此，可以做一些優(yōu)化加速推理，具體請看論文。最后采用架構(gòu)上的調(diào)整，faster transformer?[22] 要優(yōu)于傳統(tǒng)的 transformer 架構(gòu)。

總結(jié)

最后總結(jié)幾條原則：?

參數(shù)多量化低的模型要優(yōu)于參數(shù)低量化高的模型?

模型質(zhì)量與訓(xùn)練數(shù)據(jù)質(zhì)量是存在相關(guān)性的?

擴充中文詞表有助于提高推理效率?

微調(diào)推薦采用 Lora QLora 方案?

模型加速必然需要對模型進行量化

編輯：黃飛

閱讀全文

gpu(126255) gpu(126255)
數(shù)據(jù)處理(28213) 數(shù)據(jù)處理(28213)
ChatGPT(3870) ChatGPT(3870)
LLM(229) LLM(229)

嵌入式C語言代碼優(yōu)化的經(jīng)驗與方法

在本篇文章中，收集了很多經(jīng)驗和方法。應(yīng)用這些經(jīng)驗和方法，可以幫助我們從執(zhí)行速度和內(nèi)存使用等方面來優(yōu)化C語言代碼。

2023-02-02 09:17:22

215

如何利用Transformers了解視覺語言模型

將模型稱為 “視覺語言” 模型是什么意思？一個結(jié)合了視覺和語言模態(tài)的模型？但這到底是什么意思呢？

2023-03-03 09:49:37

665

嵌入式C語言代碼優(yōu)化的經(jīng)驗與方法

2023-03-08 13:27:00

142

2023年科技圈熱詞“大語言模型”，與自然語言處理有何關(guān)系

電子發(fā)燒友網(wǎng)報道（文/李彎彎）大語言模型（LLM）是基于海量文本數(shù)據(jù)訓(xùn)練的深度學(xué)習(xí)模型。它不僅能夠生成自然語言文本，還能夠深入理解文本含義，處理各種自然語言任務(wù)，如文本摘要、問答、翻譯

2024-01-02 09:28:33

1267

Arduino-IDE配置ESP32開發(fā)環(huán)境的正確方式

Arduino-IDE配置ESP32-CAM開發(fā)環(huán)境踩過的那些坑Arduino-IDE配置ESP32開發(fā)環(huán)境踩過的那些坑坑一IDE下載開發(fā)版速度慢：坑二get速度慢：坑三編譯出錯：坑N上傳出錯：坑一

2022-01-25 07:40:31

C語言中幾個容易踩的“坑”！

C語言中幾個容易踩的“坑”！今天給大家分享幾個C語言中的坑。一、帶參數(shù)的宏展開順序#include #define f(a,b) a##b#define g(a) #a#define h(a

2020-05-06 17:42:45

C語言中的坑有哪些？

總結(jié)幾個C語言中的“坑”

2020-12-28 06:11:15

C語言編程的學(xué)習(xí)經(jīng)驗和心得體會概括

C語言編程的學(xué)習(xí)經(jīng)驗和心得體會有哪些？

2021-11-03 06:03:51

Hi3516開箱貼及踩坑點

` 本帖最后由 PCB00023915 于 2020-11-3 12:25 編輯開箱：排好隊：裝好上電，還好沒冒煙：踩坑點：1.攝像頭的焦距沒有固定，如果發(fā)現(xiàn)攝像頭顏色偏紅可以擰動鏡頭

2020-11-03 11:54:28

Linux學(xué)習(xí)過程踩過的坑與如何解決踩坑

Linux踩坑記錄記錄Linux學(xué)習(xí)過程踩過的坑與如何解決踩坑1解決方法:F10進入BIOS使能虛擬化技術(shù)

2021-11-04 08:44:19

NodeMCU開發(fā)板踩坑經(jīng)歷分享

寫在前面今天入手了一個NodeMCU的板子，準(zhǔn)備學(xué)習(xí)一下物聯(lián)網(wǎng)相關(guān)的知識。不過由于博主學(xué)藝不精，在第一步燒寫固件上就踩坑了，所以就想著把自己的踩坑經(jīng)歷寫出來分享給大家，希望能有一些幫助~ 材料準(zhǔn)備硬件：NodeMCU開發(fā)板*1（某寶指導(dǎo)價15.8元?。┸浖?/div>

2021-11-01 07:55:20

STC8A8K和LDV7語言模塊的使用

為了電賽準(zhǔn)備的，無奈都沒用上，這里分享一下踩過的坑。STC8A8KYS-LDV7語音識別模塊STC是51增強版，開發(fā)亦使用keil4(語音模塊也一樣，以下省略)，但是stc頭文件是的大坑，keil4總也找不到=

2022-01-27 06:33:57

STM32F401CCU6踩坑注意事項

STM32F401CCU6踩坑注意事項STM32F401CCU6與STM32F103C8T6相比，引腳基本上完全兼容，但是有一個引腳（PB11）必須注意，否則會引起單片機個工作不穩(wěn)定，甚至不能正常

2021-08-20 07:28:11

STM32G070CB cubemx串口調(diào)試踩過哪些坑呢

使用G070CB時寫的中斷程序是怎樣的？STM32G070CB cubemx串口調(diào)試踩過哪些坑呢？

2022-02-18 06:08:10

STM32H7+UCOSIII+LWIP踩坑記錄相關(guān)資料推薦

STM32H7+UCOSIII+LWIP踩坑記錄主要功能：單片機作TCP服務(wù)器實現(xiàn)PC端多客戶端連接單片機，并發(fā)傳輸數(shù)據(jù)。坑點1、優(yōu)先級問題：一個客戶端連接就創(chuàng)建一個線程，優(yōu)先級由高到低遞減，即先

2022-02-18 06:30:02

STM32基礎(chǔ)知識入門避坑指南

一STM32入門踩坑筆記——（2）無敵的我、又回來了。。。。又是元氣滿滿的一天、又是踩坑崩潰的一天。昨晚上連夜把跑馬燈寄存器版本搞定了。這里需要聲明一下。哈哈、首先說我不是水軍或者托兒哈?。∥?/div>

2021-08-03 07:30:58

STM32編程常踩的坑有哪些？

2021-12-17 06:15:28

Xavier入門踩坑PWM問題解決方法

Xavier入門踩坑PWM問題解決方法GPIO問題解決方法PWM問題由于需要做外部傳感器的觸發(fā)同步，所以需要一個方波，考慮用Xavier的PWM，結(jié)果折騰了好久發(fā)現(xiàn)需要配置內(nèi)部硬件，折騰了好久也沒

2022-01-10 08:11:23

python2和python3同時安裝的詳細步驟

整理下python2和python3同時安裝詳細步驟希望對大家有幫助坑已踩過（親測可用?。。。?/div>

2020-10-27 09:31:54

《電子產(chǎn)品設(shè)計寶典可靠性原則2000條》+ 避免踩別人踩過的坑——一本非常由價值的經(jīng)驗總結(jié)分享書

自己去總結(jié)，可能需要多年，甚至需要諸多踩坑經(jīng)歷才可能有所體會，這本書能分享出來，對于初學(xué)者來說值得去好好學(xué)習(xí)思考，理解背后的背景原理。大部分內(nèi)容個人覺得都是很有價值的經(jīng)驗，也非常贊同，工作中也

2023-05-13 20:50:39

【EVB-T335開發(fā)板試用體驗】2、開發(fā)環(huán)境搭建+踩坑紀(jì)錄

的搭建與踩坑紀(jì)錄；主要包括以下內(nèi)容：一軟件安裝1 VMWare WorkStation虛擬機的安裝2 Ubuntu操作系統(tǒng)的選擇與安裝3 Xshell串口終端的安裝二開發(fā)環(huán)境1

2017-03-06 21:20:16

【HarmonyOS HiSpark AI Camera】Hi3516開箱貼及踩坑點

原文鏈接：https://bbs.elecfans.com/jishu_2004436_1_1.html開箱：排好隊：裝好上電，還好沒冒煙：踩坑點：1.攝像頭的焦距沒有固定，如果發(fā)現(xiàn)攝像頭顏色偏

2020-11-03 16:08:05

【HarmonyOS HiSpark AI Camera試用連載】在CentOS上的編譯工具——踩坑和填坑

--with-universal-archs配置目錄make & make install就安裝好了，在這里，我踩了一個坑Failed to build these modules:_ctypes這個地方

2020-11-17 18:39:32

【HarmonyOS HiSpark AI Camera試用連載】開箱安裝及編譯環(huán)境踩坑

到Hi3516-HiTool.zip 接著分享下編譯環(huán)境搭建踩的幾個坑我之前已經(jīng)有搭建好wifi-iot的編譯環(huán)境，天真的我以為AI Carmera應(yīng)該也能直接編譯過吧，然而并不是。1./bin/sh

2021-01-09 20:51:57

【STM32+機智云】機智云手機APP點燈實驗踩坑記錄精選資料分享

【STM32+機智云】機智云手機APP點燈實驗踩坑記錄一、實驗背景因為項目開發(fā)需要用到云平臺，所以開始學(xué)習(xí)機智云平臺，聽說機智云比較容易入門，還有手機APP。因此開始了踩坑之旅，一切的一切開始于一天

2021-08-04 08:30:04

【書籍評測活動NO.30】大規(guī)模語言模型：從理論到實踐

更多的自然語言處理研究人員和對大語言模型感興趣的讀者能夠快速了解大模型的理論基礎(chǔ)，并開展大模型實踐，復(fù)旦大學(xué)張奇教授團隊結(jié)合他們在自然語言處理領(lǐng)域的研究經(jīng)驗，以及分布式系統(tǒng)和并行計算的教學(xué)經(jīng)驗，在

2024-03-11 15:16:39

【書籍評測活動NO.31】大語言模型：原理與工程實踐

實際操作的指導(dǎo)。為了填補這一空白，我們歷經(jīng)一年的實踐和探索，決定分享我們的經(jīng)驗和成果，旨在為大語言模型的初學(xué)者和實踐者提供快速入門和應(yīng)用的途徑。為應(yīng)對技術(shù)的快速演進和信息的日新月異，我們建立了一個

2024-03-18 15:49:46

【國民技術(shù)N32項目移植】匯總一下我踩過的那些坑

【國民技術(shù)N32項目移植】匯總一下我踩過的那些坑國民技術(shù)與電子發(fā)燒友聯(lián)合舉辦的N32 MCU移植挑戰(zhàn)賽，從10月份開始報名，到現(xiàn)在已經(jīng)持續(xù)好幾個月了，現(xiàn)在馬上就接近最后交作品的日期了，我也要趕在

2023-02-28 16:42:55

一文為大家介紹PCB畫板時常見的鉆孔問題，避免后續(xù)踩同樣的坑

的出現(xiàn)。本文為大家介紹PCB畫板時常見的鉆孔問題，避免后續(xù)踩同樣的坑。鉆孔分為三類，通孔、盲孔、埋孔。通孔有插件孔（PTH）、螺絲定位孔（NPTH）,盲、埋孔和通孔的過孔（VIA)都是起到多層電氣導(dǎo)

2022-09-23 11:05:20

使用MDK5時出現(xiàn)過的一些error踩過的坑分享

2021-12-17 07:49:07

使用STM32采集電池電壓踩過的那些坑

本文來解析一個盆友在使用STM32采集電池電壓踩過的坑。以STM32F4 的ADC屬于逐次逼近SAR 型ADC為例進行分析，參考STM32F405xxDatasheet，對于如何編寫ADC程序就不做描述了。

2021-03-01 07:39:43

使用樹莓派搭建stm32開發(fā)環(huán)境踩過的坑以及碰到的問題

使用樹莓派搭建stm32開發(fā)環(huán)境踩了很多坑，下面主要是記錄一下踩過的坑，以及碰到的問題。##開發(fā)方式的選擇1.使用Eclipse+GDB+OpenOCD+STlink這種方式我發(fā)現(xiàn)eclipse

2021-08-24 07:47:50

全志V853開發(fā)板試用測評報告-二開發(fā)板連接踩坑記錄

全志V853開發(fā)板試用測評報告二，開發(fā)板連接踩坑記因為最近一直在開發(fā)嵌入式AI方面的產(chǎn)品，所以很關(guān)注高性價比的嵌入式開發(fā)平臺，在電子愛好者平臺偶然看到一款全志新推出的非常高性能的具備AI能力的開發(fā)板

2022-08-30 15:07:22

關(guān)于RK1808板子調(diào)試過程踩過的坑記錄

2022-02-16 06:38:27

關(guān)于自然語言處理之54 語言模型(自適應(yīng))

自然語言處理——54 語言模型(自適應(yīng))

2020-04-09 08:20:30

學(xué)習(xí)C語言的經(jīng)驗分享

怎么學(xué)C語言最快？大學(xué)生只會用C語言寫簡單的計算怎么辦？

2021-11-02 08:31:01

建分析模型？自帶分析模型的bi系統(tǒng)了解一下嗎？

個人做數(shù)據(jù)可視化就算了，但凡上升到部門級的、企業(yè)級的，都少不了搭建數(shù)據(jù)分析模型，但數(shù)據(jù)分析模型不是那么好搭建的，經(jīng)驗不足、考慮不周都將影響到后續(xù)的數(shù)據(jù)可視化分析。有些企業(yè)用戶就是在搭建分析模型時沒做

2022-05-17 10:03:14

開發(fā)STM32 USB HID踩過的坑

記錄一下開發(fā)STM32 USB HID踩過的坑一、前言二、代碼配置一、前言MCU: STM32F103C8T6CubeMX: STM32CubeMX 5.3.0二、代碼配置引腳配置時鐘樹配置我

2021-08-24 07:15:32

總結(jié)一下GD32F13x移植踩過的坑

奇奇怪怪的問題，下面總結(jié)一下踩過的坑。第一次移植GD時，沒有完全移植，只是部分外設(shè)移植，導(dǎo)致配置混亂。STM和GD在寄存器命名上有區(qū)別，部分寄存器GD專用，導(dǎo)致配置困難，所以，最后進行了完全移植。GD和ST的一些差異執(zhí)行速度差異GD32采用專利技術(shù)，提高了相同工作頻率下的代碼執(zhí)行速度，這樣一些在S

2022-02-11 07:54:24

是否有PLC5LP的PLL可能性微調(diào)輸出頻率分辨率為0.1赫茲？

at 32.768 kHz (standard Quartz oscillator frequency). I need such fine-tuning to syncronize 32.76 kHz signals on two separate devices within approx.

2019-07-26 14:33:11

有沒有關(guān)于STM32入門踩坑經(jīng)驗分享

有沒有關(guān)于STM32入門踩坑經(jīng)驗分享

2021-10-13 06:52:59

電源設(shè)計容易踩的坑和線性穩(wěn)壓選型過程

前文提到了一些線性穩(wěn)壓的主要特點，本文作者將結(jié)合NXP智能車大賽實際案例，說一下電源設(shè)計容易踩的坑和線性穩(wěn)壓選型過程。文章目錄主要參數(shù)輸入電壓輸出電壓主要參數(shù)在為實際應(yīng)用電路設(shè)計電源的時候，首先要

2021-11-12 07:54:58

移植debian系統(tǒng)踩過的坑

基本的linux系統(tǒng)，板子的交叉編譯器是arm-linux-gnueabihf-gcc,這給我?guī)砹瞬簧俚穆闊?，以至于想重新移植一下debian系統(tǒng)。ok，轉(zhuǎn)入正題，說說這兩天我踩的坑吧。首先...

2021-12-14 08:42:53

自然語言處理的語言模型

自然語言處理——53 語言模型（數(shù)據(jù)平滑）

2020-04-16 11:11:25

記錄寫SAM4S的bootloader所踩的坑

2022-01-24 07:16:14

輪胎穩(wěn)態(tài)側(cè)向半經(jīng)驗模型的研究

輪胎穩(wěn)態(tài)側(cè)向半經(jīng)驗模型的研究輪胎半經(jīng)驗模型在汽車的動力學(xué)仿真研究中具有至關(guān)重要的作用。本文在總結(jié)輪胎半經(jīng)驗模型參數(shù)識別的最優(yōu)方法的基礎(chǔ)上，對側(cè)偏側(cè)傾聯(lián)合工況下的我國郭孔輝院士的統(tǒng)一模型和荷蘭

2009-12-02 12:36:52

鴻蒙OS踩坑之旅（Hi3861開發(fā)環(huán)境配置）

前幾天在知乎發(fā)表了篇記錄文章，今天通過直播得知有鴻蒙社區(qū)，故再搬過來趁正式開課前的周末配一波環(huán)境，因為熟練度（菜）的問題T T，踩了不少坑，特意記錄一下。參考：https

2020-09-15 21:48:14

Antenna Tuning Approach Aids C

and emerging technologies for efficient antenna tuning in wireless handset devices.

2010-02-25 23:36:01

Hand-Tuning Loops and Control Code on the TMS320C6000

Hand-Tuning Loops and Control Code on the TMS320C6000

2016-08-08 18:27:32

唇語識別中的話題相關(guān)語言模型研究_王淵

2017-03-19 11:28:16

自然語言處理常用模型解析

自然語言處理常用模型使用方法一、N元模型二、馬爾可夫模型以及隱馬爾可夫模型及目前常用的自然語言處理開源項目/開發(fā)包有哪些？

2017-12-28 15:42:30

5382

魚與熊掌：Bert應(yīng)用模式比較與選擇

GPT和Bert則采取了另外一種應(yīng)用模式：Fine-tuning。意思是：在獲得了預(yù)訓(xùn)練模型以及對應(yīng)的網(wǎng)絡(luò)結(jié)構(gòu)（Transformer）后，第二個階段仍然采用與預(yù)訓(xùn)練過程相同的網(wǎng)絡(luò)結(jié)構(gòu)，拿出手頭任務(wù)

2019-05-14 09:25:02

3182

如何使用較小的語言模型，并用少量樣本來微調(diào)語言模型的權(quán)重

名為LM-BFF（better few-shot fine-tuning fo language models）的方法相比

2021-01-07 14:27:36

1850

基于預(yù)訓(xùn)練視覺-語言模型的跨模態(tài)Prompt-Tuning

、新加坡國立大學(xué) 鏈接：https://arxiv.org/pdf/2109.11797.pdf 提取摘要預(yù)訓(xùn)練的視覺語言模型（VL-PTMs）在將自然語言融入圖像數(shù)據(jù)中顯示出有前景的能力，促進

2021-10-09 15:10:42

2926

當(dāng)“大”模型遇上“小”數(shù)據(jù)

Child-Tuning，推薦給大家。” 自BERT火了以后，基本上現(xiàn)在所有NLP領(lǐng)域都all in Pre-training Fine-tuning了吧？但當(dāng)“大”規(guī)模預(yù)訓(xùn)練模型遇上“小”規(guī)模標(biāo)注數(shù)據(jù)

2021-11-09 15:49:41

1640

一種基于亂序語言模型的預(yù)訓(xùn)練模型-PERT

由于亂序語言模型不使用[MASK]標(biāo)記，減輕了預(yù)訓(xùn)練任務(wù)與微調(diào)任務(wù)之間的gap，并由于預(yù)測空間大小為輸入序列長度，使得計算效率高于掩碼語言模型。PERT模型結(jié)構(gòu)與BERT模型一致，因此在下游預(yù)訓(xùn)練時，不需要修改原始BERT模型的任何代碼與腳本。

2022-05-10 15:01:27

1173

如何更高效地使用預(yù)訓(xùn)練語言模型

本文對任務(wù)低維本征子空間的探索是基于 prompt tuning, 而不是fine-tuning。原因是預(yù)訓(xùn)練模型的參數(shù)實在是太多了，很難找到這么多參數(shù)的低維本征子空間。作者基于之前的工作提出

2022-07-08 11:28:24

935

Transformer的細節(jié)和效果如何

在文本理解任務(wù)(Natural Language Understanding)上，預(yù)訓(xùn)練模型已經(jīng)取得了質(zhì)的飛躍，語言模型預(yù)訓(xùn)練+下游任務(wù)fine-tune基本上已經(jīng)成為標(biāo)配。

2022-08-30 10:12:28

727

NVIDIA NeMo最新語言模型服務(wù)幫助開發(fā)者定制大規(guī)模語言模型

NVIDIA NeMo 大型語言模型（LLM）服務(wù)幫助開發(fā)者定制大規(guī)模語言模型；NVIDIA BioNeMo 服務(wù)幫助研究人員生成和預(yù)測分子、蛋白質(zhì)及 DNA

2022-09-22 10:42:29

742

采用P-Tuning解決非英語下游任務(wù)

　　隨著對預(yù)訓(xùn)練大型語言模型（ LLM ）權(quán)重訪問需求的增加，圍繞 LLM 共享的環(huán)境正在發(fā)生變化。最近， Meta 發(fā)布了開式預(yù)訓(xùn)練Transformer ，一個具有 1750 億個參數(shù)的語言模型。 BigScience 計劃在幾個月內(nèi)發(fā)布具有 1760 億個參數(shù)的多語言模型。

2022-10-10 11:46:27

1514

一種基于new concepts的text-to-image生成模型的fine-tuning方法

通過簡單文本prompts，用戶能夠生成前所未有的質(zhì)量的圖像。這樣的模型可以生成各種各樣的對象、風(fēng)格和場景，并把它們進行組合排序，這讓現(xiàn)有的圖像生成模型看上去是無所不能的。

2023-01-03 17:08:17

741

支持Python和Java的BigCode開源輕量級語言模型

BigCode 是一個開放的科學(xué)合作組織，致力于開發(fā)大型語言模型。近日他們開源了一個名為 SantaCoder 的語言模型，該模型擁有 11 億個參數(shù)

2023-01-17 14:29:53

692

Prompt Tuning相比于Fine Tuning在哪些場景下表現(xiàn)更好？

第三范式：基于「預(yù)訓(xùn)練模型 + finetuning」的范式，如 BERT + finetuning 的NLP任務(wù)，相比于第二范式，模型準(zhǔn)確度顯著提高，但是模型也隨之變得更大，但小數(shù)據(jù)集就可訓(xùn)練出好模型；

2023-02-02 14:36:33

2078

有了Fine-tune-CoT方法，小模型也能做推理，完美逆襲大模型

如果給語言模型生成一些 prompting，它還向人們展示了其解決復(fù)雜任務(wù)的能力。標(biāo)準(zhǔn) prompting 方法，即為使用少樣本的問答對或零樣本的指令的一系列方法，已經(jīng)被證明不足以解決需要多個推理步驟的下游任務(wù)（Chowdhery 等，2022）。

2023-02-02 16:15:26

772

嵌入式C語言代碼優(yōu)化經(jīng)驗與方法

在本篇文章中，收集了很多經(jīng)驗和方法。應(yīng)用這些經(jīng)驗和方法，可以幫助我們從執(zhí)行速度和內(nèi)存使用等方面來優(yōu)化C語言代碼。簡介在最近的一個項目中，我們需要開發(fā)一個運行在移動設(shè)備上但不保證圖像高質(zhì)量的輕量級

2023-02-09 01:21:39

370

詳細解讀ChatGPT 背后的技術(shù)重點

通常，基礎(chǔ)模型的語言建模目標(biāo)不足以讓模型學(xué)會以有用的方式遵循用戶的指令。模型創(chuàng)建者使用「指令微調(diào) (Instruction Fine-Tuning，IFT)」方法來達到該目的。

2023-02-09 10:20:39

622

大型語言模型有哪些用途？

大型語言模型能識別、總結(jié)、翻譯、預(yù)測和生成文本及其他內(nèi)容。 AI 應(yīng)用在大型語言模型的幫助下，可用于解決總結(jié)文章、編寫故事和參與長對話等多種繁重工作。大型語言模型（LLM）是一種深度學(xué)習(xí)算法，可以

2023-02-23 19:50:04

3887

大型語言模型有哪些用途？大型語言模型如何運作呢？

大型語言模型能識別、總結(jié)、翻譯、預(yù)測和生成文本及其他內(nèi)容。

2023-03-08 13:57:00

6989

各種大語言模型是徹底被解封了

基礎(chǔ) LLM 基本信息表，GPT-style 表示 decoder-only 的自回歸語言模型，T5-style 表示 encoder-decoder 的語言模型，GLM-style 表示 GLM 特殊的模型結(jié)構(gòu)，Multi-task 是指 ERNIE 3.0 的模型結(jié)構(gòu)

2023-04-20 11:25:44

1071

自然語言和ChatGPT的大模型調(diào)教攻略

指令調(diào)整（Instruction Tuning）將多種任務(wù)轉(zhuǎn)化成自然語言表述的形式，再通過seq2seq的監(jiān)督學(xué)習(xí)+多任務(wù)學(xué)習(xí)的方式調(diào)整大規(guī)模語言模型的參數(shù)。

2023-04-24 10:28:29

518

AI大語言模型的原理、演進及算力測算專題報告

GPT是基于Transformer架構(gòu)的大語言模型，近年迭代演進迅速。構(gòu)建語言模型是自然語言處理中最基本和最重要的任務(wù)之一。GPT是基于Transformer架構(gòu)衍生出的生成式預(yù)訓(xùn)練的單向語言模型，通過對大量語料數(shù)據(jù)進行無監(jiān)督學(xué)習(xí)

2023-04-28 10:01:59

585

PyTorch教程9.3.之語言模型

電子發(fā)燒友網(wǎng)站提供《PyTorch教程9.3.之語言模型.pdf》資料免費下載

2023-06-05 09:59:00

PyTorch教程-9.3. 語言模型

9.3. 語言模型? Colab [火炬]在 Colab 中打開筆記本 Colab [mxnet] Open the notebook in Colab Colab [jax

2023-06-05 15:44:24

268

650億參數(shù)，8塊GPU就能全參數(shù)微調(diào)！邱錫鵬團隊把大模型門檻打下來了！

在上周復(fù)旦大學(xué)邱錫鵬團隊提交的論文《Full Parameter Fine-tuning for Large Language Models with Limited Resources》中，研究人員提出了一種新的優(yōu)化器 LOw-Memory Optimization（LOMO）。

2023-06-21 14:00:34

598

大型語言模型的應(yīng)用

?? 大型語言模型（LLM）是一種深度學(xué)習(xí)算法，可以通過大規(guī)模數(shù)據(jù)集訓(xùn)練來學(xué)習(xí)識別、總結(jié)、翻譯、預(yù)測和生成文本及其他內(nèi)容。大語言模型（LLM）代表著 AI 領(lǐng)域的重大進步，并有望通過習(xí)得的知識改變

2023-07-05 10:27:35

1463

達觀曹植大模型正式對外公測！專注于長文本、多語言、垂直化發(fā)展

工程實踐經(jīng)驗，已開發(fā)出具有長文本、多語言、垂直化三大特點的專用國產(chǎn)“曹植”大語言模型。7月伊始，達觀正式對外發(fā)布“曹植”大語言模型應(yīng)用公測版，可在達觀數(shù)據(jù)官網(wǎng)申請試用！申請通道與規(guī)則 1?申請通道公司官網(wǎng)申請通道

2023-07-12 15:04:01

552

語言模型的發(fā)展歷程基于神經(jīng)網(wǎng)絡(luò)的語言模型解析

簡單來說，語言模型能夠以某種方式生成文本。它的應(yīng)用十分廣泛，例如，可以用語言模型進行情感分析、標(biāo)記有害內(nèi)容、回答問題、概述文檔等等。但理論上，語言模型的潛力遠超以上常見任務(wù)。

2023-07-14 11:45:40

454

自動駕駛中道路異常檢測的方法解析

個fine-tuning過程中, 利用新加入的OoD object來強行增加原本segmentation模型對異常的敏感度, 使得其OoD分割的性能得到了非常大的提升。

2023-08-15 10:43:46

611

清華大學(xué)大語言模型綜合性能評估報告發(fā)布！哪個模型更優(yōu)秀？

近日，清華大學(xué)新聞與傳播學(xué)院發(fā)布了《大語言模型綜合性能評估報告》，該報告對目前市場上的7個大型語言模型進行了全面的綜合評估。近年，大語言模型以其強大的自然語言處理能力，成為AI領(lǐng)域的一大熱點。它們

2023-08-10 08:32:01

607

檢索增強的語言模型方法的詳細剖析

? 本篇內(nèi)容是對于ACL‘23會議上陳丹琦團隊帶來的Tutorial所進行的學(xué)習(xí)記錄，以此從問題設(shè)置、架構(gòu)、應(yīng)用、挑戰(zhàn)等角度全面了解檢索增強的語言模型，作為對后續(xù)工作的準(zhǔn)備與入門，也希望能給大家?guī)?/div>

2023-08-21 09:58:01

1234

大語言模型“書生·浦語”多項專業(yè)評測拔頭籌

最近，AI大模型測評火熱，尤其在大語言模型領(lǐng)域，“聰明”的上限被不斷刷新。商湯與上海AI實驗室等聯(lián)合打造的大語言模型“書生·浦語”（InternLM）也表現(xiàn)出色，分別在智源FlagEval

2023-08-25 13:00:02

315

訓(xùn)練大語言模型帶來的硬件挑戰(zhàn)

生成式AI和大語言模型（LLM）正在以難以置信的方式吸引全世界的目光，本文簡要介紹了大語言模型，訓(xùn)練這些模型帶來的硬件挑戰(zhàn)，以及GPU和網(wǎng)絡(luò)行業(yè)如何針對訓(xùn)練的工作負載不斷優(yōu)化硬件。

2023-09-01 17:14:56

1046

騰訊發(fā)布混元大語言模型

騰訊發(fā)布混元大語言模型騰訊全球數(shù)字生態(tài)大會上騰訊正式發(fā)布了混元大語言模型，參數(shù)規(guī)模超千億，預(yù)訓(xùn)練語料超2萬億tokens。作為騰訊自研的通用大語言模型，混元大語言模型具有中文創(chuàng)作能力、任務(wù)執(zhí)行

2023-09-07 10:23:54

815

華為提出Sorted LLaMA：SoFT代替SFT，訓(xùn)練多合一大語言模型

而這一切的背后，是一項名為Sorted Fine-Tuning（SoFT）的新訓(xùn)練技術(shù)。SoFT讓我們可以在一個訓(xùn)練周期內(nèi)產(chǎn)出多個子模型，無需任何額外的預(yù)訓(xùn)練步驟。此外，這項技術(shù)還揭示了模型的中間層也能夠產(chǎn)生高質(zhì)量的輸出，這一點在之前的研究中常常被忽視。

2023-09-26 16:26:31

440

揭秘編碼器與解碼器語言模型

Transformer 架構(gòu)的問世標(biāo)志著現(xiàn)代語言大模型時代的開啟。自 2018 年以來，各類語言大模型層出不窮。

2023-10-24 11:42:05

337

基于檢索的大語言模型簡介

簡介章節(jié)講的是比較基礎(chǔ)的，主要介紹了本次要介紹的概念，即檢索（Retrieval）和大語言模型（LLM）

2023-11-15 14:50:36

282

深度對談：廣告創(chuàng)意領(lǐng)域中AIGC的應(yīng)用

隨著 AI 能力的提升，人們需要深入使用并掌握它。像 fine-tuning、LangChain 等我不會推薦，我會鼓勵周圍的人去深入使用 AIGC，重點在于使用，好的 AGI 只需要被編譯一次。

2023-11-29 17:14:05

569

大語言模型簡介：基于大語言模型模型全家桶Amazon Bedrock

本文基于亞馬遜云科技推出的大語言模型與生成式AI的全家桶：Bedrock對大語言模型進行介紹。大語言模型指的是具有數(shù)十億參數(shù)（B+）的預(yù)訓(xùn)練語言模型（例如：GPT-3, Bloom, LLaMA)。這種模型可以用于各種自然語言處理任務(wù)，如文本生成、機器翻譯和自然語言理解等。

2023-12-04 15:51:46

356

大語言模型概述

在科技飛速發(fā)展的當(dāng)今時代，人工智能技術(shù)成為社會進步的關(guān)鍵推動力之一。在廣泛關(guān)注的人工智能領(lǐng)域中，大語言模型以其引人注目的特性備受矚目。大語言模型的定義及發(fā)展歷史大語言模型是一類基于深度學(xué)習(xí)技術(shù)

2023-12-21 17:53:59

555

大語言模型使用指南

在信息爆炸的時代，我們渴望更智能、更高效的語言處理工具。GPT-3.5等大語言模型的崛起為我們提供了前所未有的機會。這不僅是技術(shù)的進步，更是人與機器共舞的一幕。本篇文章將帶你走進這個奇妙的語言王國

2023-12-29 14:18:59

276

四種微調(diào)大模型的方法介紹

全微調(diào)（Full Fine-tuning）：全微調(diào)是指對整個預(yù)訓(xùn)練模型進行微調(diào)，包括所有的模型參數(shù)。在這種方法中，預(yù)訓(xùn)練模型的所有層和參數(shù)都會被更新和優(yōu)化，以適應(yīng)目標(biāo)任務(wù)的需求。

2024-01-03 10:57:21

2301

大語言模型中的語言與知識：一種神秘的分離現(xiàn)象

自然語言處理領(lǐng)域存在著一個非常有趣的現(xiàn)象：在多語言模型中，不同的語言之間似乎存在著一種隱含的對齊關(guān)系。

2024-02-20 14:53:06

已全部加載完成

搜索歷史

大語言模型Fine-tuning踩坑經(jīng)驗分享

評論