大模型開始滿天飛,動不動就是千億參數(shù)的大模型,對于大部分廠家來說做大模型還是有點遙不可及(太消耗資源了o(╥﹏╥)o)。但也不要氣餒,大模型的發(fā)展同樣面臨瓶頸,訓(xùn)練所需的硬件資源日益增加,比如英偉達的芯片、電力等(這也可能是ChatGPT5遲遲沒有出來的原因)。
業(yè)界有觀點認為,在大多數(shù)情況下,并不需要全能的大模型,而是更適合專注于特定領(lǐng)域的中小型模型。這類模型針對垂直領(lǐng)域,性價比更高,在特定場景下能以較低資源實現(xiàn)高準(zhǔn)確率的專項任務(wù)。例如在邊緣計算領(lǐng)域,模型推理所需資源遠少于訓(xùn)練時。隨著芯片技術(shù)的進步,越來越多的芯片集成了NPU,甚至有些研發(fā)了自己的可重構(gòu)NPU架構(gòu),把算力推升到10TOPS以上,最新的高端芯片甚至可到幾十TOPS(例如高通、HAILO的芯片),大幅降低了推理時間和功耗,也為邊緣端運行更多強大功能的模型提供了基礎(chǔ)。
無論如何,中小型模型的開發(fā)需求正隨著市場的需求不斷擴大。下面盤點下訓(xùn)練小模型時常用的好工具,如果有其他更好的工具也可評論區(qū)推薦一下,不勝感激(#^.^#)。
訓(xùn)練模型需要有臺有一定高算力的電腦,但如果沒有真沒有辦法擁有一臺這樣的實體機,科技的發(fā)展也不會辜負任何一個想學(xué)習(xí)的人的。
1. Colab:Google提供的免費云GPU平臺。它用Jupyter notebook的方式,讓大家可以在線上調(diào)用他的GPU去訓(xùn)練。但是嘞,大陸用不了Google的服務(wù)。網(wǎng)上也有不少的教程,需要的自行解決。
2. Kaggle:一個有名的機器學(xué)習(xí)算法比賽平臺,不僅提供了大量的訓(xùn)練數(shù)據(jù)集,還提供各種流行模型的介紹、模型文件、參考例子、社區(qū)分享代碼,甚至Jupyter notebook運行平臺包含GPU和TPU加速。這么完整的一條龍服務(wù),哪個新手不喜歡。不過硬件加速有每周有時限,但50個小時,都比我上班時間還長,實在是香。

3. Roboflow:一個集大成的模型開發(fā)工具、方案提供平臺。提供模型訓(xùn)練過程中,幾乎所有想要的功能,甚至可以實現(xiàn)在不寫代碼的情況下,在網(wǎng)頁端配置生成自定義任務(wù)的模型。當(dāng)然,高附加值的產(chǎn)品是需要索取額外的費用的。
當(dāng)然有自己訓(xùn)練的機器是最好的,畢竟線上的運行環(huán)境、網(wǎng)絡(luò)速度,數(shù)據(jù)安全等問題有時是不能忽略的。至少裝一臺超級PC,一個team一起用也是可以的嘛(小編也是這種模式)。畢竟一個工程師不可能一直都在訓(xùn)練,訓(xùn)練完的模型拿去分析分析,寫寫部署代碼,在這段時間給另外一位工程師去訓(xùn)練,以達到訓(xùn)練機器最大化使用率(資本家思維(#^.^#),老板也喜歡),這時候就需要一些工具去隔離工作區(qū)。
1. SSH:這個就不用多解釋了,允許多個其他pc同時遠程登錄超級pc去使用。
2. VScode:這個小而精的軟件越來越多人使用了,眾多功能通過插件方式去添加,可以滿足不同人群的需求。而它提供的ssh插件,可以讓本機電腦通過ssh訪問超級PC時,能像本地操作一樣,絲滑方便,可參考【宇宙最強編輯器VS Code】(十)使用VS Code + SSH進行遠程開發(fā)_visual studio code ssh 打開工作區(qū)-CSDN博客。
3. Anaconda:現(xiàn)在有很多訓(xùn)練框架,大部分框架都是用python來寫的,而每個框架對python環(huán)境都有不一樣的要求,anaconda就是一個非常不錯的python虛擬環(huán)境的管理軟件。
4. Docker:docker不單單是方便開發(fā)者分享運行環(huán)境的工具,也是個不錯的沙盒工具。在一些交叉編譯的需求中,隔離原系統(tǒng),在docker的容器中自由修改各種變量,安裝各種軟件,弄好了還可以分享給別人用。一些框架或芯片廠商的開發(fā)環(huán)境也會用這個軟件。
你可能想要知道的Q&A
Q1
Colab平臺如何解決大陸無法訪問Google服務(wù)的問題?
A1
可以通過VPN或者使用一些第三方提供的代理服務(wù)來訪問Colab平臺。
Q2
Kaggle平臺的硬件加速是否對所有用戶都開放?
A2
Kaggle平臺的硬件加速功能對所有注冊用戶開放,但每周有使用時間限制。
Q3
如何選擇適合自己的模型訓(xùn)練工具?
A3
應(yīng)根據(jù)個人的訓(xùn)練需求、硬件條件以及對工具的熟悉程度來選擇,同時也可以參考社區(qū)中其他用戶的推薦和評價。
Q4
使用SSH遠程登錄時,如何保證數(shù)據(jù)的安全性?
A4
應(yīng)確保使用安全的密碼和密鑰認證方式,定期更新密碼,以及限制可登錄的用戶和IP地址,以提高安全性。
Q5
Docker容器與虛擬機有什么區(qū)別?
A5
Docker容器是輕量級的,共享宿主機的操作系統(tǒng)內(nèi)核,啟動快速,資源占用少;而虛擬機是重量級的,每個虛擬機都有自己的操作系統(tǒng),啟動較慢,資源占用相對較多。
登錄大大通網(wǎng)站查看原文:
Biu懂AI:模型訓(xùn)練常用工具集合
https://www.wpgdadatong.com.cn/reurl/Z7riui
-
AI
+關(guān)注
關(guān)注
87文章
34274瀏覽量
275455 -
訓(xùn)練模型
+關(guān)注
關(guān)注
1文章
37瀏覽量
3935
發(fā)布評論請先 登錄
評論