電子發(fā)燒友網(wǎng)報(bào)道(文/吳子鵬)近日,斯坦福大學(xué)AI團(tuán)隊(duì)主導(dǎo)的Llama3-V開源模型被證實(shí)套殼抄襲國(guó)內(nèi)清華與面壁智能的開源模型“小鋼炮”MiniCPM-Llama3-V 2.5。該事件引起了業(yè)界的廣泛關(guān)注,也讓大家對(duì)于開源大模型的規(guī)范使用更加擔(dān)憂。
斯坦福Llama3V模型被證實(shí)抄襲
5月29日,斯坦福大學(xué)的一個(gè)AI團(tuán)隊(duì)在Github等平臺(tái)發(fā)布了一款大模型,名為L(zhǎng)lama3V,該模型的亮點(diǎn)是據(jù)稱只需要500美元就可以訓(xùn)練出一個(gè) SOTA多模態(tài)模型,模型效果可比肩GPT-4V、Gemini Ultra等大模型。
由于模型團(tuán)隊(duì)來(lái)自斯坦福,且效果描述非常吸引眼球,因此該模型很快在社交平臺(tái)發(fā)酵,推特上相關(guān)話題的瀏覽量超過(guò)了30萬(wàn),迅速?zèng)_到了Hugging Face首頁(yè)。
不過(guò),有用戶很快發(fā)現(xiàn),Llama3-V大模型實(shí)際上是套殼面壁智能的MiniCPM-Llama3-V 2.5,但Llama3-V在發(fā)布信息中并沒有體現(xiàn)這一點(diǎn),且稱只是使用了MiniCPM-Llama3-V 2.5的tokenizer。但這一說(shuō)法讓用戶很難認(rèn)同,隨后有用戶在Github頁(yè)面上指出了套殼的問(wèn)題,但相關(guān)言論很快被斯坦福團(tuán)隊(duì)刪除。
該用戶非常不滿隨后到MiniCPM-Llama3-V 2.5頁(yè)面下重述了這一問(wèn)題,并提醒面壁智能重視此事。面壁團(tuán)隊(duì)通過(guò)測(cè)試發(fā)現(xiàn),Llama3V與MiniCPM-Llama3-V 2.5在“胎記”般案例上的表現(xiàn)100%雷同,做實(shí)了斯坦福團(tuán)隊(duì)的抄襲行為。隨后,這一事件在國(guó)外媒體迅速發(fā)酵。
隨后不久,斯坦福Llama3-V團(tuán)隊(duì)承認(rèn)抄襲,斯坦福本科生Siddharth Sharma和Aksh Garg發(fā)布了道歉聲明,不過(guò)據(jù)稱是主要責(zé)任人的Mustafa Aljadery并沒有出現(xiàn)在道歉聲明中,這名學(xué)生來(lái)自南加利福尼亞大學(xué),目前處于失蹤的狀態(tài),是這一事件的主要過(guò)錯(cuò)方。
Aksh Garg在道歉聲明中表示,“首先,我們要向MiniCPM原作者道歉。我、Siddharth Sharma,以及Mustafa一起發(fā)布了Llama3-V,Mustafa為這個(gè)項(xiàng)目編寫了代碼,但從昨天起就無(wú)法聯(lián)系他。我與Siddharth Sharma主要負(fù)責(zé)幫助Mustafa進(jìn)行模型推廣。我們倆查看了最新的論文,以驗(yàn)證這項(xiàng)工作的新穎性,但并未被告知或意識(shí)到OpenBMB(清華團(tuán)隊(duì)支持發(fā)起的大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型庫(kù)與相關(guān)工具)之前的任何工作。我們向作者道歉,并對(duì)自己沒有努力驗(yàn)證這項(xiàng)工作的原創(chuàng)性感到失望。我們對(duì)所發(fā)生的事情承擔(dān)全部責(zé)任,并已撤下Llama3-V,再次致歉?!?br />
6月3日,面壁智能CEO李大海與聯(lián)合創(chuàng)始人劉知遠(yuǎn)先后發(fā)文,回應(yīng)開源模型被斯坦福大學(xué)AI團(tuán)隊(duì)抄襲一事。李大海表示:“我們對(duì)這件事深表遺憾。一方面感慨這也是一種受到國(guó)際團(tuán)隊(duì)認(rèn)可的方式,另一方面呼吁大家共建開放、合作、有信任的社區(qū)環(huán)境?!薄拔覀兿M麍F(tuán)隊(duì)的好工作被更多人關(guān)注與認(rèn)可,但不是以這種方式?!?br />
據(jù)介紹,MiniCPM-Llama3-V 2.5是MiniCPM-V系列的最新版本模型,基于SigLip-400M和Llama3-8B-Instruct構(gòu)建,共參數(shù)規(guī)模為8B,相較于MiniCPM-V 2.0性能取得較大幅度提升。MiniCPM-Llama3-V 2.5在綜合了11個(gè)主流多模態(tài)大模型評(píng)測(cè)基準(zhǔn)的OpenCompass榜單上平均得分65.1的成績(jī),超越了GPT-4o、GPT-4V、Gemini Pro、Qwen-VL-Max等商用閉源模型。
開源大模型規(guī)范使用值得關(guān)注
開源大模型是指一種基于開源技術(shù)和大規(guī)模數(shù)據(jù)集構(gòu)建的人工智能模型,具有開放性和可擴(kuò)展性的特點(diǎn)。開源大模型與傳統(tǒng)的商業(yè)人工智能模型不同,其最大的特點(diǎn)在于開放性和可擴(kuò)展性。這種模型的構(gòu)建需要利用大量的開源工具和資源,包括開源的深度學(xué)習(xí)框架、開源的數(shù)據(jù)集和開源的算法等。
開源大模型是AI大模型發(fā)展的重要分支,擁有LLaMA、Grok-1、Stable Code Instruct-3B、Mistral 8x7B和零一萬(wàn)物的Yi-34B等代表產(chǎn)品,這些大模型的發(fā)布和發(fā)展,不僅顯著增強(qiáng)了數(shù)據(jù)的安全性和隱私保護(hù),更為用戶節(jié)省了大量成本,減少了對(duì)外部依賴的需求。
不過(guò),由于是開源的,因此開源大模型一直以來(lái)都面臨著被抄襲的風(fēng)險(xiǎn)。實(shí)際上,上述提到的零一萬(wàn)物的Yi-34B在去年也是深陷抄襲的漩渦里。2023年11月14日,一位國(guó)外開發(fā)者在Hugging Face開源主頁(yè)上評(píng)論稱,創(chuàng)新工場(chǎng)董事長(zhǎng)兼CEO、零一萬(wàn)物CEO李開復(fù)旗下 AI 公司“零一萬(wàn)物”開源大模型Yi-34B,完全使用Meta研發(fā)的LIama開源模型架構(gòu),而只對(duì)兩個(gè)張量(Tensor)名稱進(jìn)行修改。
根據(jù)零一萬(wàn)物的說(shuō)明,零一萬(wàn)物在訓(xùn)練模型過(guò)程中,沿用了GPT/LLaMA的基本架構(gòu),由于LLaMA社區(qū)的開源貢獻(xiàn),讓零一萬(wàn)物可以快速起步。零一萬(wàn)物還在聲明中稱,模型結(jié)構(gòu)僅是模型訓(xùn)練其中一部分。Yi 開源模型在其他方面的精力,比如數(shù)據(jù)工程、訓(xùn)練方法、baby sitting(訓(xùn)練過(guò)程監(jiān)測(cè))的技巧、hyperparameter設(shè)置、評(píng)估方法以及對(duì)評(píng)估指標(biāo)的本質(zhì)理解深度、對(duì)模型泛化能力的原理的研究深度、行業(yè)頂尖的AI infra能力等。
實(shí)際上,在更早的2022年,智源研究院的大模型研究中心就被爆出了抄襲的問(wèn)題,一篇擁有100位作者署名的綜述研究《A Roadmap for Big Model》被質(zhì)疑抄襲了多篇論文內(nèi)容,引發(fā)國(guó)內(nèi)外學(xué)者和社區(qū)的廣泛關(guān)注與討論。另外,商湯、谷歌等公司都曾被指出存在抄襲問(wèn)題。
目前,AI大模型在防止抄襲、版權(quán)歸屬等問(wèn)題方面還存在很大的漏洞,行業(yè)法規(guī)明顯不健全,關(guān)于大模型使用已有作品進(jìn)行訓(xùn)練是否構(gòu)成侵權(quán),以及大模型生成物是否可以享有版權(quán),這類事件也已經(jīng)有案件發(fā)生。相信隨著行業(yè)的進(jìn)一步發(fā)展,杜絕抄襲和版權(quán)歸屬將逐漸有法可依,這樣會(huì)更有利于大模型的發(fā)展。
結(jié)語(yǔ)
斯坦福團(tuán)隊(duì)開源大模型抄襲事件暴露了開源大模型的濫用和監(jiān)管問(wèn)題,同時(shí)AI大模型也還有更深層次的數(shù)據(jù)和作品版權(quán)歸屬問(wèn)題,因此不難看出AI大模型尚處于野蠻生長(zhǎng)的階段,未來(lái)還需要逐步健全行業(yè)法規(guī)。
-
大模型
+關(guān)注
關(guān)注
2文章
2499瀏覽量
2909
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論