0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

首個(gè)科學(xué)計(jì)算基座大模型BBT-Neutron開(kāi)源,助力突破大科學(xué)裝置數(shù)據(jù)分析瓶頸

科訊視點(diǎn) ? 來(lái)源:科訊視點(diǎn) ? 作者:科訊視點(diǎn) ? 2024-12-26 15:29 ? 次閱讀

大語(yǔ)言模型能否解決傳統(tǒng)大語(yǔ)言模型在大規(guī)模數(shù)值數(shù)據(jù)分析中的局限性問(wèn)題,助力科學(xué)界大科學(xué)裝置設(shè)計(jì)、高能物理領(lǐng)域科學(xué)計(jì)算?

高能物理是探索宇宙基本組成與規(guī)律的前沿科學(xué)領(lǐng)域,研究粒子在極高能量下的相互作用,是揭示宇宙起源、暗物質(zhì)與暗能量等未解之謎的重要手段。高能物理實(shí)驗(yàn)(如粒子對(duì)撞實(shí)驗(yàn)、暗物質(zhì)與暗能量實(shí)驗(yàn)等)產(chǎn)生的數(shù)據(jù)量極為龐大且復(fù)雜,傳統(tǒng)的數(shù)據(jù)分析方法在處理海量數(shù)據(jù)和復(fù)雜物理結(jié)構(gòu)時(shí),面臨計(jì)算瓶頸。

2024年12月3日,arxiv上更新了一篇將多模態(tài)基座大模型運(yùn)用于粒子物理科研場(chǎng)景的最新論文《Scaling Particle Collision Data Analysis》,從粒子對(duì)撞實(shí)驗(yàn)出發(fā),探索了大語(yǔ)言模型在大科學(xué)裝置數(shù)據(jù)分析與科學(xué)計(jì)算領(lǐng)域的全新應(yīng)用場(chǎng)景。作者團(tuán)隊(duì)來(lái)自超越對(duì)稱(chēng)(上海)技術(shù)有限公司,與中國(guó)高能物理研究所(高能所)大對(duì)撞機(jī)CEPC團(tuán)隊(duì)、北京大學(xué)等機(jī)構(gòu)的研究人員合作,將其最新研發(fā)的科學(xué)基座大模型BBT-Neutron應(yīng)用于粒子對(duì)撞實(shí)驗(yàn)。模型應(yīng)用了全新的二進(jìn)制分詞方法(Binary Tokenization),可實(shí)現(xiàn)對(duì)多模態(tài)數(shù)據(jù)(包括大規(guī)模數(shù)值實(shí)驗(yàn)數(shù)據(jù)、文本和圖像數(shù)據(jù))的混合預(yù)訓(xùn)練。

wKgZO2dtBeSAByRSAAG2Z51mBiM463.png

論文鏈接:https://arxiv.org/abs/2412.00129

代碼地址:https://github.com/supersymmetry-technologies/bbt-neutron

論文中對(duì)比了BBT-Neutron的通用架構(gòu)模型與最先進(jìn)的專(zhuān)業(yè)JoI模型(如ParticleNet和Particle Transformer)在粒子物理領(lǐng)域的Jet Origin Identification(JoI)分類(lèi)任務(wù)上的實(shí)驗(yàn)結(jié)果。粒子分類(lèi)的識(shí)別準(zhǔn)確率(圖1-3)表明,研究表明該通用架構(gòu)的性能與專(zhuān)業(yè)模型持平,這也驗(yàn)證了基于sequence-to-sequence建模的decoder-only架構(gòu)在學(xué)習(xí)物理規(guī)律方面的能力。

wKgZPGdtBeaASCZ_AAIxfO9j1cQ492.png

這些模型在數(shù)據(jù)集大小擴(kuò)展時(shí)都顯示出性能提升,Jet Flavor Tagging Efficiency, Charge Flip Rate形成了S曲線。然而,BBT-Neutron和專(zhuān)業(yè)模型之間觀察到不同的擴(kuò)展行為,S曲線上的關(guān)鍵數(shù)據(jù)閾值表明BBT-Neutron中出現(xiàn)了涌現(xiàn)現(xiàn)象(在專(zhuān)業(yè)架構(gòu)中未出現(xiàn)),不僅打破了傳統(tǒng)觀念認(rèn)為該架構(gòu)不適用于連續(xù)性物理特征建模的局限,更驗(yàn)證了通用模型在大規(guī)??茖W(xué)計(jì)算任務(wù)中的可擴(kuò)展性。

wKgZO2dtBeiADt_NAAFmELPvkJY657.png

二進(jìn)制分詞:統(tǒng)一多模態(tài)數(shù)據(jù)處理,突破數(shù)值數(shù)據(jù)分析瓶頸

近年來(lái)大語(yǔ)言模型在文本處理、常識(shí)問(wèn)答等任務(wù)上取得了顯著進(jìn)展,但在處理大規(guī)模數(shù)值數(shù)據(jù)方面依然面臨挑戰(zhàn)。傳統(tǒng)的BPE分詞方法在分詞數(shù)字時(shí)可能會(huì)引入歧義和不一致,特別是在高能物理、天文觀測(cè)等領(lǐng)域,分析復(fù)雜的實(shí)驗(yàn)數(shù)據(jù)成為瓶頸。

為了讓大模型更加適配科學(xué)計(jì)算場(chǎng)景,該研究通過(guò)引入一種創(chuàng)新的二進(jìn)制分詞方法(Binary Tokenization),即利用計(jì)算機(jī)存儲(chǔ)中使用的二進(jìn)制表示數(shù)據(jù),實(shí)現(xiàn)了數(shù)值數(shù)據(jù)與文本、圖像等多模態(tài)數(shù)據(jù)的統(tǒng)一表示。以使其能夠在無(wú)需額外預(yù)處理的情況下,通過(guò)二進(jìn)制分詞,實(shí)現(xiàn)對(duì)所有數(shù)據(jù)類(lèi)型的統(tǒng)一處理,簡(jiǎn)化預(yù)處理流程,確保輸入數(shù)據(jù)的一致性。研發(fā)團(tuán)隊(duì)在論文中詳細(xì)展示了如何克服傳統(tǒng)BPE方法的局限性及其數(shù)據(jù)處理過(guò)程。

BPE方法的局限性

歧義和不一致性

BPE是一種基于頻率的token 化方法,它會(huì)根據(jù)上下文將數(shù)字分割成不同的子單元,這可能導(dǎo)致同一數(shù)字在不同上下文中有不同的分割方式。

例如,數(shù)字12345在一個(gè)上下文中可能被分割成‘12’、‘34’和‘5’,在另一個(gè)上下文中可能被分割成‘1’、‘23’和‘45’。這種分割方式丟失了原始數(shù)值的固有意義,因?yàn)閿?shù)字的完整性和數(shù)值關(guān)系被破壞了。

token ID的不連續(xù)性

BPE會(huì)導(dǎo)致數(shù)值的token ID不連續(xù)。例如,數(shù)字‘7’和‘8’的token ID可能被分配為4779和5014。

這種不連續(xù)性使得管理和處理數(shù)值數(shù)據(jù)變得更加復(fù)雜,特別是在需要順序或模式化的token ID時(shí),這種不連續(xù)性會(huì)影響模型處理和分析數(shù)值數(shù)據(jù)的能力。

單數(shù)字token化的問(wèn)題

盡管單數(shù)字token 化方法簡(jiǎn)單直接,但它也會(huì)導(dǎo)致多位數(shù)數(shù)字的token ID不連續(xù)。例如,數(shù)字15可能會(huì)被分解為獨(dú)立的token ‘1’和‘5’,每個(gè)token 都被映射到獨(dú)立的token ID。這種分割可能會(huì)破壞數(shù)值信息的連續(xù)性,使得模型更難捕捉多位數(shù)數(shù)字內(nèi)在的結(jié)構(gòu)和關(guān)系。

數(shù)值處理方式

對(duì)于文本數(shù)據(jù),使用UTF-8編碼將字符轉(zhuǎn)換為字節(jié)序列。

對(duì)于數(shù)值數(shù)據(jù),提供了雙重策略:一種是當(dāng)保留數(shù)字的確切格式和任何可能重要的前導(dǎo)零時(shí),數(shù)字被視為字符串,然后使用UTF-8編碼;另一種是在進(jìn)行算術(shù)運(yùn)算或處理重要數(shù)值時(shí),數(shù)字被轉(zhuǎn)換成其數(shù)值形式(例如,整數(shù)),然后轉(zhuǎn)換成字節(jié)數(shù)組。 這種方法保證了模型能夠統(tǒng)一且高效地處理各種數(shù)據(jù)類(lèi)型。

對(duì)于科學(xué)公式或符號(hào): 復(fù)雜的表達(dá)式被解析并序列化成字節(jié)序列,捕捉公式的結(jié)構(gòu)和內(nèi)容。 例如,公式E = mc^2被編碼為字節(jié)數(shù)組[69, 61, 109, 99, 94, 50],代表了公式的結(jié)構(gòu)和變量。

對(duì)于圖像數(shù)據(jù),使用patch方法將圖像分解為小塊,提高對(duì)高密度像素?cái)?shù)據(jù)的處理效率。

BBT-Neutron模型架構(gòu):高效捕獲數(shù)值關(guān)系與多功能任務(wù)適配

BBT-Neutron模型架構(gòu)主要由三個(gè)關(guān)鍵部分組成:Patch Embedding、Patch Self-Attention和LM Head,能夠?qū)⑤斎胄蛄型ㄟ^(guò)字節(jié)分詞轉(zhuǎn)換為高維向量,使其具備了包括執(zhí)行分類(lèi)、回歸任務(wù)在內(nèi)的多種能力。這些任務(wù)在許多科學(xué)應(yīng)用中非常常見(jiàn),目標(biāo)不一定是生成新序列,也可以是對(duì)輸入分類(lèi)或預(yù)測(cè)連續(xù)值。

Patch Embedding

包含兩個(gè)線性層,第一層將輸入patch投影到高維空間,第二層細(xì)化這一表示,產(chǎn)生最終的嵌入向量。

兩層之間引入ReLU激活函數(shù),使模型能夠非線性地表達(dá)輸入字節(jié)patch,捕捉patch內(nèi)部byte之間更復(fù)雜的結(jié)構(gòu)。與通常只使用單一層線性嵌入的字節(jié)級(jí)模型相比,能夠提供更大的靈活性,更好地表示輸入patch的細(xì)節(jié)和非線性關(guān)系。

Patch Self-Attention

在patch自注意力機(jī)制中,注意力操作在patch層面執(zhí)行,每個(gè)patch嵌入包含其所有點(diǎn)的信息,通過(guò)矩陣乘法促進(jìn)不同patch之間的信息交換,同時(shí)促進(jìn)單個(gè)patch內(nèi)部字節(jié)之間的交互,使模型能夠有效捕捉局部和全局依賴。

LM Head

輸出維度定義為Patch Size × 257,其中257代表從0到255的字節(jié)值總數(shù),加上由256表示的填充ID,Patch Size是文本序列被劃分的patch數(shù)量。這種設(shè)計(jì)允許模型獨(dú)立地為每個(gè)patch生成預(yù)測(cè),保持基于patch方法的效率和有效性。

wKgZPGdtBeuAVumRAAKPgEq6kRs437.png

應(yīng)用于粒子物理對(duì)撞數(shù)據(jù)分析:通用架構(gòu)性能達(dá)到專(zhuān)業(yè)領(lǐng)域的SOTA

開(kāi)發(fā)團(tuán)隊(duì)在論文中分享了BBT-Neutron通用架構(gòu)的首次落地實(shí)驗(yàn)結(jié)果,輔助粒子物理學(xué)中的關(guān)鍵任務(wù)——噴注來(lái)源識(shí)別(Jet Origin Identification, JoI),并已取得了突破性成果。

噴注來(lái)源識(shí)別是高能物理實(shí)驗(yàn)中的核心挑戰(zhàn)之一,旨在區(qū)分來(lái)自不同夸克或膠子的噴注。在高能碰撞中產(chǎn)生的夸克或膠子會(huì)立即產(chǎn)生一束粒子——主要是強(qiáng)子——朝同一方向運(yùn)動(dòng)。這束粒子通常被稱(chēng)為噴注,是碰撞實(shí)驗(yàn)中物理測(cè)量的關(guān)鍵對(duì)象。識(shí)別噴注的起源對(duì)于許多物理分析至關(guān)重要,尤其是在研究希格斯玻色子、W和Z玻色子時(shí),這些玻色子幾乎70%會(huì)直接衰變?yōu)閮蓚€(gè)噴注。此外,噴注是我們理解量子色動(dòng)力學(xué)(QCD,描述原子核、質(zhì)子、中子、夸克的相互作用機(jī)制)的基礎(chǔ)。來(lái)自不同類(lèi)型色荷粒子的噴注在它們的可觀測(cè)量上只有微小的差異,這使得準(zhǔn)確識(shí)別噴注的起源極具挑戰(zhàn)性。

wKgZO2dtBeyAROf0AAEqKvNYl3w299.png

實(shí)驗(yàn)結(jié)果顯示,該研究與最先進(jìn)的專(zhuān)業(yè)模型(如Particle Transformer和ParticleNet,將專(zhuān)業(yè)物理定律融入GNN架構(gòu)設(shè)計(jì))的最佳性能持平,達(dá)到行業(yè)的SOTA(圖1-3)。這個(gè)結(jié)果驗(yàn)證了以sequence to sequence建模方式為基礎(chǔ)的decoder only通用架構(gòu),在學(xué)習(xí)物質(zhì)世界和物理規(guī)律上具備與專(zhuān)業(yè)模型同等的學(xué)習(xí)能力。而傳統(tǒng)的觀念認(rèn)為,seq2seq 建模不適用于時(shí)間、空間、能量等具有連續(xù)性特征的物理實(shí)在建模,只適合于人類(lèi)語(yǔ)言這樣的離散符號(hào)的建模。而且從左到右具有位置特性的學(xué)習(xí)方式,不適用于具有時(shí)空對(duì)稱(chēng)性的物理結(jié)構(gòu),要讓模型學(xué)習(xí)專(zhuān)業(yè)物理定律,需要在專(zhuān)業(yè)模型架構(gòu)中融入該領(lǐng)域相關(guān)結(jié)構(gòu)。該論文研究的成果證明了這種觀念的局限性,為表征時(shí)間、空間、能量等基礎(chǔ)的物理量提供了一種有效方案,同時(shí)也為物理化學(xué)等專(zhuān)業(yè)科學(xué)領(lǐng)域構(gòu)建一個(gè)統(tǒng)一模型提供了基礎(chǔ)。

wKgZPGdtBeyABtwEAAGdA8SntDY059.png

Scaling分析:發(fā)現(xiàn)涌現(xiàn)行為

文中通過(guò)與ParticleNet和Particle Transformer在JoI任務(wù)上的擴(kuò)展行為的方式進(jìn)行對(duì)比,在數(shù)據(jù)規(guī)模增加下的Scaling行為進(jìn)行了深入分析。這些訓(xùn)練數(shù)據(jù)集從100到1000萬(wàn)事件不等,實(shí)驗(yàn)結(jié)果通過(guò)混淆矩陣(confusion matrix)、噴注風(fēng)味標(biāo)記效率(jet flavor tagging efficiency)和電荷翻轉(zhuǎn)率(charge flip rate)這三個(gè)關(guān)鍵指標(biāo)來(lái)衡量模型的表現(xiàn)。

混淆矩陣(Confusion Matrix)即使用了一個(gè)11維的混淆矩陣M11來(lái)分類(lèi)每個(gè)噴注,根據(jù)最高預(yù)測(cè)分?jǐn)?shù)歸類(lèi)到相應(yīng)的類(lèi)別, 塊對(duì)角化成2×2的塊,每個(gè)塊對(duì)應(yīng)特定的夸克種類(lèi)?;煜仃囂峁┝四P头诸?lèi)性能的全面概覽,突出顯示了在各種噴注類(lèi)別中正確和錯(cuò)誤預(yù)測(cè)的情況。

噴注味標(biāo)記效率(Jet Flavor Tagging Efficiency)定義為每個(gè)塊內(nèi)值的總和的一半,不區(qū)分由夸克和反夸克產(chǎn)生的噴注。

電荷翻轉(zhuǎn)率(Charge Flip Rate)定義為塊中非對(duì)角線元素與塊總和的比率,代表誤識(shí)別夸克和反夸克產(chǎn)生的噴注的概率。

wKgZO2dtBe2ASX58AAEyumZ2Hus874.png

圖4顯示,這些模型在十一種類(lèi)的粒子噴注來(lái)源鑒別的分類(lèi)問(wèn)題上表現(xiàn)出相似的性能,并且在數(shù)據(jù)集大小擴(kuò)展時(shí)都顯示出性能提升,Jet Flavor Tagging Efficiency, Charge Flip Rate形成了S曲線。

開(kāi)發(fā)團(tuán)隊(duì)指出,該模型和專(zhuān)業(yè)模型之間出現(xiàn)了不同的擴(kuò)展行為。BBT-Neutron的S曲線上的關(guān)鍵數(shù)據(jù)閾值,特別是Charge Flip Rate的數(shù)據(jù)發(fā)生到了性能突變,表現(xiàn)出顯著的涌現(xiàn)現(xiàn)象(Model Emergence),然而該現(xiàn)象在ParticleNet或Particle Transformer中并沒(méi)有被觀察到。

可能的原因是這些專(zhuān)業(yè)模型納入了特定領(lǐng)域的結(jié)構(gòu)特征,它們采用專(zhuān)門(mén)設(shè)計(jì)的架構(gòu)來(lái)表示粒子相互作用和分類(lèi),這可能導(dǎo)致隨著數(shù)據(jù)規(guī)模的增加,性能提升更快達(dá)到飽和。與此相反,研究中的通用架構(gòu)模型,使用統(tǒng)一的數(shù)據(jù)表示來(lái)處理所有物理結(jié)構(gòu)。專(zhuān)業(yè)模型架構(gòu)通過(guò)消除位置編碼或相關(guān)操作來(lái)實(shí)現(xiàn)粒子的置換不變性(permutative invariance),BBT-Neutron不依賴置換不變性,而是采用從左到右的序列輸入,這與語(yǔ)言模型的seq2seq范式一致。雖然這種方法需要更大的數(shù)據(jù)集來(lái)推斷,但一旦超過(guò)臨界數(shù)據(jù)集閾值,它就能實(shí)現(xiàn)顯著的性能飛躍,這表明了該模型即使沒(méi)有像專(zhuān)業(yè)模型那樣明確在架構(gòu)設(shè)計(jì)中納入置換不變性,也能夠通過(guò)足量數(shù)據(jù)的學(xué)習(xí)學(xué)到空間對(duì)稱(chēng)性。

通俗而言,當(dāng)數(shù)據(jù)規(guī)模逐步增加時(shí),該模型在性能上出現(xiàn)了顯著躍遷。這一發(fā)現(xiàn)驗(yàn)證了通用模型在大規(guī)??茖W(xué)計(jì)算任務(wù)中的可擴(kuò)展性,即該模型有望成為跨領(lǐng)域的科學(xué)計(jì)算基座模型。

該論文研究標(biāo)志著大模型在多模態(tài)數(shù)據(jù)處理與科學(xué)計(jì)算任務(wù)中的巨大潛力。隨著人工智能技術(shù)與大科學(xué)裝置的深度融合,在未來(lái)或許能夠加速中國(guó)大對(duì)撞機(jī)CEPC等前沿科研項(xiàng)目的實(shí)施落地。該項(xiàng)目參與者、CEPC團(tuán)隊(duì)成員阮曼奇曾評(píng)論道,“人工智能技術(shù)將助力大科學(xué)設(shè)施的設(shè)計(jì)研發(fā),能大幅提高其科學(xué)發(fā)現(xiàn)能力,更好地幫助我們探索世界的奧秘、拓寬人類(lèi)的知識(shí)邊界。反過(guò)來(lái),通過(guò)總結(jié)對(duì)比在具體科學(xué)問(wèn)題上觀測(cè)到的AI性能差異,也能加深我們對(duì)AI技術(shù)本身的理解,更好推動(dòng)AI技術(shù)的發(fā)展?!?/p>

wKgZPGdtBe6AO8a9AAIma7cYc00797.png

目前BBT-Neutron科學(xué)計(jì)算基座模型已經(jīng)落地到粒子物理、核聚變、強(qiáng)磁場(chǎng)、石油化工、儲(chǔ)能、鈣鈦礦太陽(yáng)能、飛行傳感器、基因編輯等真實(shí)科研工程難題。

關(guān)于超對(duì)稱(chēng)技術(shù)

超越對(duì)稱(chēng)(上海)技術(shù)有限公司位于上海市徐匯區(qū)漕河涇開(kāi)發(fā)區(qū)內(nèi),專(zhuān)注于研發(fā)跨學(xué)科、跨結(jié)構(gòu)、跨尺度的科學(xué)基座大模型 BigBangTransformer[乾元],賦能科學(xué)計(jì)算、工業(yè)智能、空間智能、醫(yī)療健康等領(lǐng)域,致力于通過(guò)大模型技術(shù)攻克物理世界的復(fù)雜難題,推動(dòng)人類(lèi)邁進(jìn)“Type II 文明“。

BBT模型發(fā)展歷程

BBT模型歷經(jīng)三代迭代,持續(xù)探索大模型的科學(xué)應(yīng)用路徑:

2022年:發(fā)布BBT-1,10億參數(shù)的金融預(yù)訓(xùn)練語(yǔ)言模型;

2023年:推出BBT-2,120億參數(shù)的通用大語(yǔ)言模型;

2024年:發(fā)布BBT-Neutron,1.4億參數(shù)的科學(xué)基座大語(yǔ)言模型,實(shí)現(xiàn)文本、數(shù)值和圖像數(shù)據(jù)的多模態(tài)統(tǒng)一預(yù)訓(xùn)練

審核編輯 黃宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 開(kāi)源
    +關(guān)注

    關(guān)注

    3

    文章

    3348

    瀏覽量

    42496
  • 數(shù)據(jù)處理
    +關(guān)注

    關(guān)注

    0

    文章

    598

    瀏覽量

    28567
  • 數(shù)據(jù)分析
    +關(guān)注

    關(guān)注

    2

    文章

    1449

    瀏覽量

    34057
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    2448

    瀏覽量

    2700
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    Mathematica 在數(shù)據(jù)分析中的應(yīng)用

    數(shù)據(jù)分析是現(xiàn)代科學(xué)研究和商業(yè)決策中不可或缺的一部分。隨著數(shù)據(jù)量的爆炸性增長(zhǎng),對(duì)數(shù)據(jù)分析工具的需求也在不斷增加。Mathematica,作為一種強(qiáng)大的
    的頭像 發(fā)表于 12-26 15:41 ?55次閱讀

    數(shù)據(jù)可視化與數(shù)據(jù)分析的關(guān)系

    在當(dāng)今這個(gè)信息爆炸的時(shí)代,數(shù)據(jù)無(wú)處不在。無(wú)論是企業(yè)運(yùn)營(yíng)、科學(xué)研究還是個(gè)人決策,我們都需要從海量的數(shù)據(jù)中提取有價(jià)值的信息。數(shù)據(jù)分析數(shù)據(jù)可視化
    的頭像 發(fā)表于 12-06 17:09 ?341次閱讀

    數(shù)據(jù)科學(xué)工作流原理

    數(shù)據(jù)科學(xué)工作流包括數(shù)據(jù)收集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)探索與可視化、特征選擇與工程、模型選擇與訓(xùn)練、
    的頭像 發(fā)表于 11-20 10:36 ?190次閱讀

    LLM在數(shù)據(jù)分析中的作用

    隨著大數(shù)據(jù)時(shí)代的到來(lái),數(shù)據(jù)分析已經(jīng)成為企業(yè)和組織決策的關(guān)鍵工具。數(shù)據(jù)科學(xué)家和分析師需要從海量數(shù)據(jù)
    的頭像 發(fā)表于 11-19 15:35 ?281次閱讀

    為什么選擇eda進(jìn)行數(shù)據(jù)分析

    數(shù)據(jù)科學(xué)領(lǐng)域,數(shù)據(jù)分析是一個(gè)復(fù)雜且多步驟的過(guò)程,它涉及到數(shù)據(jù)的收集、清洗、探索、建模和解釋。在這些步驟中,探索性數(shù)據(jù)分析(EDA)扮演著至
    的頭像 發(fā)表于 11-13 10:41 ?235次閱讀

    北太振寰發(fā)布新版科學(xué)計(jì)算軟件,助力科研與工程融合

    近日,在重慶舉辦的第三屆數(shù)學(xué)促進(jìn)經(jīng)濟(jì)社會(huì)發(fā)展論壇(2024)上,一款備受矚目的科學(xué)計(jì)算與系統(tǒng)仿真軟件——北太天元v4.0正式發(fā)布。該軟件由北京大學(xué)重慶大數(shù)據(jù)研究院孵化的北太振寰(重慶)科技有限公司
    的頭像 發(fā)表于 11-11 13:44 ?210次閱讀

    SUMIF函數(shù)在數(shù)據(jù)分析中的應(yīng)用

    在商業(yè)和科學(xué)研究中,數(shù)據(jù)分析是一項(xiàng)基本且關(guān)鍵的技能。Excel作為最常用的數(shù)據(jù)分析工具之一,提供了多種函數(shù)來(lái)幫助用戶處理和分析數(shù)據(jù)。SUMI
    的頭像 發(fā)表于 11-11 09:14 ?320次閱讀

    計(jì)算在大數(shù)據(jù)分析中的應(yīng)用

    計(jì)算在大數(shù)據(jù)分析中的應(yīng)用廣泛且深入,它為用戶提供了存儲(chǔ)、計(jì)算、分析和預(yù)測(cè)的強(qiáng)大能力。以下是對(duì)云計(jì)算在大
    的頭像 發(fā)表于 10-24 09:18 ?453次閱讀

    使用AI大模型進(jìn)行數(shù)據(jù)分析的技巧

    使用AI大模型進(jìn)行數(shù)據(jù)分析的技巧涉及多個(gè)方面,以下是一些關(guān)鍵的步驟和注意事項(xiàng): 一、明確任務(wù)目標(biāo)和需求 在使用AI大模型之前,首先要明確數(shù)據(jù)分析的任務(wù)目標(biāo),這將直接影響
    的頭像 發(fā)表于 10-23 15:14 ?746次閱讀

    《AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》第6章人AI與能源科學(xué)讀后感

    、優(yōu)化等方面的應(yīng)用有了更清晰的認(rèn)識(shí)。特別是書(shū)中提到的基于大數(shù)據(jù)和機(jī)器學(xué)習(xí)的能源管理系統(tǒng),通過(guò)實(shí)時(shí)監(jiān)測(cè)和分析能源數(shù)據(jù),實(shí)現(xiàn)了能源的高效利用和智能化管理。 其次,第6章通過(guò)多個(gè)案例展示了人工智能在能源
    發(fā)表于 10-14 09:27

    AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》第4章-AI與生命科學(xué)讀后感

    閱讀這一章后,我深感人工智能與生命科學(xué)的結(jié)合正引領(lǐng)著一場(chǎng)前所未有的科學(xué)革命,以下是我個(gè)人的讀后感: 1. 技術(shù)革新與生命科學(xué)進(jìn)步 這一章詳細(xì)闡述了人工智能如何通過(guò)其強(qiáng)大的數(shù)據(jù)處理和
    發(fā)表于 10-14 09:21

    《AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》第二章AI for Science的技術(shù)支撐學(xué)習(xí)心得

    和數(shù)量直接影響到模型的準(zhǔn)確性和可靠性。因此,數(shù)據(jù)獲取、處理、分析和質(zhì)量控制在AI for Science中至關(guān)重要。此外,數(shù)據(jù)驅(qū)動(dòng)的研究范式也促使
    發(fā)表于 10-14 09:16

    阿里云攜手中國(guó)科學(xué)院地化所發(fā)布首個(gè)月球?qū)I(yè)大模型

    近日,在備受矚目的數(shù)博會(huì)上,中國(guó)科學(xué)院地球化學(xué)研究所攜手阿里云宣布了一項(xiàng)重大合作成果——全球首個(gè)“月球科學(xué)多模態(tài)專(zhuān)業(yè)大模型”正式問(wèn)世。這一突破
    的頭像 發(fā)表于 08-29 18:08 ?799次閱讀

    數(shù)據(jù)分析除了spss還有什么

    Sciences)是一款非常流行的統(tǒng)計(jì)分析軟件,但除了SPSS之外,還有許多其他數(shù)據(jù)分析工具和方法。 引言 數(shù)據(jù)分析是一個(gè)跨學(xué)科的領(lǐng)域,涉及到統(tǒng)計(jì)學(xué)、計(jì)算機(jī)
    的頭像 發(fā)表于 07-05 15:01 ?620次閱讀

    NVIDIA Blackwell平臺(tái)推動(dòng)科學(xué)計(jì)算突破發(fā)展

    最新加速器和網(wǎng)絡(luò)平臺(tái)提升高級(jí)模擬、AI、量子計(jì)算、數(shù)據(jù)分析等方面的性能。
    的頭像 發(fā)表于 05-15 09:45 ?379次閱讀