0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

數(shù)據(jù)科學(xué)家們常用的一種工具——Jupyter notebook,納入天文學(xué)研究

zhKF_jqr_AI ? 來(lái)源:未知 ? 作者:李倩 ? 2018-11-05 15:30 ? 次閱讀

在智利北部安第斯山脈高達(dá)2700米的塞隆·帕切翁山巔,美國(guó)的“大型綜合巡天望遠(yuǎn)鏡”(LSST)正在緊鑼密鼓地施工著。到2022年,也就是LSST正式投入使用的時(shí)候,它將把30億像素的相機(jī)對(duì)準(zhǔn)太空,每晚完成30千兆的拍攝任務(wù),這會(huì)是人類研究宇宙暗物質(zhì)的一大基礎(chǔ).

而為了處理望遠(yuǎn)鏡每天自動(dòng)生成的TB級(jí)數(shù)據(jù),天文學(xué)家們開(kāi)始轉(zhuǎn)向數(shù)據(jù)科學(xué),把數(shù)據(jù)科學(xué)家們熟悉且常用的一種工具——Jupyter notebook,納入天文學(xué)研究。

Jupyter是一個(gè)免費(fèi)的、開(kāi)源的、交互式的網(wǎng)絡(luò)工具,它是一個(gè)計(jì)算筆記本,允許研究人員把軟件代碼、計(jì)算輸出、注釋性文本和多媒體資源集中在一個(gè)文檔中。就歷史來(lái)看,計(jì)算筆記本已經(jīng)在世上存在了幾十年,但是直到幾年前,以Jupyter為代表的notebook才開(kāi)始被技術(shù)人員廣泛使用,并大受歡迎。

當(dāng)然,Jupyter的流行離不開(kāi)用戶和開(kāi)發(fā)者社區(qū)的共同努力。經(jīng)過(guò)架構(gòu)的重新設(shè)計(jì)和其他優(yōu)化,現(xiàn)在它已經(jīng)支持幾十種編程語(yǔ)言——這也反映在名稱變化上(Jupyter notebook原名IPython Notebook)。根據(jù)公司聯(lián)合創(chuàng)始人Fernando Pérez的說(shuō)法,現(xiàn)在的名字Jupyter是數(shù)據(jù)科學(xué)常用的3種語(yǔ)言的組合:Julia(Ju)、Python(Py)和R。

上個(gè)月,代碼托管平臺(tái)GitHub發(fā)布了一份分析,指出當(dāng)前公開(kāi)的Jupyter notebook數(shù)量大約在250萬(wàn)份,而在2015年,這個(gè)數(shù)字只有不到20萬(wàn)份。Pérez認(rèn)為這里面有應(yīng)用程序、網(wǎng)絡(luò)軟件經(jīng)過(guò)不斷升級(jí)迭代,性能超越競(jìng)品的原因,但更多應(yīng)該歸功于Python在科研領(lǐng)域的大面積應(yīng)用和數(shù)據(jù)科學(xué)的成熟——尤其是當(dāng)人們進(jìn)行科學(xué)研究和數(shù)據(jù)分析時(shí),發(fā)現(xiàn)遠(yuǎn)程數(shù)據(jù)過(guò)于龐大,超出了筆記本電腦的訪問(wèn)上限,如LSST。

在很多情況下,把計(jì)算機(jī)接入數(shù)據(jù)比把數(shù)據(jù)輸入計(jì)算機(jī)要容易得多。Jupyter是基于云的,只要你告訴我你的數(shù)據(jù)在哪里,我就馬上能在那兒給你臺(tái)計(jì)算機(jī)?!狥ernando Pérez

對(duì)于數(shù)據(jù)科學(xué)家來(lái)說(shuō),Jupyter已經(jīng)成為事實(shí)上的標(biāo)配。而在見(jiàn)識(shí)了這種工具之后,華盛頓大學(xué)的天文學(xué)家、負(fù)責(zé)協(xié)調(diào)LSST數(shù)據(jù)管理團(tuán)隊(duì)的馬里奧·尤里奇也表示:“我從未見(jiàn)過(guò)這么快的遷移,真的是太棒了!”

數(shù)據(jù)探索

類比來(lái)看,計(jì)算筆記本實(shí)際上就是用于科學(xué)計(jì)算的實(shí)驗(yàn)室筆記本,只不過(guò)上面寫的既不是用凝膠電泳分離DNA,也不是實(shí)驗(yàn)室指南,而是嵌入代碼、數(shù)據(jù)和文本來(lái)記錄“實(shí)驗(yàn)者”的計(jì)算方法。公司聯(lián)合創(chuàng)始人Brian Granger把它稱為“計(jì)算敘事”——一個(gè)允許研究人員用分析、假設(shè)和猜想來(lái)補(bǔ)充代碼和數(shù)據(jù)的文件。

這種工具能幫數(shù)據(jù)科學(xué)家極大地推進(jìn)數(shù)據(jù)探索。notebook是交互式的,用戶可以在這種環(huán)境中運(yùn)行代碼、查看發(fā)生的情況,然后重復(fù)這種發(fā)生在數(shù)據(jù)和研究人員之間的循環(huán)和迭代。這是人和數(shù)據(jù)對(duì)話的一種途徑,它允許用戶記錄這些對(duì)話,建立起與主題、理論,數(shù)據(jù)和結(jié)果之間更強(qiáng)大的聯(lián)系。當(dāng)然,Jupyter不是承載對(duì)話的唯一平臺(tái)——它的前身IPython Notebook是一種交互式Python解釋器,也可以充當(dāng)對(duì)話平臺(tái)。

此外,研究人員還可以用notebook為他們的軟件創(chuàng)建教程或交互式手冊(cè),這也是哈佛大學(xué)系統(tǒng)神經(jīng)科學(xué)家Mackenzie Mathis所做的嘗試。她和她的團(tuán)隊(duì)曾為神經(jīng)科學(xué)研究開(kāi)發(fā)了一個(gè)代碼庫(kù),這允許他們把notebook作為手稿和教具用于教學(xué)。而根據(jù)Barba——一名從2013年起就在每門課程中都用notebook教學(xué)的教授——的體驗(yàn),她認(rèn)為IPython Notebook是用于教授科學(xué)和工程計(jì)算的殺手級(jí)應(yīng)用程序,使她的學(xué)生能從中高效汲取課程知識(shí)。

愛(ài)我所愛(ài)

提到編程,編程語(yǔ)言最能挑動(dòng)技術(shù)人員神經(jīng)。Jupyter notebook有兩個(gè)組件。用戶在前端網(wǎng)頁(yè)中的矩形單元格輸入編程代碼或文本,然后,瀏覽器會(huì)將該代碼傳遞給后端“內(nèi)核”,由后端運(yùn)行代碼并返回結(jié)果。根據(jù)Pérez的統(tǒng)計(jì),現(xiàn)在Jupyter內(nèi)核的數(shù)量已經(jīng)達(dá)到100多個(gè),支持上百種編程語(yǔ)言。這是個(gè)極大的優(yōu)勢(shì),因?yàn)橥ǔG闆r下,每個(gè)notebook只能運(yùn)行一個(gè)內(nèi)核和一種語(yǔ)言,即便存在變通的方法,也只局限在Python、Julia、R和Fortran這4種之間。

重要的是,Jupyter的內(nèi)核不需要駐留在用戶的計(jì)算機(jī)上。未來(lái),當(dāng)LSST的天文學(xué)家用Jupyter notebook分析數(shù)據(jù)時(shí),他們的代碼會(huì)在伊利諾伊州運(yùn)行,由超級(jí)計(jì)算機(jī)提供普通臺(tái)式機(jī)無(wú)法比擬的龐大算力。notebook也可以在云中運(yùn)行,例如谷歌的Colaboratory項(xiàng)目就為Jupyter提供了一個(gè)以谷歌為主題的前端,它允許用戶進(jìn)行協(xié)作、利用Google Cloud的代碼,并將文檔保存在Google Drive上。

今年1月,Jupyter推出下一代產(chǎn)品JupyterLab,可作為獨(dú)立軟件包或作為免費(fèi)的Anaconda科學(xué)計(jì)算環(huán)境的一部分。

Jason Grout是彭博社的軟件工程師,也是JupyterLab團(tuán)隊(duì)的成員之一。在他眼里,JupyterLab是Jupyter notebook的“下一代Web界面” ——它擴(kuò)展了原先notebook的概念,把文本編輯器、瀏覽器、數(shù)據(jù)文件查看器、文本編輯器、命令控制臺(tái)及其他自定義的內(nèi)容以標(biāo)簽的形式排列在工作區(qū)中。一般Jupyter notebook會(huì)為每個(gè)notebook分配了各自的內(nèi)核,而JupyterLab則是創(chuàng)建了一個(gè)允許共享這些組件的計(jì)算環(huán)境。這意味著用戶可以在一個(gè)窗口中查看notebook,在另一個(gè)窗口中編輯所需的數(shù)據(jù)文件,并在第三個(gè)窗口中記錄所有運(yùn)行的命令 ——所有這些都在一個(gè)Web瀏覽器界面中進(jìn)行。

用戶還可以自定義JupyterLab以適應(yīng)他們的工作流。它建立在可擴(kuò)展系統(tǒng)之上,能提供新的主題、文件編輯器和查看器,甚至可以顯示基因組比對(duì)或地理空間數(shù)據(jù)等內(nèi)容。為了方便用戶自定義擴(kuò)展,Pérez還自制了一個(gè)教學(xué)視頻,演示了如何創(chuàng)建了一個(gè)能顯示3D大腦成像數(shù)據(jù)的組件。

這是一個(gè)完全[神經(jīng)科學(xué)]領(lǐng)域的特定工具,顯然,Jupyter團(tuán)隊(duì)不需要編寫這些東西,但我們提供了正確的標(biāo)準(zhǔn),然后社區(qū)可以在24小時(shí)內(nèi)學(xué)會(huì)怎么做并自己寫一個(gè)。

此外,依靠另兩個(gè)工具,Jupyter的可用性也得到了大大加強(qiáng)。其中一個(gè)是JupyterHub,這項(xiàng)服務(wù)允許機(jī)構(gòu)向大量用戶提供Jupyter notebook。比如加州大學(xué)伯克利分校就用這種方法確保所有學(xué)生在所有課程下都擁有相同的計(jì)算環(huán)境?!拔覀儾豢赡転?00名學(xué)生一一提供IT支持,幫助他們?cè)诎惭b失敗時(shí)debug,這是不可行的?!?/p>

另一個(gè)是Binder,一種允許用戶在瀏覽器中使用GitHub上的Jupyter notebook、無(wú)需安裝軟件或任何編程庫(kù)的開(kāi)源服務(wù)。

值得關(guān)注的問(wèn)題

盡管Jupyter notebook通過(guò)簡(jiǎn)化代碼促進(jìn)代碼復(fù)現(xiàn),但作為使用者,掌握 notebook的正確用法還是很重要的。

今年早些時(shí)候,艾倫人工智能研究所的研究工程師Joel Grus在Jupyter開(kāi)發(fā)者大會(huì)上發(fā)表了題為“I don’t like notebooks”的演講。他指出,當(dāng) notebook沒(méi)有按預(yù)期運(yùn)行時(shí),程序員們往往會(huì)感到手足無(wú)措,但出現(xiàn)這個(gè)問(wèn)題的原因很可能是他們沒(méi)有按順序去運(yùn)行代碼塊。Jupyter notebook的簡(jiǎn)便從某種程度上來(lái)說(shuō)是助紂為虐,它難以邏輯地組織代碼,將其分解為可重用的模塊并進(jìn)行開(kāi)發(fā)測(cè)試,以確保代碼正常工作。所以被慣壞的用戶寫出來(lái)的代碼也越來(lái)越混亂不清。

Grus承認(rèn),雖然這些都不是難以解決的問(wèn)題,但 notebook在執(zhí)行代碼時(shí)確實(shí)應(yīng)該注意遵守規(guī)則,比如 把分析代碼移動(dòng)到可以從 notebook中調(diào)用的外部文件、在notebook頂部定義關(guān)鍵變量以及 定期重新啟動(dòng)內(nèi)核并從頭開(kāi)始運(yùn)行notebook。就像一名網(wǎng)友在Twitter上的打趣:“要么重新跑一遍,要么假裝什么都沒(méi)發(fā)生?!?/p>

這也是Barba每次用notebook給學(xué)生上課時(shí)會(huì)提醒的一點(diǎn):“從第一天起,我就對(duì)學(xué)生們說(shuō),你們可以用非線性的方式使用notebook,這能方便你們進(jìn)行探索,但強(qiáng)大功能背后是要打下更扎實(shí)的基礎(chǔ)?!?/p>

為了解決這個(gè)問(wèn)題,一個(gè)可能有用的工具是Verdant,這是個(gè)能捕捉用戶歷史行為的插件?!白髡邩?gòu)建了一個(gè)擴(kuò)展,它允許用戶在里面部署靈活的工作流,同時(shí)捕獲用戶運(yùn)行的特定代碼、運(yùn)行順序和具體數(shù)據(jù)?!?/p>

谷歌軟件工程師兼Colaboratory團(tuán)隊(duì)成員Jake VanderPlas表示,Jupyter notebook就像錘子,它們很可能被誤用,也不適合所有領(lǐng)域,但對(duì)于數(shù)據(jù)探索和通信來(lái)說(shuō),notebook確實(shí)是個(gè)好工具。天文學(xué)界似乎非常認(rèn)同這個(gè)觀點(diǎn):“6年前,我們的計(jì)算機(jī)里完全不存在什么Jupyter notebook,但現(xiàn)在,每個(gè)人都愛(ài)它?!?/p>

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • python
    +關(guān)注

    關(guān)注

    56

    文章

    4804

    瀏覽量

    84910
  • 數(shù)據(jù)科學(xué)

    關(guān)注

    0

    文章

    165

    瀏覽量

    10081

原文標(biāo)題:Nature專欄:為什么數(shù)據(jù)科學(xué)家會(huì)選擇Jupyter

文章出處:【微信號(hào):jqr_AI,微信公眾號(hào):論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    西湖大學(xué):科學(xué)家+AI,科研新范式的樣本

    ,創(chuàng)新科研新范式。這點(diǎn)在西湖大學(xué)的科研項(xiàng)目中已得到體現(xiàn)。 成立于2018年的西湖大學(xué)是由施公院士領(lǐng)銜創(chuàng)辦的、聚焦前沿科學(xué)研究研究型大學(xué),該校鼓勵(lì)
    的頭像 發(fā)表于 12-12 15:59 ?213次閱讀
    西湖大學(xué):<b class='flag-5'>科學(xué)家</b>+AI,科研新范式的樣本

    AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》第4章-AI與生命科學(xué)讀后感

    了傳統(tǒng)學(xué)科界限,使得科學(xué)家能夠從更加全面和深入的角度理解生命的奧秘。同時(shí),AI技術(shù)的引入也催生了一種全新的科學(xué)研究范式,即數(shù)據(jù)驅(qū)動(dòng)的
    發(fā)表于 10-14 09:21

    《AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》第章人工智能驅(qū)動(dòng)的科學(xué)創(chuàng)新學(xué)習(xí)心得

    學(xué)科之間的交叉融合,形成了一種全新的科學(xué)研究范式。AI技術(shù)打破了學(xué)科壁壘,使得物理學(xué)、化學(xué)、生物學(xué)、天文學(xué)等領(lǐng)域的研究者能夠共享數(shù)據(jù)和算法,
    發(fā)表于 10-14 09:12

    受人眼啟發(fā)!科學(xué)家開(kāi)發(fā)出新型改良相機(jī)

    新型事件相機(jī)系統(tǒng)與標(biāo)準(zhǔn)事件相機(jī)系統(tǒng)對(duì)比圖。 馬里蘭大學(xué)計(jì)算機(jī)科學(xué)家領(lǐng)導(dǎo)的個(gè)研究小組發(fā)明了一種照相機(jī)裝置,可以改善機(jī)器人觀察周圍世界并做出反應(yīng)的方式。受人眼工作原理的啟發(fā),他們的創(chuàng)新型
    的頭像 發(fā)表于 07-22 06:24 ?333次閱讀
    受人眼啟發(fā)!<b class='flag-5'>科學(xué)家</b>開(kāi)發(fā)出新型改良相機(jī)

    新華社:突破性成果!祝賀我國(guó)科學(xué)家成功研發(fā)這傳感器!

    6月25日,新華社以《突破性成果!祝賀我國(guó)科學(xué)家》為標(biāo)題,報(bào)道了由我國(guó)科學(xué)家研發(fā)的傳感器成果。 我國(guó)科學(xué)家研發(fā)高通道神經(jīng)探針實(shí)現(xiàn)獼猴全腦尺度神經(jīng)活動(dòng)監(jiān)測(cè) 神經(jīng)探針是一種用來(lái)記錄神經(jīng)活動(dòng)
    的頭像 發(fā)表于 06-27 18:03 ?542次閱讀
    新華社:突破性成果!祝賀我國(guó)<b class='flag-5'>科學(xué)家</b>成功研發(fā)這<b class='flag-5'>一</b>傳感器!

    前OpenAI首席科學(xué)家創(chuàng)辦新的AI公司

    消息在業(yè)界引起了廣泛關(guān)注,因?yàn)樘K茨克維曾是OpenAI的聯(lián)合創(chuàng)始人及首席科學(xué)家,并在去年在OpenAI董事會(huì)上扮演了重要角色。
    的頭像 發(fā)表于 06-21 10:42 ?543次閱讀

    科學(xué)家研制出款新型柔性X射線探測(cè)器

    英國(guó)科學(xué)家開(kāi)發(fā)出一種有機(jī)半導(dǎo)體材料,并利用其研制出款新型柔性X射線探測(cè)器。這種探測(cè)器不僅“身段”更柔軟,可貼合需要掃描物體的形狀,從而提高患者篩查的準(zhǔn)確性,降低腫瘤成像和放射性治療的風(fēng)險(xiǎn),而且成本
    的頭像 發(fā)表于 06-13 06:29 ?338次閱讀

    科學(xué)家開(kāi)發(fā)電驅(qū)動(dòng)有機(jī)半導(dǎo)體激光器

    圣安德魯斯大學(xué)的科學(xué)家經(jīng)過(guò)長(zhǎng)達(dá)數(shù)十年的努力,在緊湊型激光器研究方面取得了重大突破。 激光在世界各地廣泛應(yīng)用于通信、醫(yī)學(xué)、測(cè)量、制造和測(cè)量等領(lǐng)域。它們用于在互聯(lián)網(wǎng)上傳輸信息,用于醫(yī)療,甚至在
    的頭像 發(fā)表于 06-04 06:30 ?283次閱讀
    <b class='flag-5'>科學(xué)家</b>開(kāi)發(fā)電驅(qū)動(dòng)有機(jī)半導(dǎo)體激光器

    Koolance 散熱器在科學(xué)相機(jī)中的應(yīng)用 (

    、什么是科學(xué)相機(jī)?? 它和普通的相機(jī)有什么不同? 科學(xué)相機(jī),顧名思義,就是運(yùn)用于科學(xué)領(lǐng)域的專用相機(jī)。目前,主要應(yīng)用在:生命科學(xué)、
    的頭像 發(fā)表于 05-22 15:14 ?341次閱讀
    Koolance 散熱器在<b class='flag-5'>科學(xué)</b>相機(jī)中的應(yīng)用 (<b class='flag-5'>一</b>)

    本源量子參與的國(guó)家重點(diǎn)研發(fā)計(jì)劃青年科學(xué)家項(xiàng)目啟動(dòng)會(huì)順利召開(kāi)

    2024年4月23日,國(guó)家重點(diǎn)研發(fā)計(jì)劃“先進(jìn)計(jì)算與新興軟件”重點(diǎn)專項(xiàng)“面向復(fù)雜物理系統(tǒng)求解的量子科學(xué)計(jì)算算法、軟件、應(yīng)用與驗(yàn)證”青年科學(xué)家項(xiàng)目啟動(dòng)會(huì)暨實(shí)施方案論證會(huì)在合肥順利召開(kāi)。該項(xiàng)目由合肥綜合性國(guó)家科學(xué)中心人工智能
    的頭像 發(fā)表于 05-11 08:22 ?786次閱讀
    本源量子參與的國(guó)家重點(diǎn)研發(fā)計(jì)劃青年<b class='flag-5'>科學(xué)家</b>項(xiàng)目啟動(dòng)會(huì)順利召開(kāi)

    量子夢(mèng)

    當(dāng)我們談?wù)摿孔佑?jì)算機(jī)時(shí),通常是在討論一種利用量子力學(xué)原理進(jìn)行計(jì)算的全新計(jì)算機(jī)系統(tǒng)。與傳統(tǒng)的計(jì)算機(jī)使用二進(jìn)制位(0和1)來(lái)表示數(shù)據(jù)不同,量子計(jì)算機(jī)使用量子比特(qubit)來(lái)存儲(chǔ)和處理信息。量子比特
    發(fā)表于 03-13 18:18

    一種有效降低損耗的壓電式DC-DC轉(zhuǎn)換器開(kāi)發(fā)案例

    據(jù)麥姆斯咨詢報(bào)道,美國(guó)加州大學(xué)圣迭戈分校(University of California San Diego)和法國(guó)原子能委員會(huì)電子信息技術(shù)研究所(CEA-Leti)的科學(xué)家開(kāi)發(fā)出了一種
    的頭像 發(fā)表于 03-07 09:48 ?875次閱讀

    中國(guó)南極昆侖站首度進(jìn)行近紅外天文學(xué)觀測(cè)及全時(shí)段近地空間環(huán)境監(jiān)測(cè)

    昆侖站地處南極冰蓋最高點(diǎn)——冰穹A區(qū),其大氣凈化程度極高,具備絕佳的天文觀測(cè)條件。在極夜期間,遠(yuǎn)程操控的近紅外望遠(yuǎn)鏡將與昆侖站的AST3-2南極巡天望遠(yuǎn)鏡共同完成時(shí)域天文學(xué)觀測(cè),彌補(bǔ)昆侖站近紅外觀測(cè)領(lǐng)域的空白。
    的頭像 發(fā)表于 02-27 11:37 ?676次閱讀

    康奈爾大學(xué)科學(xué)家研制出5分鐘快速充電鋰電池

    鋰離子電池如今廣泛應(yīng)用于電動(dòng)汽車及智能手機(jī)領(lǐng)域。其優(yōu)點(diǎn)包括輕巧、抗震、環(huán)保,但充電時(shí)間較長(zhǎng)及承受大功率電涌的能力不足。隨著最新研究成果發(fā)布,科學(xué)家找到了一種獨(dú)特的銦陽(yáng)極材料,與鋰離子電池內(nèi)的陰極材料實(shí)現(xiàn)良好配合。
    的頭像 發(fā)表于 01-26 09:57 ?705次閱讀
    康奈爾大學(xué)<b class='flag-5'>科學(xué)家</b>研制出5分鐘快速充電鋰電池

    谷歌DeepMind科學(xué)家欲建AI初創(chuàng)公司

    據(jù)知情人士透露,谷歌人工智能部門DeepMind的兩名杰出科學(xué)家Laurent Sifre和Karl Tuyls正在與投資者商討在巴黎成立家新的人工智能初創(chuàng)公司的事宜。
    的頭像 發(fā)表于 01-22 14:41 ?524次閱讀