未來,基礎(chǔ)科研領(lǐng)域的發(fā)展將構(gòu)筑于數(shù)據(jù)與人工智能的基礎(chǔ)之上。對此,我應該抓住AI 2.0時代的發(fā)展契機,積極構(gòu)建基礎(chǔ)科研數(shù)據(jù)庫,高效利用人工智能技術(shù),搶占技術(shù)創(chuàng)新高地,實現(xiàn)材料、化學、物理等基礎(chǔ)科研領(lǐng)域的“彎道超車”。
材料、化學、物理等基礎(chǔ)科研領(lǐng)域的研究過程中充滿了“大數(shù)據(jù)”,從設(shè)計、實驗、測試到證明等環(huán)節(jié),科學家們都離不開數(shù)據(jù)的搜集、選擇和分析。人工智能技術(shù)(機器學習算法)擅長在海量數(shù)據(jù)中尋找“隱藏”的因果關(guān)系,可用于解決基礎(chǔ)科研中的種種問題,因此得到了科研工作者的廣泛關(guān)注。
近兩年,人工智能在材料、化學、物理等領(lǐng)域的研究上展現(xiàn)出巨大優(yōu)勢,正在引領(lǐng)基礎(chǔ)科研的“后現(xiàn)代化”。在AI2.0時代,把握人工智能技術(shù)不僅意味著科研效率的提升,更意味著科研“彎道超車”機遇的到來。
一、人工智能如何影響材料、化學、物理等基礎(chǔ)科研?
2016年,谷歌AlphaGo的橫空出世,將世人的焦點吸引到了人工智能領(lǐng)域。短短兩年時間,人工智能技術(shù)在商業(yè)領(lǐng)域獲得了空前的成功。語音識別、圖像識別、無人駕駛、智慧金融等領(lǐng)域,無一不在影響著人們的生活。
但不為大眾所關(guān)注的是,人工智能技術(shù)在科研領(lǐng)域也掀起了巨大的“波瀾”。本文以2018年P(guān)hys.org網(wǎng)站(物理學家組織網(wǎng))和頂級期刊上的文章為基礎(chǔ),向大家介紹人智能在材料、化學、物理等領(lǐng)域如何產(chǎn)生作用。
(一)新材料領(lǐng)域
2018年7月,Keith Butler等人在《Nature》期刊上發(fā)表題為“分子和材料研究用的機器學習”的文章,對人工智能技術(shù)在材料、化學中的作用進行了綜述。
文章認為,計算化學/材料學的研究流程已經(jīng)更迭至第三代。第一代是“結(jié)構(gòu)-性能”計算,主要利用局部優(yōu)化算法從結(jié)構(gòu)預測出性能;第二代為“晶體結(jié)構(gòu)預測”,主要利用全局優(yōu)化算法從元素組成預測出結(jié)構(gòu)與性能;第三代為“統(tǒng)計驅(qū)動的設(shè)計”,主要利用機器學習算法從物理、化學數(shù)據(jù)預測出元素組成、結(jié)構(gòu)和性能。
其中,機器學習主要分為四個步驟:一是數(shù)據(jù)搜集,包括從實驗、模擬和數(shù)據(jù)庫中獲??;二是數(shù)據(jù)選擇,包括格式優(yōu)化、噪點消除和特征提?。蝗菣C器學習方法選擇,包括監(jiān)督學習、半監(jiān)督學習和無監(jiān)督學習;四是模型選擇,包括交叉驗證、集成和異常檢測。
在實際的新材料研發(fā)中,人工智能技術(shù)已經(jīng)在文獻數(shù)據(jù)獲取、性能預測、測試結(jié)果分析等各環(huán)節(jié)展現(xiàn)出巨大優(yōu)勢:
2018年1月,美國加州大學和馬薩諸塞大學的研究人員合作開發(fā)人工智能平臺,可自動分析材料科學研究文獻,并可根據(jù)文本中提及的合成溫度、時間、設(shè)備名稱、制備條件及目標材料等關(guān)鍵詞進行自動分類。結(jié)果表明,該平臺識別文章段落的準確度為99%,標注關(guān)鍵詞的準確度為86%。(發(fā)表于《MRSBulletin》)
2018年6月,美國斯坦福大學的物理學家開發(fā)了一種新型的非監(jiān)督人工智能程序“Atom2Vec”。該程序只用幾個小時,就“重新發(fā)現(xiàn)”了元素周期表。Atom2Vec是非監(jiān)督型人工智能,未來科學家們可以通過給它設(shè)定目標,引導其尋找新材料。(發(fā)表于《美國國家科學院學報》)
2018年9月,東京大學利用理論計算方法建立了與原子結(jié)構(gòu)相匹配的光譜數(shù)據(jù)庫,并利用層聚類和決策樹兩種機器學習方法,對光譜大數(shù)據(jù)進行解釋和預測。結(jié)果表明,該方法可成功應用于復雜光譜的解釋,以及材料光譜特征的預測。(發(fā)表于《Scientific Reports》)
(二)化學領(lǐng)域
2018年3月,上海大學Mark Waller團隊在《Nature》期刊上發(fā)表題為“利用深度神經(jīng)網(wǎng)絡和符號AI規(guī)劃化學合成”的文章,引發(fā)了業(yè)內(nèi)的廣泛關(guān)注。
研究團隊首先收集了截止到2014年發(fā)表過的幾乎所有的化學反應,加起來大約有1250萬個反應。然后,研究團隊應用深度神經(jīng)網(wǎng)絡及蒙特卡洛樹算法,成功地規(guī)劃了新的化學合成路線,即便是權(quán)威的合成化學專家,也無法區(qū)分這款軟件與人類化學家之間的區(qū)別。
與兩種傳統(tǒng)的合成方法相比(紅色和綠色),使用新型人工智能技術(shù)(藍色)在較短時間內(nèi)可以完成更多分子的合成路線預測。該研究是人工智能在化學合成領(lǐng)域的重大突破,Mark Waller也被媒體譽為“化學AlphaGo”的先驅(qū)。
“化學AlphaGo”僅是人工智能用于化學領(lǐng)域眾多案例中的一個。近年來,人工智能、機器學習、深度學習在合成化學、藥物化學等領(lǐng)域不斷產(chǎn)生新應用,其熱度變得越來越高,有望為化學領(lǐng)域帶來革命性的變化。
2018年7月,英國格拉斯哥大學研究人員采用機器學習算法,開發(fā)出可預測化學反應的有機化學合成機器人。在學習了100種(10%)化學反應后,該智能機器人能夠以80%的準確度預測出其他化學反應,并且還能夠預測出人類未知的新型化學反應。(發(fā)表于《Nature》)
2018年7月,美國北卡羅來納大學開發(fā)名為“結(jié)構(gòu)演化的機器學習”(ReLeaSE)的人工智能系統(tǒng),其包括兩個神經(jīng)網(wǎng)絡,可學習170萬個已知生物活性分子化學結(jié)構(gòu),并隨時間推移推測出新型藥物分子。(發(fā)表于《Science Advances》)
2018年7月,美國萊斯大學和賓夕法尼亞州立大學的研究人員合作,利用機器學習技術(shù)和量子化學模擬改善催化劑的設(shè)計,可大幅節(jié)約時間與成本。利用量子化學模擬,研究人員可以創(chuàng)建出包含各類催化劑屬性的數(shù)據(jù)庫;機器學習技術(shù)可快速搜索數(shù)據(jù)庫中隱藏的模式,幫助研究人員設(shè)計更便宜、更高效的催化劑。(發(fā)表于《Natural Catalysis》)
(三)物理領(lǐng)域
2018年8月,美國能源部斯坦福直線加速器中心和費米國家加速器實驗室的研究人員合作,在《Nature》期刊上發(fā)表題為“在粒子物理學的能量和強度邊界應用機器學習”的文章,總結(jié)了在粒子物理學的前沿使用機器學習所帶來的機遇和挑戰(zhàn)。
歐洲核子研究中心(CERN)的大型強子對撞機(LHC)是目前世界上最大的粒子加速器,其每秒可產(chǎn)生一百萬吉字節(jié)(GB)的數(shù)據(jù)。如此海量的數(shù)據(jù),給存儲和分析帶來了極大難題。研究人員利用專用的硬件和軟件,通過機器學習技術(shù)來實時決定哪些數(shù)據(jù)需要保存,哪些數(shù)據(jù)可以丟棄。結(jié)果表明,機器學習算法可以至少做出其中70%的決定,大大減少了人類科學家的工作量。
近期人工智能在物理學領(lǐng)域的應用,除大型強子對撞機的數(shù)據(jù)分析外,還包括以下幾方面:
2018年9月,美國勞倫斯伯克利國家實驗室的科研人員與英特爾、克雷公司的工程師合作,利用深度學習技術(shù)開發(fā)出物理科學應用程序CosmoFlow,可用于處理大型三維宇宙學數(shù)據(jù)集。(發(fā)表于arxiv.org)
2018年9月,美國加州大學伯克利分校Breakthrough Listen項目的研究人員利用機器學習基礎(chǔ),從距離地球約30億光年的光源中發(fā)現(xiàn)了72個新的宇宙無線電爆發(fā)。(發(fā)表于《The Astrophysical Journal》)
二、人工智能在基礎(chǔ)科研領(lǐng)域中扮演什么角色?
材料、化學、物理等基礎(chǔ)科研領(lǐng)域的發(fā)展,是大國科技競爭力的重要保證,其直接決定了社會各方面進步的步伐,重要性不言而喻。在AI 2.0時代,如何利用大數(shù)據(jù)挖掘和人工智能技術(shù)為基礎(chǔ)科研領(lǐng)域賦能,成為了基礎(chǔ)科學實現(xiàn)“彎道超車”的重要命題。
(一)傳統(tǒng)科研模式需要進一步革新
2007年,圖靈獎得主Jim Gray在NRC-CSTB大會上提出了科學研究的四類范式:經(jīng)驗科學(實驗科學)是第一范式,在研究方法上以歸納為主,帶有較多盲目性的觀測和實驗;理論科學是第二范式,偏重理論總結(jié)和理性概括,在研究方法上以演繹法為主;計算科學是第三范式,主要根據(jù)現(xiàn)有理論的模擬仿真計算,再進行少量的實驗驗證;數(shù)據(jù)密集型科學即第四范式,它以大量數(shù)據(jù)為前提,運用機器學習、數(shù)據(jù)挖掘技術(shù),可從大量已知數(shù)據(jù)中得到未知理論。
以材料科學為例,當前普遍采用的基礎(chǔ)科研模式主要以第一、二范式為主,第三范式為輔。在實際科研工作中,傳統(tǒng)模式帶來的問題主要有:一是重復性勞動過多,新材料研發(fā)環(huán)節(jié)中變量多,“試錯法型”的實驗量繁雜;二是“失敗實驗”的數(shù)據(jù)遭拋棄,海量數(shù)據(jù)沉默,無法被人有效利用;三是耗時太長,以航空渦輪發(fā)動機為例,單晶高溫合金葉片的研制周期往往長達10年以上。
隨著互聯(lián)網(wǎng)時代的發(fā)展,數(shù)據(jù)傳播、分享的門檻大大降低,而計算機硬件計算能力的提升又令大數(shù)據(jù)的計算分析成為可能,從而催生了科學第四范式。隨著第四范式的誕生,所能解決的科學問題的復雜度進一步提升,勢必會給材料、化學、物理等基礎(chǔ)科研領(lǐng)域帶來效率和效果的極大提升。基礎(chǔ)科研領(lǐng)域擁抱第四范式,已經(jīng)成為必然的趨勢。
(二)人工智能如何支撐基礎(chǔ)科研領(lǐng)域發(fā)展?
在AI 2.0時代,數(shù)據(jù)是最核心的資源,也是實踐基礎(chǔ)科研領(lǐng)域第四范式的基礎(chǔ)。當前,不同科學領(lǐng)域數(shù)據(jù)庫的建設(shè),已經(jīng)受到各國的高度重視。例如,美國國立衛(wèi)生研究院的生物基因序列庫GenBank迄今已收錄超過2億條基因序列,并正以大約每18個月翻一番的速度增長;美國國家標準技術(shù)院Materials Data Facility收集的數(shù)據(jù)量已達到12.5TB;日本物質(zhì)·材料研究機構(gòu)建設(shè)的MatNavi數(shù)據(jù)庫是關(guān)于高分子、陶瓷、合金、超導材料、復合材料和擴散的世界上最大的數(shù)據(jù)庫之一。
21世紀以來,“材料基因組”、“化學基因組”和各類物理學數(shù)據(jù)庫的建設(shè)正加速進行。在人工智能算法和計算機硬件不斷進步的背景下,“數(shù)據(jù)挖掘+人工智能分析”已經(jīng)成為基礎(chǔ)科研領(lǐng)域快速發(fā)展的重要驅(qū)動力:
人工智能變革科研數(shù)據(jù)的搜集、獲取方式。利用人工智能語義分析技術(shù),科研論文中的數(shù)據(jù)將更易搜集和獲取,解決了人工搜集科研數(shù)據(jù)效率低的問題。
人工智能變革科研數(shù)據(jù)的分析方式與效率。利用深度神經(jīng)網(wǎng)絡及其他機器學習技術(shù),科學家們將可從海量的結(jié)構(gòu)化數(shù)據(jù)中高效獲得隱藏的因果關(guān)系,從而大幅提升數(shù)據(jù)分析效率。
未來,基礎(chǔ)科研領(lǐng)域的發(fā)展將構(gòu)筑于數(shù)據(jù)與人工智能的基礎(chǔ)之上。對此,我應該抓住AI 2.0時代的發(fā)展契機,積極構(gòu)建基礎(chǔ)科研數(shù)據(jù)庫,高效利用人工智能技術(shù),搶占技術(shù)創(chuàng)新高地,實現(xiàn)材料、化學、物理等基礎(chǔ)科研領(lǐng)域的“彎道超車”。
-
谷歌
+關(guān)注
關(guān)注
27文章
6171瀏覽量
105505 -
人工智能
+關(guān)注
關(guān)注
1792文章
47373瀏覽量
238866
原文標題:高度關(guān)注:人工智能對材料、化學、物理等基礎(chǔ)科研的深刻影響
文章出處:【微信號:drc_iite,微信公眾號:全球技術(shù)地圖】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論