人工智能這把火已經(jīng)燒到了國(guó)家戰(zhàn)略層面,連美國(guó)總統(tǒng)和政府機(jī)構(gòu)也卷了進(jìn)來(lái)。奧巴馬主持白宮前沿峰會(huì),展望美國(guó)在未來(lái)50年的發(fā)展。峰會(huì)中,白宮發(fā)布報(bào)告《國(guó)家人工智能研究與發(fā)展策略規(guī)劃》。相關(guān)情況,大家可以參考《連線》雜志的總統(tǒng)專訪(Wired:Barack Obama on Artificial Intelligence,Autonomous Cars,andthe Future of Humanity)。
這兩天,自媒體沒(méi)少炒作這個(gè)報(bào)告;我自己呢,倒是特別地對(duì)這個(gè)報(bào)告中的兩張趨勢(shì)圖感興趣。報(bào)告中說(shuō),從2013年到2015年,SCI收錄的論文里,提到“深度學(xué)習(xí)”的文章增長(zhǎng)了約六倍,同時(shí)強(qiáng)調(diào),“按文章數(shù)計(jì)算,美國(guó)已不再是世界第一了?!?/p>
美國(guó)不是世界第一?誰(shuí)是世界第一呢?
來(lái)看報(bào)告中的兩張趨勢(shì)圖
上圖是每年SCI收錄的文章里,提到“深度學(xué)習(xí)”或“深度神經(jīng)網(wǎng)絡(luò)”的文章數(shù)量變化趨勢(shì),同時(shí)按國(guó)家做了區(qū)分。數(shù)據(jù)本身是從Web of Science核心數(shù)據(jù)庫(kù)里查詢得到的。
第二張圖和第一張圖其他條件一樣,只是增加了一個(gè)“文章必須至少被引用一次”的附加條件。也就是說(shuō),第二張圖統(tǒng)計(jì)的文章數(shù),是被引用過(guò)的“有效文章數(shù)”,相對(duì)來(lái)說(shuō)更合理一些。
兩張圖里,中國(guó)都在2014年和2015年超過(guò)了美國(guó)(以及其他所有第二梯隊(duì)的國(guó)家),居于領(lǐng)跑者的位置。
問(wèn)題來(lái)了,在AI研究領(lǐng)域,中國(guó)人真有這么強(qiáng)嗎?
從這些年的直覺(jué)看,中國(guó)人/華人在人工智能領(lǐng)域里的大牛比比皆是,吳恩達(dá)、孫劍、楊強(qiáng)、黃廣斌、馬毅、張大鵬……隨口可以說(shuō)出一大串,我自己在Google的研究團(tuán)隊(duì),微軟研究院等地親眼看到的,也到處是中國(guó)人、華人的面孔。但這只是直觀感受。整體來(lái)看,中國(guó)人/華人所做的科研貢獻(xiàn)到底有多重要,對(duì)人工智能的推動(dòng)作用到底有多大?白宮報(bào)告里的統(tǒng)計(jì)是不是科學(xué)、合理?
其實(shí),對(duì)美國(guó)國(guó)家戰(zhàn)略規(guī)劃里的統(tǒng)計(jì),我自己是有幾個(gè)疑問(wèn)的,主要包括:
1、直接搜索關(guān)鍵字“深度學(xué)習(xí)”、“深度神經(jīng)網(wǎng)絡(luò)”,真的能涵蓋這些年人工智能領(lǐng)域的所有科學(xué)研究進(jìn)展?像機(jī)器人、智能控制、機(jī)器視覺(jué)、無(wú)人駕駛等領(lǐng)域里,沒(méi)有提及深度學(xué)習(xí)的文章眼見(jiàn)還有不少。嚴(yán)格按關(guān)鍵詞匹配會(huì)漏掉多少相關(guān)文章?是否影響統(tǒng)計(jì)結(jié)果?
2、“文章至少被引用一次”,比較科學(xué),但好像還遠(yuǎn)遠(yuǎn)不夠。這種統(tǒng)計(jì),真的不需要考慮SCI的影響因子嗎?不考慮的話,會(huì)混進(jìn)多少較差期刊上發(fā)表的比較水的論文?這些數(shù)據(jù)會(huì)不會(huì)被國(guó)內(nèi)研究機(jī)構(gòu)靠SCI引用數(shù)來(lái)評(píng)職稱的風(fēng)氣污染?
3、在全球化時(shí)代,按國(guó)家統(tǒng)計(jì),會(huì)不會(huì)有明顯偏差?白宮報(bào)告沒(méi)有提到被統(tǒng)計(jì)的文章是如何歸入不同國(guó)家的。如果按作者發(fā)表文章時(shí)的所在機(jī)構(gòu),那大量在國(guó)外機(jī)構(gòu)訪問(wèn)的中國(guó)學(xué)者會(huì)不會(huì)被算成外國(guó)人?中國(guó)人和外國(guó)人合寫的文章該如何統(tǒng)計(jì)?如果按期刊所屬國(guó)家和地區(qū),那不同國(guó)家間的期刊水平(影響因子)差異是不是會(huì)讓統(tǒng)計(jì)結(jié)果帶有偏見(jiàn)?
基于此,我也想自己去做個(gè)統(tǒng)計(jì)。
統(tǒng)計(jì)前,給自己設(shè)了幾條原則:
1、從期刊的影響因子出發(fā),只統(tǒng)計(jì)影響因子高的頂尖期刊。
2、從WebofScience主題詞出發(fā),涵蓋人工智能相關(guān)的所有科研領(lǐng)域,而不僅是深度學(xué)習(xí)方面的文章。
3、關(guān)注對(duì)象是華人,而不是用國(guó)家分類的辦法去比較中國(guó)和外國(guó)——這個(gè)是我自己的選擇,因?yàn)榻裉斓膶W(xué)術(shù)界,國(guó)家間的合作和交流已不可忽視。類似吳恩達(dá)這樣的外籍華人,其實(shí)也在為中國(guó)的人工智能發(fā)展做貢獻(xiàn)。與其限定國(guó)家,不如從整體上看一看,地球上的華人科學(xué)家、研究者群體,到底有多厲害。
4、關(guān)注時(shí)間范圍是2006到2016年,跨度10年左右——因?yàn)樵S多人說(shuō),這一波人工智能大潮是從2006后的幾年時(shí)間里,才開始真正興起的。
我的統(tǒng)計(jì)結(jié)果
先說(shuō)說(shuō)我的統(tǒng)計(jì)結(jié)果,一會(huì)兒會(huì)在附錄一中講講我用的統(tǒng)計(jì)方法。
來(lái)看下2006到2016年間華人作者的平均貢獻(xiàn):
在2006到2016年的時(shí)間段里,近兩萬(wàn)篇最頂級(jí)的人工智能文章中,由華人貢獻(xiàn)的文章數(shù)和被引用數(shù),分別占全部數(shù)字的29.2%和31.8%。近十年,華人用五分之一左右的作者人數(shù),平均貢獻(xiàn)了三成的頂級(jí)AI研究文章和被引用數(shù)。統(tǒng)計(jì)角度,這已經(jīng)是超出平均水平的科研貢獻(xiàn)了。
但平均數(shù)并不能看出華人科學(xué)家、研究者在最近幾年的發(fā)力程度。來(lái)看2006到2015年間,華人貢獻(xiàn)的文章數(shù)和被引用數(shù)的變化趨勢(shì):
2006到2015年間,華人作者參與的頂級(jí)AI論文,占全部頂級(jí)AI論文數(shù)量的比例,從23.2%逐年遞增到42.8%。而華人作者參與的頂級(jí)AI論文被引用次數(shù),占全部頂級(jí)AI論文被引用次數(shù)的比例從25.5%逐年遞增到55.8%(2016年數(shù)據(jù)較少,未用于趨勢(shì)比較)。
也就是說(shuō),即便只統(tǒng)計(jì)頂級(jí)出版物里的頂級(jí)文章,中國(guó)人/華人在人工智能領(lǐng)域的貢獻(xiàn),在發(fā)展趨勢(shì)上也和白宮報(bào)告中揭示的規(guī)律如出一轍——無(wú)論從哪個(gè)角度來(lái)說(shuō),中國(guó)人/華人正在人工智能領(lǐng)域里發(fā)揮舉足輕重的作用,而且,從2014年,2015年開始,中國(guó)人/華人已經(jīng)處于人工智能研究的領(lǐng)先地位,占據(jù)了人工智能科研世界的半壁江山!
個(gè)案分析
會(huì)有人覺(jué)得這個(gè)統(tǒng)計(jì)很不可思議嗎?這個(gè)結(jié)果會(huì)出乎很多人意料嗎?我們還可以拿一個(gè)更具體的例子,來(lái)深入分析一下。
在頂級(jí)人工智能期刊和會(huì)議錄里,我來(lái)舉個(gè)大名鼎鼎的例子吧:IEEE模式分析與機(jī)器智能匯刊(IEEE Transactions on Pattern Analysis and Machine Intelligence,簡(jiǎn)稱PAMI),2015年影響因子6.077,高到?jīng)]朋友,想往這里投稿的同學(xué)可能都知道被接受和發(fā)表的難度有多恐怖。
我從《IEEE模式分析與機(jī)器智能匯刊》里按引用數(shù)選出2006到2016年間的前500篇論文,下面是這500篇論文的引用數(shù)分布情況:
其實(shí)很恐怖的,前500篇文章最高引用數(shù)2715,最低引用數(shù)41——真頂級(jí)期刊!普通期刊難以望其項(xiàng)背呀。
那么,這500篇最頂級(jí)的人工智能論文里,華人科學(xué)家、研究者的貢獻(xiàn)如何呢?先說(shuō)幾個(gè)數(shù)字:500篇頂級(jí)文章的作者一共1220人,其中華人科學(xué)家、研究者316人,占25.9%。所有作者單獨(dú)累加計(jì)算的被引用數(shù)總和是231361次,其中,華人科學(xué)家、研究者被引用數(shù)總和是63846次,占27.6%。如果單看2014年(當(dāng)年華人的文章數(shù)、引用數(shù)均較高)的數(shù)據(jù),華人科學(xué)家、研究者被引用數(shù)占51.8%,超過(guò)了半數(shù)。
如果只看《IEEE模式分析與機(jī)器智能匯刊》在2006到2016年間,引用數(shù)最多的10位華人作者和10位非華人作者的具體情況,也是一個(gè)很有趣的表格:
《IEEE模式分析與機(jī)器智能匯刊》的華人前10位大牛,與非華人前10位大牛,在每個(gè)人的總引用數(shù)上幾乎不相上下。的確,最頂尖的人工智能科學(xué)家里,中國(guó)人/華人的貢獻(xiàn)絲毫不亞于其他科學(xué)家。
另外,如果對(duì)人工智能特別是模式識(shí)別的研究領(lǐng)域不熟悉,那么,記住表中這20位頂尖科學(xué)家的名字吧。有興趣的話,大家可以去搜一搜他們的簡(jiǎn)歷,看看他們都在哪里工作,在哪里做研究,他們的學(xué)生、同事都是誰(shuí),相信會(huì)有很多發(fā)現(xiàn)。
原因?
為什么中國(guó)人/華人在人工智能領(lǐng)域這么強(qiáng)?因?yàn)閿?shù)學(xué)好?因?yàn)榕d趣使然?因?yàn)樗季S習(xí)慣?因?yàn)榍趭^?因?yàn)榻逃??大家可能都有自己的答案?/p>
本文不想展開討論,列舉數(shù)據(jù)和事實(shí),才是本文的目的。
附錄一:統(tǒng)計(jì)方法介紹
簡(jiǎn)單介紹一下我是怎么得到上面那些比例和趨勢(shì)數(shù)據(jù)的。
周末,我先去Web of Science數(shù)據(jù)庫(kù)里,找到Computer Science/Artificial Intelligence的主題類目,根據(jù)2015年SCI影響因子從高到低排序,取前50個(gè)出版物(包括期刊和會(huì)議錄),這50個(gè)人工智能領(lǐng)域頂級(jí)期刊和會(huì)議錄的詳細(xì)列表見(jiàn)附錄二。
然后,對(duì)每份頂級(jí)期刊和會(huì)議錄,基于文章的被引用數(shù)對(duì)2006到2016年的所有文章進(jìn)行排序。這個(gè)時(shí)間段里,期刊和會(huì)議錄的平均發(fā)表文章數(shù)在500左右,我以500為上界,取每份期刊和會(huì)議錄中,被引用數(shù)最多的文章,至多500篇。由此得到2006到2016年間的頂級(jí)人工智能相關(guān)論文共計(jì)19855篇。
接下來(lái),基于這些文章的作者列表和被引用數(shù)目,統(tǒng)計(jì)華人科學(xué)家、研究者與全部文章作者之間的比例和趨勢(shì)關(guān)系。
如何識(shí)別華人作者?好像沒(méi)有特別好的方法。我的方法是根據(jù)英文姓名判斷,如果英文姓名主要由漢語(yǔ)拼音、韋氏拼音或粵語(yǔ)拼音組成(當(dāng)然還要考慮姓氏、名字二者在英文表述上的區(qū)別,以及其他一些經(jīng)驗(yàn)規(guī)則),那么就假定這個(gè)作者是華裔。根據(jù)小樣本集驗(yàn)證,這個(gè)判別方法的檢準(zhǔn)率大約在96%以上,檢全率大約在90%左右。也就是說(shuō),會(huì)有一定數(shù)量的遺漏,也會(huì)有少量誤識(shí),但基本可以反映整體情況與趨勢(shì)。
如何解決合作者問(wèn)題?我是分別統(tǒng)計(jì),并且不加權(quán)重的。第一作者和其他作者共享文章計(jì)數(shù)和引用計(jì)數(shù)。為第一作者增加權(quán)重是否影響整體統(tǒng)計(jì)結(jié)果?也許,但不會(huì)影響總體趨勢(shì)數(shù)據(jù),因?yàn)椴](méi)有證據(jù)表明,華人更多地出任第一作者,還是非華人更多地出任第一作者。至于每個(gè)作者的文章數(shù)和引用計(jì)數(shù),是采用簡(jiǎn)單累加,還是采用比例累加(如兩人合作,每人的貢獻(xiàn)算0.5還是1),我做了全數(shù)據(jù)集的對(duì)比試驗(yàn),幾乎完全不影響整體結(jié)果。
附錄二:出版物名稱,影響因子
按影響因子排序的前50人工智能期刊、會(huì)議錄列表:
IEEE TRANSACTIONS ON FUZZY SYSTEMS,6.701
International Journal of Neural Systems,6.085
IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE,6.077
IEEE TRANSACTIONS ON EVOLUTION ARYCOMPUTATION,5.908
INTEGRATED COMPUTER-AIDEDENGINEERING,4.981
IEEE Transactions on Cybernetics,4.943
IEEE Transactions on Neural Networksand Learning Systems,4.854
MEDICALIMAGE ANALYSIS,4.565
Information Fusion,4.353
INTERNATIONAL JOURNAL OF COMPUTER VISION,4.27
IEEE TRANSACTIONS ON IMAGEPROCESSING,3.735
IEEE Computational Intelligence Magazine,3.647
EVOLUTION ARYCOMPUTATION,3.6
IEEE INTELLIGENT SYSTEMS,3.532
PATTERN RECOGNITION,3.399
ARTIFICIAL IN TELLIGENCE,3.333
KNOW LED GE-BASED SYSTEMS,3.325
NEURAL NETWORKS,3.216
EXPERTSYSTEMSWITHAPPLICATIONS,2.981
Swarm and Evolutionary Computation,2.963
APPL IED SOFT COMPUTING,2.857
DATA MINING AND KNOW LEDGE DISCOVERY,2.714
INTERNATIONAL JOURNAL OF APPROXIMATEREASONING,2.696
SIAM Journalon Imaging Sciences,2.687
DECISION SUPPORT SYSTEMS,2.604
Swarm Intelligence,2.577
Fuzzy Optimization and Decision Making,2.569
IEEE TRANSACTIONS ON KNOW LEDGE AND DATA ENGINEERING,2.476
JOURNA LOF MACHINE LEARNING RESEARCH,2.45
ACM Transactions on Intelligent Systems and Technology,2.414
NEUROCOMPUTING,2.392
ENGINEERINGAPPLICATIONSOFARTIFICIALINTELLIGENCE,2.368
CHEMOMETRICSANDINTELLIGENTLABORATORYSYSTEMS,2.217
ARTIFICIALINTELLIGENCEINMEDICINE,2.142
COMPUTERVISIONANDIMAGEUNDERSTANDING,2.134
JOURNAL OF AUTO MATEDREASONING,2.113
INTERNATIONAL JOURNAL OFI NTELLIGENT SYSTEMS,2.05
COMPUTATION ALLINGUISTICS,2.017
ADVANCE DENGINEERING INFORMATICS,2
JOURNAL OF INTELLIGENT MANUFACTURING,1.995
Cognitive Computation,1.933
IEEE Transactionso n Affective Computing,1.873
JOURNALOFCHEMOMETRICS,1.873
MECHATRONICS,1.871
IEEE Transactions on Human-Machine Systems,1.8
Semantic Web,1.786
IMAGE AND VISION COMPUTING,1.766
Wiley Interdisciplinary Reviews-Data Mining and Knowledge Discovery,1.759
NEURAL PROCESSING LETTERS,1.747
ARTIFICIAL INTELLIGENCERE VIEW,1.731
評(píng)論
查看更多