近期,來自艾倫人工智能研究所的研究人員對計(jì)算機(jī)領(lǐng)域中的性別問題做了深入分析。實(shí)驗(yàn)表明,本世紀(jì)男性和女性作者數(shù)量將不會(huì)持平、不同性別作者之間協(xié)作率在下降。
性別平等問題似乎一直是個(gè)熱議的話題,學(xué)術(shù)界也是如此。
去年8月,名稱一直飽受爭議的國際頂會(huì)NIPS,因在會(huì)議中遇到的性騷擾,再次將NIPS推上風(fēng)口浪尖。
同年11月17日,NIPS官網(wǎng)將會(huì)議名稱默默改為NeurIPS。至此,有關(guān)該頂會(huì)性別歧視、性別平等的問題算是得到了相應(yīng)的解決。
而近期,一項(xiàng)來自艾倫人工智能研究所(Allen Institute for Artificial Intelligence)的論文對計(jì)算機(jī)領(lǐng)域中的性別問題做了深入的分析與研究。
論文地址:
https://arxiv.org/pdf/1906.07883.pdf
這項(xiàng)研究對計(jì)算機(jī)領(lǐng)域近287萬篇文獻(xiàn)(截至2018年)進(jìn)行了全面的分析,結(jié)果表明:
如果按照當(dāng)前的趨勢發(fā)展下去,本世紀(jì)男性和女性作者數(shù)量將不會(huì)持平;
若是按照較為樂觀的預(yù)測結(jié)果,性別平等預(yù)計(jì)將在2100年之前實(shí)現(xiàn);
對計(jì)算機(jī)科學(xué)協(xié)作趨勢進(jìn)行分析后表明,不同性別作者之間協(xié)作率在下降。
287萬篇計(jì)算機(jī)論文做實(shí)驗(yàn)數(shù)據(jù)
研究人員所要試圖解決的問題包括:
論文作者之間的性別平衡如何隨時(shí)間而變化?
論文作者的性別將在何時(shí)達(dá)到平衡狀態(tài)?
協(xié)同作者之間的性別存在怎樣的關(guān)系?
研究人員通過對計(jì)算機(jī)科學(xué)會(huì)議和期刊(287萬篇論文)中的文獻(xiàn)原數(shù)據(jù)進(jìn)行自動(dòng)化研究,并利用Semantic Scholar學(xué)術(shù)搜索引擎中的數(shù)據(jù)來回答上述這些問題。
數(shù)據(jù)統(tǒng)計(jì)如下所示:
表1Computer Science and Medline語料庫統(tǒng)計(jì)
作者列表從所有出版物中提取,并編譯成一個(gè)名字列表。研究人員使用Gender API為每個(gè)名稱執(zhí)行性別查找。對于每個(gè)名稱,Gender API輸出預(yù)測的二進(jìn)制性別(女性或男性),以及與預(yù)測相關(guān)的準(zhǔn)確性和用于確定的樣本數(shù)量。只有首字母可用的作者(少于語料庫中所有作者的0.5%)被排除在分析之外。
(性別應(yīng)用程序接口(Gender API)是一個(gè)大型的在線數(shù)據(jù)庫,通過將各國公開的政府?dāng)?shù)據(jù)與社交媒體資料鏈接起來,可以獲得已知的姓名和性別關(guān)系。)
但此時(shí)卻存在一個(gè)問題:很多名字都是性別模糊的。因此研究人員使用Gender API返回的準(zhǔn)確性來表示每個(gè)作者是男性和女性的復(fù)合。
例如,第一個(gè)名字Matthew被確定為男性,準(zhǔn)確率最高為100。這個(gè)結(jié)果是明確的。然而,Taylor這個(gè)名字被確定為女性的正確率僅為55分。
精度用于為每個(gè)名稱生成兩個(gè)概率(m, f),其中m為關(guān)聯(lián)作者為男性的概率,f為關(guān)聯(lián)作者為女性的概率,其中m + f = 1。在本例中,每個(gè)姓Matthew的作者將用概率元組(1.0,0.0)表示,每個(gè)姓Taylor的作者將用概率元組(0.45,0.55)表示。
本世紀(jì)男女性別平衡較為困難,女性協(xié)作者呈下降趨勢
通過實(shí)驗(yàn),計(jì)算機(jī)科學(xué)語料庫中的287萬篇論文產(chǎn)生了824萬個(gè) author-paper units。
作者的趨勢
圖1
如圖1所示,按照目前的增長速度,女性作者的比例預(yù)計(jì)在2137年左右達(dá)到0.45(95%置信區(qū)間:[2109,2172])。
圖2
圖2顯示了一段時(shí)間內(nèi)女性和男性作者的數(shù)量。隨著時(shí)間的推移,作家的總數(shù)在增加,女性作家的比例也在增加。
圖3
圖3顯示了對均衡女性作者比例參數(shù)α的敏感性分析。該分析顯示了在每個(gè)均衡比例中首次達(dá)到平等的年份。
當(dāng)均衡比例被認(rèn)為有利于女性而非男性(高于0.5)時(shí),達(dá)到平衡的年份會(huì)更早。即使女性最終將占所有出版物的90%,但按照目前的增長速度,預(yù)計(jì)到2100年左右將實(shí)現(xiàn)男女平等。
協(xié)作者趨勢
此處統(tǒng)計(jì)的是每年計(jì)算機(jī)科學(xué)中相同和不同性別的協(xié)作者人數(shù)。
圖4
圖4顯示了自1995年以來相同/不同性別協(xié)作者的額外和缺失的數(shù)量。在男性和女性中,相同性別的合作作者比預(yù)期的要多,而不同性別的合作作者比預(yù)期的要少。近年來(與預(yù)期數(shù)字相比),每年有超過2萬個(gè)不同性別的合作項(xiàng)目消失。
通過分析觀察到的與預(yù)期的比率,協(xié)作者的趨勢還是較為悲觀的。
雖然男性和女性都更有可能與自己性別的作者合作,但在女性作者中,同性偏好的程度正在下降,而在男性作者中卻在上升。
與此同時(shí),不同性別之間的協(xié)作差距(O/E < 1.0)也在不斷擴(kuò)大。盡管近年來有更多的跨性別合作機(jī)會(huì)(由于在該領(lǐng)域工作的女性科學(xué)家的增加),但觀察到的跨性別合作的數(shù)量并沒有如預(yù)期的那樣增加。
與Medline的比較
Medline語料庫包括1163萬篇論文,可以產(chǎn)生4766萬個(gè)author-paper units。
圖5
圖5顯示了Medline語料庫中女性和男性作者的數(shù)量。
圖6
圖6顯示了使用ARIMA預(yù)測女性作者的預(yù)計(jì)比例。
2002年Medline語料庫數(shù)據(jù)中可以觀察到不連續(xù)性。這是由于Medline索引記錄中的完整作者姓名是從2002年才開始要求的。
2002年這一比例的下降表明,Medline期刊沒有對作者使用全名,才造成了2002年以前女性作者比例高的假象。
工作總結(jié)
研究人員對計(jì)算機(jī)科學(xué)文獻(xiàn)(287萬篇論文)進(jìn)行了全面分析,以評估作者之間的性別趨勢。
根據(jù)最近的趨勢,預(yù)計(jì)計(jì)算機(jī)科學(xué)中女性作者的比例在本世紀(jì)不會(huì)達(dá)到平等,并且在更現(xiàn)實(shí)的假設(shè)下,可能需要更長的時(shí)間。
研究人員還觀察到跨性別合作的數(shù)量低于預(yù)期,觀察到的預(yù)期比率隨著時(shí)間的推移而下降。
計(jì)算機(jī)科學(xué)領(lǐng)域女性科學(xué)家的比例增長緩慢,這繼續(xù)對進(jìn)入該領(lǐng)域的女性構(gòu)成挑戰(zhàn)。并且女性科學(xué)家在尋找合作者方面可能比男性科學(xué)家面臨更多的挑戰(zhàn)。
研究人員希望,這些發(fā)現(xiàn)將激勵(lì)該領(lǐng)域的其他人評估他們與這些性別偏見的關(guān)系,并考慮改善現(xiàn)狀的方法。
-
計(jì)算機(jī)
+關(guān)注
關(guān)注
19文章
7525瀏覽量
88319 -
數(shù)據(jù)庫
+關(guān)注
關(guān)注
7文章
3841瀏覽量
64544 -
人工智能
+關(guān)注
關(guān)注
1792文章
47514瀏覽量
239229
原文標(biāo)題:287萬篇CS文獻(xiàn)數(shù)據(jù)分析:性別差距100年難消除,男女搭配協(xié)作更累?
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論