隨著計算機、智能手機和其他電子技術(shù)的發(fā)展,網(wǎng)絡(luò)數(shù)據(jù)急劇增加,進(jìn)而促使社會科學(xué)家發(fā)現(xiàn)新問題,或利用新方法解決老問題。經(jīng)濟學(xué)家、政治學(xué)家、社會學(xué)家可以使用谷歌、推特、臉書、網(wǎng)絡(luò)博客等在線數(shù)據(jù)研究輿情、信息流動、疾病傳播等問題。網(wǎng)絡(luò)大數(shù)據(jù)的使用在社會研究中有三個基本優(yōu)點 (Johnson and Smith, 2017)。 首先,與傳統(tǒng)問卷數(shù)據(jù)相比,收集網(wǎng)絡(luò)數(shù)據(jù)花費的時間和經(jīng)費更少。傳統(tǒng)問卷需要時間和經(jīng)費培訓(xùn)調(diào)查員并對樣本人群進(jìn)行提問,但大數(shù)據(jù)方法避免了上述時間和經(jīng)費的開銷。第二,大數(shù)據(jù)具有即時性。時刻更新的大數(shù)據(jù)提供了第一時間研究突發(fā)事件的可能。第三,大數(shù)據(jù)具有完整性。問卷研究者總是面臨低回饋率、項目無反應(yīng) (item non-response) 等問題,但每個人對網(wǎng)絡(luò)大數(shù)據(jù)的貢獻(xiàn)卻逐年增加。雖然網(wǎng)絡(luò)大數(shù)據(jù)有很多優(yōu)點,社會科學(xué)家在使用網(wǎng)絡(luò)大數(shù)據(jù)時需要考慮到其存在的局限性。本文將討論在社會科學(xué)中使用網(wǎng)絡(luò)數(shù)據(jù)的挑戰(zhàn):缺乏代表性、測量誤差、更易出現(xiàn)第一型錯誤。此外,本文還將列舉出缺乏代表性問題的幾種解決辦法,包括通過真實統(tǒng)計數(shù)據(jù)校準(zhǔn)網(wǎng)絡(luò)數(shù)據(jù)、通過雙重差分模型推測數(shù)據(jù)變化的趨勢、對網(wǎng)絡(luò)數(shù)據(jù)加權(quán)、以及將網(wǎng)絡(luò)數(shù)據(jù)視作面板數(shù)據(jù)。
1. 缺乏代表性
很多學(xué)者都指出,網(wǎng)絡(luò)數(shù)據(jù)存在選擇偏差,且研究者不能控制數(shù)據(jù)的代表性。由于老齡及貧困人口更少接觸互聯(lián)網(wǎng),網(wǎng)絡(luò)數(shù)據(jù)傾向于排除這些人群。例如,Scarborough (2018) 抓取了2017年父親節(jié)、母親節(jié)期間包含女性主義關(guān)鍵詞的推特數(shù)據(jù)。通過對這些推文進(jìn)行樸素貝葉斯情感分析(Na?ve Bayes sentimental analysis),作者得出了不同地區(qū)推文對女性主義的態(tài)度。為了研究推特數(shù)據(jù)的代表性程度,作者測試了推特情感指數(shù)與綜合社會調(diào)查(General Social Survey)中性別態(tài)度指數(shù)的相關(guān)性。此外,作者還研究了不同種族、性別、受教育程度的個人的推特情感指數(shù)是否可以通過他們的性別態(tài)度進(jìn)行預(yù)測。結(jié)果表明,針對女性主義的推特情感指數(shù)與綜合社會調(diào)查中的性別態(tài)度指數(shù)高度相關(guān)。但推特情感指數(shù)與性別態(tài)度指數(shù)的相關(guān)性在不同種族和受教育程度的人群中存在差異:非白人人口和受教育程度低的人口使用推特較少,推特情感指數(shù)與性別態(tài)度指數(shù)的相關(guān)性也較低。上述結(jié)果表示,雖然推特是了解輿論的重要途徑,它對總體人口并不具有代表性。
2. 測量誤差
除代表性問題外,研究者還發(fā)現(xiàn)網(wǎng)絡(luò)數(shù)據(jù)存在測量誤差問題。一個經(jīng)典案例就是谷歌流感趨勢的失效。Lazer等人 (2014) 發(fā)現(xiàn),谷歌搜索中的流感頻率與現(xiàn)實中的流感爆發(fā)并不具有相關(guān)性。這就表示谷歌搜索熱度也許并不是一種可靠的測量方法。除谷歌搜索外,測量誤差還出現(xiàn)在社交媒體中。例如,通過臉書的“外籍墨西哥人 (Expats Mexico)”分類,研究者可以研究住在美國年滿18周歲的墨西哥移民情況 (Zagheni et al. 2017)。臉書的“外籍人士”并無明確定義,一般基于兩個因素:個人在資料欄填寫的“居住城市”和“故鄉(xiāng)”,及好友的社交網(wǎng)絡(luò)結(jié)構(gòu)。作者指出這樣的定義存在潛在的測量誤差:這種定義下的“外籍人士”并不一定出生在國外,且用戶填寫的個人資料未必是真實信息。這樣的測量誤差很難解決?;诖祟悢?shù)據(jù)的模型要經(jīng)常重新校準(zhǔn) (re-calibrate)。
3. 更易出現(xiàn)第一型錯誤
當(dāng)兩個變量間出現(xiàn)的顯著關(guān)系是出于偶然,而非真實存在的關(guān)系時,第一型錯誤就發(fā)生了 (Barocas and Selbst 2016)。這類問題在研究者把大量變量加入模型時更容易發(fā)生:加入的變量越多,越有可能發(fā)現(xiàn)出于偶然的顯著關(guān)系。鑒于大數(shù)據(jù)包括大量的數(shù)據(jù)和變量,相比于傳統(tǒng)的理論主導(dǎo) (theoretically driven) 的研究方法,研究者在數(shù)據(jù)主導(dǎo) (data driven) 的研究方法中更容易出現(xiàn)第一型錯誤 (Boyd and Crawford 2012)。
解決辦法
1. 通過真實統(tǒng)計數(shù)據(jù)校準(zhǔn)
當(dāng)面對網(wǎng)絡(luò)數(shù)據(jù)缺乏代表性的問題時,研究者可以通過用真實統(tǒng)計數(shù)據(jù)校準(zhǔn)的方法估計研究對象的數(shù)值。此方法需要對研究對象數(shù)值與他們在網(wǎng)上呈現(xiàn)的數(shù)據(jù)間的關(guān)系,及互聯(lián)網(wǎng)滲透 (internet penetration)與社會人口學(xué)變量間的關(guān)系做出函數(shù)假設(shè)。例如,Zagheni和Weber (2012) 通過觀察電子郵件的IP地址,研究不同年齡的人口遷出率。他們根據(jù)年齡和不同國家的互聯(lián)網(wǎng)滲透率建立函數(shù),估計遷出人口的誤差值,再根據(jù)歐洲國家的人口統(tǒng)計數(shù)據(jù)對模型進(jìn)行校準(zhǔn),通過對誤差的估計,修正最初觀察電子郵件得到的數(shù)據(jù),得出真實的遷出人口數(shù)量。
但這種方法僅適用于統(tǒng)計數(shù)據(jù)完善的國家和地區(qū)。Zagheni和Weber (2012) 發(fā)現(xiàn),一些非洲國家網(wǎng)民數(shù)量少、互聯(lián)網(wǎng)滲透率低,且缺乏完善的人口統(tǒng)計數(shù)據(jù),此方法并不適用。
2. 雙重差分模型
當(dāng)缺乏完善的統(tǒng)計數(shù)據(jù)時,研究者還可以通過雙重差分模型估計變化趨勢 (Zagheni and Weber 2012)。如果社交媒體的用戶呈現(xiàn)出某種相似的變化趨勢,那么研究者就可以比較某個特定群體或地區(qū)這段時間的變化與總體用戶變化的區(qū)別,從而得到這個群體的相對變化趨勢。
3. 對網(wǎng)絡(luò)數(shù)據(jù)加權(quán)
另一個降低缺乏代表性造成的誤差的方法是對網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行加權(quán)。類似社交媒體用戶組成的樣本或總體樣本都可以用來計算網(wǎng)絡(luò)數(shù)據(jù)的權(quán)重 (Diaz et al. 2015)。對數(shù)據(jù)加權(quán)便于比較不同用戶群體。例如,女性發(fā)送推特的數(shù)量總體少于男性,但更熱衷于針對政治問題發(fā)送推文。如果我們對女性用戶的數(shù)據(jù)進(jìn)行加權(quán),就可以得出更具有代表性的結(jié)果。上文提到,非白人和受教育程度低的人群在推特上缺乏代表性。對這些群體加權(quán)可以增加他們在推特上的比重,一定程度上提高代表性。
4. 將網(wǎng)絡(luò)數(shù)據(jù)視作面板數(shù)據(jù)
最后,面對缺乏代表性問題,與其將網(wǎng)絡(luò)數(shù)據(jù)看作總體樣本的代表,我們還可以將其視作面板數(shù)據(jù),從而觀察個人或群體在一定時間內(nèi)的變化。例如,Diaz等 (2015) 觀察了大選期間推特用戶最近一次討論選舉的推文和當(dāng)天任何一條推文之間的時間差,多數(shù)人的時間差在一周左右。但競選辯論當(dāng)天,研究者發(fā)現(xiàn)該時間差有顯著增加,這意味著很多之前并不熱衷于討論競選的用戶在關(guān)鍵日期加入了討論。此外,這些面板數(shù)據(jù)還可以用來研究某些事件發(fā)生前后的行為和態(tài)度變化,尤其適用于研究對某些群體有特定影響的事件。研究者可以選擇來自不同群體的社交媒體用戶,觀察他們在事件前后的變化,并發(fā)現(xiàn)群體間的差異。
結(jié)論
本文列舉了在社會科學(xué)中使用網(wǎng)絡(luò)數(shù)據(jù)的幾種挑戰(zhàn):缺乏代表性、測量誤差、更易出現(xiàn)第一型錯誤。本文隨后列舉了缺乏代表性問題的幾種解決辦法,包括通過真實統(tǒng)計數(shù)據(jù)校準(zhǔn)網(wǎng)絡(luò)數(shù)據(jù)、通過雙重差分模型推測數(shù)據(jù)變化的趨勢、對網(wǎng)絡(luò)數(shù)據(jù)加權(quán)、以及將網(wǎng)絡(luò)數(shù)據(jù)視作面板數(shù)據(jù)。雖然網(wǎng)絡(luò)數(shù)據(jù)為社會科學(xué)提供了更多研究資源,研究者在使用網(wǎng)絡(luò)數(shù)據(jù)時要考慮到網(wǎng)絡(luò)的特殊性,發(fā)現(xiàn)數(shù)據(jù)的不足,并盡可能縮小網(wǎng)絡(luò)數(shù)據(jù)與現(xiàn)實數(shù)據(jù)的差異。
-
數(shù)據(jù)采集
+關(guān)注
關(guān)注
39文章
6108瀏覽量
113667 -
大數(shù)據(jù)
+關(guān)注
關(guān)注
64文章
8890瀏覽量
137449
發(fā)布評論請先 登錄
相關(guān)推薦
評論