不同平均數(shù)的比較;圖片來源:維基百科
大概是最常見的數(shù)據(jù)分析任務
你有一組數(shù)字。你希望用更少的數(shù)字概括它們,最好是只用一個數(shù)字。因此,你將這組數(shù)字加起來,然后除以數(shù)字的數(shù)目。哇,你得到了“平均數(shù)”,沒錯吧?
也許。
和流行的觀點不同,從數(shù)學上說,平均數(shù)通常不是一樣東西。意思是:沒有可以恰當?shù)胤Q作“平均數(shù)”的數(shù)學運算。我們通常所說的平均數(shù)是“算術平均數(shù)”,具體計算過程如前所述。我們稱其為“平均數(shù)”,是因為我們期望它符合“平均數(shù)”的口頭定義:一個典型的、正態(tài)的中間值。我們常常是對的,但正確的頻率比我們想象的要低。
概述統(tǒng)計量
算術平均數(shù)僅僅是得到“平均”值的許多方法的其中之一。技術一點地說,這些屬于概述統(tǒng)計量、集中趨勢測度、位置測度。
中位數(shù)大概是第二出名的概述統(tǒng)計量。由于中位數(shù)是數(shù)據(jù)集中間的值,因此常常比均值更平均。我這里不討論中位數(shù),不過在許多情形下,算術平均數(shù)被濫用在中位數(shù)更合適的地方。更多關于中位數(shù)的內(nèi)容,可以參考下面三篇文章:
https://www.linkedin.com/pulse/20140715160509-29681087-median-vs-average-household-income/
http://wkuappliedeconomics.org/indblogs/mean-vs-median-income-which-one-to-use-and-what-it-means-for-south-central-kentucky/
https://medium.com/%40JLMC/understanding-three-simple-statistics-for-data-visualizations-2619dbb3677a
本文將重點討論知名度相對較低的幾何平均數(shù)和調(diào)和平均數(shù)。
畢達哥拉斯平均數(shù)
平方平均數(shù)和畢達哥拉斯平均數(shù);圖片來源:維基百科
算術平均數(shù)是3種畢達哥拉斯平均數(shù)之一(名稱源自研究這些性質(zhì)的畢達哥拉斯及其學派)。另外兩種畢達哥拉斯平均數(shù)是幾何平均數(shù)和調(diào)和平均數(shù)。
為了了解它們的基本功能,讓我們從熟悉的算術平均數(shù)開始。
算術平均數(shù)
算術平均數(shù)的名字取得很合適:我們累加數(shù)據(jù)集中的所有數(shù)字,接著除以數(shù)據(jù)集包含的數(shù)字數(shù)目。
不過,加法沒有什么特別的。它只不過是一種簡單的數(shù)學運算。在數(shù)字之間存在可加性(additive)關系的數(shù)據(jù)集上,算術平均數(shù)效果很好。這樣的關系經(jīng)常被稱為線性,因為如果我們將所有數(shù)字按升序或降序排列,數(shù)字傾向于落在一根直線上。一個簡單而理想化的例子是公差為3的等差數(shù)列:
然而,不是所有的數(shù)據(jù)集都適宜用這種關系描述的。有些數(shù)據(jù)集內(nèi)部存在乘法或指數(shù)關系,例如,公比為3的等比數(shù)列:
我們看到,算術平均數(shù)(156)并不特別接近我們的數(shù)據(jù)集中的大多數(shù)數(shù)字。實際上,它是中位數(shù)(27)的5倍。
將數(shù)據(jù)繪制在一根數(shù)軸上,能夠更明顯地看到這一扭曲。
所以,我們做什么?
引入……
幾何平均數(shù)
由于數(shù)據(jù)集中數(shù)字之間的關系是相乘,我們通過乘法和取方根(總共有幾個數(shù)字就開幾次方根)來得到幾何平均數(shù)。
我們可以看到,在等比數(shù)列上,幾何平均數(shù)更能代表數(shù)據(jù)集的中間值。事實上,在這個等比數(shù)列數(shù)據(jù)集上,它等于中位數(shù)。
從單根數(shù)軸上也可以看到這一點:
幾何平均數(shù)的真實世界應用
實際上,有很多實際場景適合使用幾何平均數(shù),因為類似相乘的關系在真實世界中很常見。
一個經(jīng)典的例子是復利問題。
假設我們有一筆5年期存款,本金為$100,000,每年的利率是變動的:
年利率:1%、9%、6%、2%、15%
我們想要找到平均年利率,并據(jù)此計算5年后本金和利息的總和。我們嘗試“平均”這些利率:
(.01 + .09 + .06 + .02 + .15) ÷ 5 = .066 = 6.6%
然后我們將平均利率代入復利計算公式:
100000 * (1.066 ** 5 - 1) + 100000 = 137653.11
比較以下不使用平均利率,直接計算的結(jié)果:
100000 * 1.01 * 1.09 * 1.06 * 1.02 * 1.15 = 136883.70
可以看到,我們的簡便計算方法誤差接近$1,000。
我們犯了一個常見的錯誤:我們將加法操作應用于相乘過程,得到了不精確的結(jié)果。
現(xiàn)在,讓我們試試幾何平均數(shù):
1.01 * 1.09 * 1.06 * 1.02 * 1.15 = 1.368837042
1.368837042開5次方根 = 1.064805657
將幾何平均數(shù)代入復利計算公式:
100000 * (1.0648 ** 5 - 1) + 100000 = 136883.70
這個數(shù)字正好等于我們逐年計算所得的結(jié)果。
我們使用了合適的平均數(shù),并得到了正確的結(jié)果。
幾何平均數(shù)還適合什么場景呢?
幾何平均數(shù)的一個很酷的特性是,你可以對尺度完全不同的數(shù)字取平均數(shù)。
例如,假設我們想比較兩間咖啡店來源不同的在線評價。問題在于,來源一的評價使用五星制,而來源二的評分評價使用百分制:
咖啡店A
來源一:4.5
來源二:68
咖啡店B
來源一:3
來源二:75
如果我們直接根據(jù)原始分值計算算術平均數(shù):
咖啡店 A = (4.5 + 68) / 2 = 36.25
咖啡店 B = (3 + 75) / 2 = 39
根據(jù)上面的數(shù)據(jù),我們得出結(jié)論咖啡店B是贏家。
如果我們對數(shù)字有一點敏感性,我們會知道在應用算術平均數(shù)得到精確的結(jié)果之前,我們首先需要標準化(normalize)數(shù)據(jù)集中的值至同一尺度。
所以,我們將來源一中的評價乘以20,將其從五星尺度拉伸到來源二的百分制尺度:
# 咖啡店A
4.6 * 20 = 90
(90 + 68) / 2 = 79
# 咖啡店B
3 * 20 = 60
(60 + 75) / 2 = 67.5
我們發(fā)現(xiàn),其實咖啡店A才是贏家。
然而,幾何平均數(shù),允許我們在不考慮尺度問題的前提下得到一樣的結(jié)論:
咖啡店A = (4.5 * 68) 的平方根 = 17.5
咖啡店B = (3 * 75) 的平方根 = 15
算術平均數(shù)被尺度較大的數(shù)字支配了,以至于得出了錯誤的結(jié)果。這是因為算術平均數(shù)期望數(shù)字間的加法關系,而沒有考慮尺度和比例問題。所以需要在應用算術平均數(shù)之前將數(shù)字轉(zhuǎn)換為同一尺度。
另一方面,幾何平均數(shù),很容易就能處理比例問題,因為它本質(zhì)上是乘法關系。這是一個極為有用的性質(zhì),但注意我們損失了什么:我們不再具有可解釋的尺度了。在這樣的情況下,幾何平均數(shù)其實是無單位的(unitless)。
例如,以上的幾何平均數(shù)既不意味著百分制中的17.5分,也不意味著五星制中的15星。它們不過是無單位的數(shù)字,互相之間比例一致(技術上說,它們的尺度是原尺度5 & 100的幾何平均數(shù),也就是22.361)。不過,如果我們只需比較兩間咖啡店評價的高低,那么這不會成為一個問題。
幾何平均數(shù)回顧
幾何平均數(shù)對值相乘,而不是相加,接著取n次方根,而不是除以n。
它基本上是在說:如果我們的數(shù)據(jù)集中的數(shù)字都是一樣的,那么這個數(shù)字應該是什么,才能得到和實際數(shù)據(jù)集一樣的乘積?
這使它非常適合描述相乘關系,例如比率,即使這些比率的尺度不同。(因此,它經(jīng)常用來計算財經(jīng)指數(shù)和其他指數(shù)。)
缺點:應用幾何平均數(shù)時,可能會丟失有意義的尺度和單位。另外,它對離散值的不敏感性可能會遮蔽可能具有較大影響的大數(shù)值。
和生活中的大多數(shù)事情一樣,極少有牢不可破的規(guī)則說必須使用幾何平均數(shù)(復利等少數(shù)情形除外)。有一些啟發(fā)式的規(guī)則和經(jīng)驗規(guī)則,但無疑需要判斷力和科學的懷疑,才能應用合理的經(jīng)驗。
在最后的總結(jié)中我們將繼續(xù)討論這些,不過現(xiàn)在讓我們引入最后一種畢達哥拉斯平均數(shù)……
調(diào)和平均數(shù)
算術平均數(shù)需要加法,幾何平均數(shù)則利用乘法,調(diào)和平均數(shù)使用倒數(shù)。
我們可以用語言描述調(diào)和平均數(shù):數(shù)據(jù)集的倒數(shù)的算術平均數(shù)的倒數(shù)。
聽起來當中包含很多倒數(shù),但實際上不過是一些簡單的步驟:
對數(shù)據(jù)集中的所有數(shù)字取倒數(shù)
找到這些倒數(shù)的算術平均數(shù)
對上一步所得取倒數(shù)
源自維基百科的一個簡單例子:1、4、4的調(diào)和平均數(shù)是2:
注意,由于0沒有倒數(shù),因此調(diào)和平均數(shù)和幾何平均數(shù)一樣,無法處理包含0的數(shù)據(jù)集。
好,我們已經(jīng)明白數(shù)學部分如何工作了。不過調(diào)和平均數(shù)適用于哪些場景呢?
調(diào)和平均數(shù)的現(xiàn)實世界應用
為了回答上面的問題,我們需要回答:倒數(shù)適用于哪些場景?
由于倒數(shù)和除法類似,不過是偽裝的乘法(乘法不過是偽裝的加法),我們意識到:倒數(shù)幫助我們更方便地除以分數(shù)。
例如,5 ÷ 3/7等于多少?如果你還記得初等數(shù)學,你大概會將5乘以7/3(3/7的倒數(shù))。
不過有一個等價的方法,將5和3/7縮放至共同的分母:
5/1 ÷ 3/7 = 35/7 ÷ 3/7 = 35 ÷ 3 = 112/3 = 11.66667
類似之前使用幾何平均數(shù)作為快捷路徑,在未標準化的情況下找到不同尺度評分的相加算術平均數(shù)的關系,調(diào)和平均數(shù)幫助我們在不操心共同分母的情況下找到乘/除關系。
因此,調(diào)和平均數(shù)很自然地成為幾何平均數(shù)之上的另一層乘/除。因此,它有助于處理包含長度或周期不同的比率的數(shù)據(jù)集。
(你可能在想:“等一下,我原以為幾何平均數(shù)用在平均利率和不同尺度的比率上!”你想的沒錯。你也不是第一個為此感到困惑的人。我自己寫下下面的內(nèi)容正是為了厘清我自己的思考和理解。我希望下面的例子讓這個主題更清楚了,在文章后面的總結(jié)部分也會回顧所有的區(qū)別。)
平均速度
現(xiàn)實世界中,使用調(diào)和平均數(shù)的經(jīng)典例子是以不同的速度通過物理空間。
考慮一次去便利店并返回的行程:
去程速度為30 mph
返程時交通有一些擁堵,所以速度為10 mph
去程和返程走的是同一路線,也就是說距離一樣(5 miles)
整個行程的平均速度是多少?
同樣,我們可以不假思索地直接應用30 mph和10 mph的算術平均數(shù),然后自豪地宣布結(jié)果是20 mph。
但是再想一想:由于你在一個方向上的速度較高,因此你更快地完成了去程的5 miles,在那個速度上花了整個行程中更少的時間,所以整個行程期間你的平均速度不會是30 mph和10 mph的中點,它應該更接近10 mph,因為你更多的時間是以10 mph的速度行駛。
為了正確地應用算術平均數(shù),我們需要判定以每種速率行駛所花的時間,然后以適當?shù)臋嘀丶訖嗨阈g平均數(shù)的計算:
去程:5 / (30/60) = 10 minutes
返程:5 / (10/60) = 30 minutes
總行程:10 + 30 = 40 minutes
加權算術平均數(shù):(30 * 10/40) + (10 * 30/40) = 15 mph
所以,我們看到,真正的平均速度是15 mph,比使用未加權的算術平均數(shù)計算所得低了5 mph(或者25%)。
你大概猜到了我們下面要做什么……
讓我們試著使用調(diào)和平均數(shù):
2 / (1/30 + 1/10) = 15
真正的行程平均速度,自動根據(jù)在每個方向上使用的時間進行調(diào)整,是15 mph!
有一些地方需要注意:
可以直接應用調(diào)和平均數(shù)的前提是不同速度行駛的總距離是相等的。如果距離不同,我們需要使用加權調(diào)和平均數(shù),或加權算術平均數(shù)。
當距離不等時,算術平均數(shù)仍然以不同速度行駛的時間作為加權,而調(diào)和平均數(shù)則以不同速度行駛的距離作為加權(因為通過取倒數(shù),已經(jīng)隱式地考慮了不同速度的時間比例)。
畢達哥拉斯平均數(shù)大部分的復雜性和麻煩源于比率的本質(zhì)以及我們對比率的哪方面更感興趣。例如,算術平均數(shù)總是用分母的單位表示。在行程問題中,比率是每小時的英里數(shù),因此,算術平均數(shù)給出的結(jié)果是以分母(某種意義上隱藏的)單位表示,小時:(30m / 1hr + 10m / 1hr) ÷ 2 = 20m/1hr = 20 mph。如果我們在每個方向上所花的時間是一樣的,那么這個結(jié)果會是精確的。然而,我們知道,在每個方向上所花的時間并不一樣。相反,調(diào)和平均數(shù)通過取倒數(shù)翻轉(zhuǎn)這些比率,將我們實際感興趣的數(shù)字放入分母,接著取算術平均數(shù),并再次翻轉(zhuǎn),給出我們要求的平均速度。(可以使用財經(jīng)的P/E率更深入地探討這一問題,請參閱論文Using the Price-to-Earnings Harmonic Mean to Improve Firm Valuation Estimates。)
幾何平均數(shù)適用于復利問題的原因是,利率的周期是相等的:每種利率一年。如果周期是可變的,也就是說每種利率的持續(xù)時間不同,那么我們同樣需要使用某種權重。
幾何平均數(shù)可以處理相乘關系,例如復利問題和不同評分尺度上的比率,而調(diào)和平均數(shù)則通過神奇的倒數(shù)容納了另一層次的乘/除關系,例如可變周期或長度。
類似復利問題和幾何平均數(shù),這是一個準確、客觀正確的調(diào)和平均數(shù)的應用案例。不過,事情并不總是如此清晰。有其他準確的、可以在數(shù)學上論證的調(diào)和平均數(shù)的應用,包括物理、財經(jīng)、水文學,甚至(源自傳統(tǒng))棒球統(tǒng)計。和數(shù)據(jù)科學關系更密切的:調(diào)和平均數(shù)經(jīng)常用在評估機器學習模型的準確率和召回中。但是,在更多的情況下,調(diào)和平均數(shù)的應用需要判斷力,需要你對數(shù)據(jù)和手頭問題的靈活理解。
總結(jié)
1. 3種畢達哥拉斯平均數(shù)密切相關
例如,我們已經(jīng)看到:
不同尺度評分的幾何平均數(shù)有時保留了這些值標準化至同一尺度后的算術平均數(shù)的次序。
調(diào)和平均數(shù)等價于行程速度的加權算術平均數(shù)(權重為相對行程時間)
在下篇中,我們將看到,數(shù)據(jù)集的幾何平均數(shù)等價于數(shù)據(jù)集中每個數(shù)字的對數(shù)的算術平均數(shù)。所以,正如調(diào)和平均數(shù)不過是算術平均數(shù)加上一些倒數(shù)變換,幾何平均數(shù)不過是算術平均數(shù)加上對數(shù)變換。
2. 畢達哥拉斯平均數(shù)遵循嚴格的次序
根據(jù)相應的公式,調(diào)和平均數(shù)總是小于幾何平均數(shù),幾何平均數(shù)總是小于算術平均數(shù)。
這三種平均數(shù)是彼此接近還是互相遠離,取決于數(shù)據(jù)的分布。以上規(guī)則唯一的例外是,在數(shù)據(jù)集中所有數(shù)字相等的極端情形下,3種平均數(shù)同樣相等。也就是說,以下不等關系成立:
調(diào)和平均數(shù) ≤ 幾何平均數(shù) ≤ 算術平均數(shù)
從本節(jié)開頭的畢達哥拉斯平均數(shù)的幾何描述中也能看到這一點。
認識到這一次序關系有助于理解何時應用哪種平均數(shù),以及不同平均數(shù)對結(jié)果的影響。
讓我們回顧之前的相加和相乘數(shù)據(jù)集,這次我們將畫出所有三種平均數(shù):
很明顯,幾何平均數(shù)和調(diào)和平均數(shù)看起來要比這一線性、相加數(shù)據(jù)集的中間低不少。這是因為這兩種平均數(shù)對較小的數(shù)字而不是較大的數(shù)字更敏感(讓它們相對而言對較大的離散值不敏感)。
這里,幾何平均數(shù)準確地位于數(shù)據(jù)集的中點,而調(diào)和平均數(shù)則向低端扭曲,算術平均數(shù)則受較大的離散值的影響,向高端扭曲。
描繪一個集中趨勢用調(diào)和平均數(shù)表達最佳的數(shù)據(jù)集并不容易,因此我將直接轉(zhuǎn)入下一部分……
3. 強硬的規(guī)則,一些啟發(fā)式的方法,和許多判斷的空間
不同尺度的比率:使用幾何平均數(shù)(或在標準化的數(shù)據(jù)上應用算術平均數(shù))。
周期一致的復合比率:使用幾何平均數(shù)。
不同周期或長度上的比率:使用調(diào)和平均數(shù)(或加權平均數(shù))。
了解比率的哪一邊你更感興趣,以決定應用哪種平均數(shù)。算術平均數(shù)是以分母的單位表達的(顯式或隱式)。調(diào)和平均數(shù)讓你可以倒置比率,讓結(jié)果以原本分子的單位表達。
如果數(shù)據(jù)體現(xiàn)出相加結(jié)構:算術平均數(shù)通常是安全的選擇。
如果數(shù)據(jù)體現(xiàn)出相乘結(jié)構和/或包含較大的離散值:幾何平均數(shù)或調(diào)和平均數(shù)可能更合適(中位數(shù)可能也比較合適)。
任何決定都有缺陷和折衷:
使用幾何平均數(shù)可能損失有意義的尺度或單位。
包含0的數(shù)據(jù)集無法應用幾何平均數(shù)或調(diào)和平均數(shù),包含負數(shù)的數(shù)據(jù)集意味著無法應用幾何平均數(shù)。
使用幾何平均數(shù)或調(diào)和平均數(shù)時,受眾可能不熟悉這兩個概念。
經(jīng)常,更實用、更易解釋的方法是:
存在較大的離散值時直接使用中位數(shù)
移除離散值
使用加權算術平均數(shù)或統(tǒng)計學變換,而不是難懂的畢達哥拉斯平均數(shù)
統(tǒng)計計算語言R內(nèi)置矩陣求逆和三次樣條插值的方法,卻沒有內(nèi)置計算簡單的幾何平均數(shù)或調(diào)和平均數(shù)的函數(shù),這可能多少暗示了這兩種平均數(shù)狹窄的使用場景。(不過Google sheets和Excel倒是包含這兩種平均數(shù)。)
如果要用一句話概括整篇文章,那么:
理解數(shù)據(jù)的本質(zhì),仔細思考你用來描述數(shù)據(jù)的概述統(tǒng)計量,才能避免用錯平均數(shù)的風險。
請留言分享你使用這兩種不那么常見的畢達哥拉斯平均數(shù)的案例和經(jīng)歷(以及你發(fā)現(xiàn)的本文的錯誤)。
-
統(tǒng)計
+關注
關注
1文章
19瀏覽量
13503 -
算術
+關注
關注
0文章
12瀏覽量
7376 -
數(shù)據(jù)分析
+關注
關注
2文章
1449瀏覽量
34060
原文標題:平均而言,你用的是錯誤的平均數(shù)(上):幾何平均數(shù)和調(diào)和平均數(shù)
文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論