數(shù)據(jù)類型是統(tǒng)計(jì)學(xué)中的重要概念,我們需要對(duì)它有正確的理解方能利用正確的數(shù)據(jù)類型來獲得結(jié)論。這篇文章將介紹幾種用于機(jī)器學(xué)習(xí)探索性數(shù)據(jù)分析的數(shù)據(jù)類型,以便正確的把握和利用數(shù)據(jù)。
對(duì)數(shù)據(jù)結(jié)構(gòu)的良好理解對(duì)于機(jī)器學(xué)習(xí)中探索性分析十分重要,對(duì)于不同的數(shù)據(jù)類型我們需要不同的統(tǒng)計(jì)學(xué)度量手段來進(jìn)行分析測(cè)試。同時(shí)也需要根據(jù)數(shù)據(jù)的類型選擇合適的可視化方式來幫助我們更好的理解數(shù)據(jù)。最后數(shù)據(jù)類型也為變量的分類提供了一個(gè)有效的途徑。
分類數(shù)據(jù)
分類數(shù)據(jù)代表著對(duì)象的屬性特點(diǎn)。諸如人群的性別、語言、國(guó)籍大都屬于分類數(shù)據(jù)。分類數(shù)據(jù)通常也可以用數(shù)值表示(例如1表示女性而0表示男性),但需要注意的是這一數(shù)值并沒有數(shù)學(xué)上的意義僅僅是分類的標(biāo)記而已。
定類數(shù)據(jù)
定類變量用于標(biāo)記不同變量的特征,而并不需要定量的數(shù)值,它們僅僅是標(biāo)簽而已。需要注意定類數(shù)據(jù)是無序的,對(duì)于變量順序的更改不會(huì)改變數(shù)據(jù)的本質(zhì)特征。
上圖中表示的便是一個(gè)樣本典型的分類數(shù)據(jù),分別描述了個(gè)體的性別和語言屬性。特別的作圖中是一個(gè)只有兩個(gè)屬性的二叉分枝。
定序數(shù)據(jù)
定序數(shù)據(jù)代表了離散但是有序的變量單位。它于定類數(shù)據(jù)十分類型但確實(shí)有序的數(shù)據(jù)組織。下面教育背景的數(shù)據(jù)很好地的描述了定序數(shù)據(jù)的特點(diǎn)。
上圖中的四個(gè)選項(xiàng)依次表示了不同的受教育程度,但卻無法量化初級(jí)教育與高中的差別和高中與大學(xué)差別間的不同。定序數(shù)據(jù)缺乏對(duì)于特征間差別的量化使得它更多的只能用于評(píng)價(jià)利于情緒和用戶滿意度等一系列非數(shù)值特征。
數(shù)值數(shù)據(jù)
離散數(shù)據(jù)
離散數(shù)據(jù)是指其取值是不連續(xù)的分離值,數(shù)據(jù)只能在一些特定點(diǎn)取值。這樣的數(shù)據(jù)不能定量測(cè)量但可以進(jìn)行統(tǒng)計(jì)計(jì)量,并可將其蘊(yùn)含的信息通過分類的方式進(jìn)行表示。擲硬幣便是最著名的例子,我們無法預(yù)測(cè)出下一次硬幣的正反但是可以通過統(tǒng)計(jì)歷史數(shù)據(jù)來估測(cè)概率的分布。
當(dāng)處理離散數(shù)據(jù)時(shí)我們需要對(duì)兩個(gè)問題進(jìn)行深入思考:數(shù)據(jù)是否可以計(jì)數(shù)統(tǒng)計(jì),是否可以分割成較小的部分。如果結(jié)論于此相關(guān)數(shù)據(jù)可以被測(cè)量而不能夠計(jì)數(shù),那么意味著我們需要處理的便是連續(xù)的數(shù)據(jù)類型。
連續(xù)數(shù)據(jù)
連續(xù)數(shù)據(jù)類型代表著對(duì)象可測(cè)量的連續(xù)取值,雖然不能夠計(jì)數(shù)但是可以用某種尺度進(jìn)行連續(xù)的測(cè)量取值,例如人的身高和年齡便是連續(xù)的數(shù)值。通常情況下人們只用或者實(shí)數(shù)來進(jìn)行表示。
定距數(shù)據(jù)
定距變量用于表示對(duì)象等差屬性的描述方法。當(dāng)我們使用定距變量時(shí)我們可以明確的知道數(shù)值間的順序和差別,并計(jì)量這種差別。對(duì)于溫度的描述就是一個(gè)定距數(shù)據(jù)典型的例子。
但定距變量存在的問題在于它沒有一個(gè)絕對(duì)的基準(zhǔn)零值,對(duì)于上圖中的溫度來說0度并不意味著沒有溫度。對(duì)于定距變量來說我們可以進(jìn)行加減操作卻無法進(jìn)行乘除或者比例計(jì)算操作。由于不存在絕對(duì)零值使得描述性和推理性的統(tǒng)計(jì)方法都無法在定距數(shù)據(jù)上應(yīng)用。
定比數(shù)據(jù)
定比數(shù)據(jù)和定距數(shù)據(jù)一樣都是有序的數(shù)據(jù)排列,但定比數(shù)據(jù)存在一個(gè)絕對(duì)的零值,所描述的都是具有零值基準(zhǔn)的變量,包括重量、高度和長(zhǎng)度等。
為何數(shù)據(jù)類型如此重要?
由于不同的統(tǒng)計(jì)方法適用于不同的數(shù)據(jù)類型,所以數(shù)據(jù)的類型對(duì)于統(tǒng)計(jì)和機(jī)器學(xué)習(xí)分析十分重要。試想如果利用連續(xù)數(shù)據(jù)的分析方法來研究分類數(shù)據(jù),那么十有八九會(huì)得出錯(cuò)誤的結(jié)論。對(duì)于數(shù)據(jù)類型的理解將會(huì)有助于我們選擇正確的方法和統(tǒng)計(jì)模型來探索和分析數(shù)據(jù)。那么不同的數(shù)據(jù)類型我們?cè)撨x擇何種統(tǒng)計(jì)模型來分析呢?
對(duì)于定類數(shù)據(jù)來說主要需要關(guān)注頻率、比例/百分比和可視化方法三個(gè)要素。用頻率度量某一事物在一定時(shí)間或者是在數(shù)據(jù)集中發(fā)生的次數(shù)。同時(shí)可以用頻率將其從數(shù)據(jù)中的占比進(jìn)行統(tǒng)計(jì)和分離。對(duì)于這列數(shù)據(jù)來說餅圖和柱狀圖是最好的呈現(xiàn)方式。
對(duì)于定序數(shù)據(jù)來說除了百分比和頻率等指標(biāo)外,還可以利用百分位數(shù)、中位數(shù)等統(tǒng)計(jì)指標(biāo)來描述數(shù)據(jù)。
對(duì)于連續(xù)數(shù)據(jù)來說可以利用更為豐富的的手段進(jìn)行處理,除了常見統(tǒng)計(jì)手段的均值和方差外還有峰峰值、范圍等指標(biāo)來進(jìn)行表示。為了表示數(shù)據(jù)的誤差和離散程度,帶有誤差棒的箱式圖和直方圖不失為一種直觀的呈現(xiàn)方式。通過箱圖可以看到數(shù)據(jù)的集中程度和誤差程度,而直方圖則可以提供數(shù)據(jù)的整體形態(tài)、中值、分布以及趨勢(shì)。
在這篇文章中我們看到除了連續(xù)和離散的數(shù)值類型外,統(tǒng)計(jì)學(xué)中還包括了定序數(shù)據(jù)、定類數(shù)據(jù)、定距數(shù)據(jù)和定比數(shù)據(jù)等類別。對(duì)于不同的數(shù)據(jù)類型有著不同的分析和可視化方法,在著手處理數(shù)據(jù)時(shí),理解數(shù)據(jù)是開始工作的首要條件,不僅有助于我們選擇正確的工具和方法,更有助于我們用正確的思維去探索和分析數(shù)據(jù),更容易地得出正確有效的結(jié)論。
-
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8423瀏覽量
132744 -
數(shù)據(jù)類型
+關(guān)注
關(guān)注
0文章
236瀏覽量
13636
原文標(biāo)題:機(jī)器學(xué)習(xí)探索性數(shù)據(jù)分析的數(shù)據(jù)類型
文章出處:【微信號(hào):thejiangmen,微信公眾號(hào):將門創(chuàng)投】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論