0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
电子发烧友
开通电子发烧友VIP会员 尊享10大特权
海量资料免费下载
精品直播免费看
优质内容免费畅学
课程9折专享价
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

實(shí)現(xiàn)海量數(shù)據(jù)分析及可視化的簡(jiǎn)便方法

DPVg_AI_era ? 作者:工程師飛燕 ? 2018-08-07 14:04 ? 次閱讀

【新智元導(dǎo)讀】近期,Kaggle發(fā)布了新的數(shù)據(jù)分析及可視化工具——Kaggle Kerneler bot,用戶(hù)只需上傳數(shù)據(jù)集,便可用Python為用戶(hù)自動(dòng)獲取相關(guān)的深度數(shù)據(jù)分析結(jié)果。本文將帶領(lǐng)讀者體驗(yàn)一下這款便捷而又高效的工具。

Kaggle Kerneler bot是一個(gè)自動(dòng)生成的kernel,其中包含了演示如何讀取數(shù)據(jù)以及分析工作的starter代碼。用戶(hù)可以進(jìn)入任意一個(gè)已經(jīng)發(fā)布的項(xiàng)目,點(diǎn)擊頂部的“Fork Notebook”來(lái)編輯自己的副本。接下來(lái),小編將以最熱門(mén)的兩個(gè)項(xiàng)目作為例子,帶領(lǐng)讀者了解該如何使用這款便捷的工具。

好的開(kāi)始是成功的一半!

要開(kāi)始這個(gè)探索性分析(exploratory analysis),首先需要導(dǎo)入一些庫(kù)并定義使用matplotlib繪制數(shù)據(jù)的函數(shù)。但要注意的是,并不是所有的數(shù)據(jù)分析結(jié)果圖像都能夠呈現(xiàn)出來(lái),這很大程度上取決于數(shù)據(jù)本身(Kaggle Kerneler bot只是一個(gè)工具,不可能做到Jeff Dean或者Kaggle比賽選手們那么完美的結(jié)果)。

In [1]:

frommpl_toolkits.mplot3dimportAxes3Dfromsklearn.decompositionimportPCAfromsklearn.preprocessingimportStandardScalerimportmatplotlib.pyplotasplt#plottingimportnumpyasnp#linearalgebraimportos#accessingdirectorystructureimportpandasaspd#dataprocessing,CSVfileI/O(e.g.pd.read_csv)

在本例中,一共輸入了12個(gè)數(shù)據(jù)集。

In [2]:

print(os.listdir('../input'))print(os.listdir('../input/moeimouto-faces/moeimouto-faces/007_nagato_yuki'))print(os.listdir('../input/moeimouto-faces/moeimouto-faces/046_alice_margatroid'))print(os.listdir('../input/moeimouto-faces/moeimouto-faces/065_sanzenin_nagi'))print(os.listdir('../input/moeimouto-faces/moeimouto-faces/080_koizumi_itsuki'))print(os.listdir('../input/moeimouto-faces/moeimouto-faces/096_golden_darkness'))print(os.listdir('../input/moeimouto-faces/moeimouto-faces/116_pastel_ink'))print(os.listdir('../input/moeimouto-faces/moeimouto-faces/140_seto_san'))print(os.listdir('../input/moeimouto-faces/moeimouto-faces/144_kotegawa_yui'))print(os.listdir('../input/moeimouto-faces/moeimouto-faces/164_shindou_chihiro'))print(os.listdir('../input/moeimouto-faces/moeimouto-faces/165_rollo_lamperouge'))print(os.listdir('../input/moeimouto-faces/moeimouto-faces/199_kusugawa_sasara'))print(os.listdir('../input/moeimouto-faces/moeimouto-faces/997_ana_coppola'))

接下里,用戶(hù)在編輯界面中會(huì)看到四個(gè)已經(jīng)編好的代碼塊,它們定義了繪制數(shù)據(jù)的函數(shù)。而在發(fā)布后的頁(yè)面,這些代碼塊會(huì)被隱藏,如下圖所示,只需單擊已發(fā)布界面中的“code”按鈕就可以顯示隱藏的代碼。

準(zhǔn)備就緒!讀取數(shù)據(jù)!

首先,讓我們先看一下輸入中的第一個(gè)數(shù)據(jù)集:

In [7]:

nRowsRead = 100 # specify ‘None’ if want to read whole file# color.csv may have more rows in reality, but we are only loading/previewing the first 100 rowsdf1 = pd.read_csv(‘。。/input/moeimouto-faces/moeimouto-faces/080_koizumi_itsuki/color.csv’, delimiter=‘,’, nrows = nRowsRead)df1.dataframeName = ‘color.csv’nRow, nCol = df1.shapeprint(f‘There are {nRow} rows and {nCol} columns’)

那么數(shù)據(jù)長(zhǎng)什么樣子呢?

In [8]:

df1.head(5)

Out [8]:

實(shí)現(xiàn)海量數(shù)據(jù)分析及可視化的簡(jiǎn)便方法

數(shù)據(jù)可視化:僅需簡(jiǎn)單幾行!

樣本的柱狀圖:

In [9]:

plotHistogram(df1, 10, 5)

二維和三維的PCA圖:

In [10]:

plotPCA(df1, 2) # 2D PCAplotPCA(df1, 3) # 3D PCA

同理,更換數(shù)據(jù)集文件的路徑,也可以得到其它數(shù)據(jù)對(duì)應(yīng)的結(jié)果。

當(dāng)然,除了上述幾種可視化的結(jié)果外,根據(jù)輸入數(shù)據(jù)以及需求的不同,也可以得到其它數(shù)據(jù)分析可視化結(jié)果,例如:

相關(guān)矩陣:

In [11]:

plotCorrelationMatrix(df1, 8)

散射和密度圖:

In [12]:

plotScatterMatrix(df1, 20, 10)

針對(duì)數(shù)據(jù)分析、數(shù)據(jù)可視化工作,Kaggle kerneler bot應(yīng)當(dāng)說(shuō)是相當(dāng)?shù)谋憬莺透咝Я?。那么你是否也想嘗試一下呢?

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 可視化
    +關(guān)注

    關(guān)注

    1

    文章

    1219

    瀏覽量

    21425
  • 數(shù)據(jù)分析
    +關(guān)注

    關(guān)注

    2

    文章

    1467

    瀏覽量

    34556

原文標(biāo)題:Kaggle放大招:簡(jiǎn)單幾步實(shí)現(xiàn)海量數(shù)據(jù)分析及可視化

文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 0人收藏

    評(píng)論

    相關(guān)推薦

    七款經(jīng)久不衰的數(shù)據(jù)可視化工具!

    Sense 是一種自助式分析工具,旨在通過(guò)內(nèi)存計(jì)算和可視化手段使數(shù)據(jù)分析變得簡(jiǎn)單直觀。它適合各種規(guī)模的企業(yè),但相比于Tableau和Power BI,其學(xué)習(xí)曲線稍顯陡峭。 3. 開(kāi)源數(shù)
    發(fā)表于 01-19 15:24

    為更快讀懂報(bào)表,我們將數(shù)據(jù)可視化

    常用圖表的基礎(chǔ)上,開(kāi)發(fā)數(shù)十種高級(jí)數(shù)據(jù)可視化圖表,同時(shí)還賦予這些圖表聯(lián)動(dòng)鉆取功能,讓瀏覽者一眼看懂數(shù)據(jù)的同時(shí)還能根據(jù)自身分析需求進(jìn)行自助式數(shù)據(jù)分析
    發(fā)表于 06-05 17:21

    只有報(bào)表直觀了,不能算真正的數(shù)據(jù)可視化

    ——數(shù)據(jù)中心(數(shù)據(jù)中臺(tái))。OurwayBI數(shù)據(jù)可視化軟件的數(shù)據(jù)中臺(tái)能支持億級(jí)數(shù)據(jù)的匹配抽取,即使
    發(fā)表于 07-01 17:20

    能做數(shù)據(jù)治理的數(shù)據(jù)可視化工具,又快又靈活

    也就無(wú)從談起。對(duì)這樣的企業(yè)用戶(hù)而言,數(shù)據(jù)治理是邁向BI數(shù)據(jù)智能可視化分析的首要關(guān)卡,必須先做數(shù)據(jù)治理,統(tǒng)一數(shù)據(jù)分析口徑,厘清
    發(fā)表于 07-13 15:34

    現(xiàn)在做企業(yè)級(jí)數(shù)據(jù)分析,離不開(kāi)秒分析數(shù)據(jù)可視化工具

    找到分析快、深入的數(shù)據(jù)可視化工具還不夠,做企業(yè)級(jí)數(shù)據(jù)分析少不了針對(duì)企業(yè)用戶(hù)實(shí)際狀況和需求搭建數(shù)據(jù)分析模型,但這可是份相當(dāng)耗時(shí)、復(fù)雜的工作,稍
    發(fā)表于 07-21 15:06

    請(qǐng)問(wèn)怎么把BI數(shù)據(jù)可視化報(bào)表發(fā)給領(lǐng)導(dǎo)看?

    進(jìn)行解答。怎么把做好的數(shù)據(jù)可視化報(bào)表發(fā)給領(lǐng)導(dǎo)?方法:?jiǎn)⒂梅窒砉δ?,生成鏈接或二維碼發(fā)送給領(lǐng)導(dǎo)。步驟:1、返回SpeedBI數(shù)據(jù)分析云首頁(yè),點(diǎn)擊報(bào)表右上角“…”,選擇“分享”。在彈出來(lái)的
    發(fā)表于 09-01 17:26

    一般圖表做不了的分析,BI數(shù)據(jù)可視化圖表可以

    隨著業(yè)務(wù)變化,分析場(chǎng)景細(xì)分,出現(xiàn)了越來(lái)越多的一般圖表做不了的分析,比如分析顧客滿(mǎn)意度,又比如分析展示運(yùn)動(dòng)軌跡、多項(xiàng)目進(jìn)程等。面對(duì)這些分析需求
    發(fā)表于 01-15 10:22

    什么樣的數(shù)據(jù)分析軟件能讓全員自助可視化分析更絲滑?

    的大數(shù)據(jù)時(shí)代,數(shù)據(jù)可視化分析的效率、靈活自助性都將極大地影響企業(yè)的經(jīng)營(yíng)決策。在動(dòng)則千萬(wàn)級(jí)、過(guò)億級(jí)的大數(shù)據(jù)量下,企業(yè)更需要一個(gè)能夠智能且高效、靈活且自助的BI
    發(fā)表于 09-22 10:04

    奧威BI數(shù)據(jù)可視化軟件|讓業(yè)務(wù)獨(dú)立自主分析

    增加。怎么才能提高分析效率?BI數(shù)據(jù)可視化軟件的零編程構(gòu)建分析模型,讓業(yè)務(wù)獨(dú)立自助分析的做法也就應(yīng)運(yùn)而生了。零編程構(gòu)建
    發(fā)表于 04-11 10:29

    SpeedBI數(shù)據(jù)可視化工具:瀏覽器上做分析

    SpeedBI數(shù)據(jù)分析云是一種在瀏覽器上進(jìn)行數(shù)據(jù)可視化分析的工具,它能夠?qū)?b class='flag-5'>數(shù)據(jù)可視化的形式呈現(xiàn)出來(lái),并支持多種
    發(fā)表于 08-22 10:55

    財(cái)務(wù)數(shù)據(jù)分析?奧威BI數(shù)據(jù)可視化工具很擅長(zhǎng)

    的智能財(cái)務(wù)指標(biāo)計(jì)算功能,還擁有一套標(biāo)準(zhǔn)、系統(tǒng)的財(cái)務(wù)數(shù)據(jù)分析方案,無(wú)需測(cè)試,下載即可用! 奧威BI工具+智能財(cái)務(wù)方案:輕松完成智能財(cái)務(wù)數(shù)據(jù)可視化分
    發(fā)表于 08-29 09:44

    千人千面的數(shù)據(jù)分析有沒(méi)可能?奧威BI數(shù)據(jù)可視化工具告訴你

    ,實(shí)現(xiàn)數(shù)字運(yùn)營(yíng)管理。 ③按需篩選。用戶(hù)可根據(jù)具體情況按照組織、時(shí)間段、產(chǎn)品品類(lèi)等條件展開(kāi)數(shù)據(jù)篩選分析。 奧威BI數(shù)據(jù)
    發(fā)表于 08-29 14:45

    可視化策略的數(shù)據(jù)分析

    研究者采用可視化策略(即平行坐標(biāo))的數(shù)據(jù)分析方法,更好地展示了多維材料數(shù)據(jù),可以更好地識(shí)別不同屬性之間的有用關(guān)系。
    的頭像 發(fā)表于 04-27 09:22 ?4605次閱讀
    <b class='flag-5'>可視化</b>策略的<b class='flag-5'>數(shù)據(jù)分析</b>

    用標(biāo)準(zhǔn)數(shù)據(jù)分析方案做數(shù)據(jù)可視化更省成本

    標(biāo)準(zhǔn)數(shù)據(jù)分析方案是以豐富經(jīng)驗(yàn)為基礎(chǔ),針對(duì)數(shù)據(jù)分析共性需求進(jìn)行設(shè)置的數(shù)據(jù)分析方案。在數(shù)據(jù)可視化工具上直接使用標(biāo)準(zhǔn)
    發(fā)表于 10-13 14:26 ?497次閱讀

    數(shù)據(jù)可視化數(shù)據(jù)分析的關(guān)系

    在當(dāng)今這個(gè)信息爆炸的時(shí)代,數(shù)據(jù)無(wú)處不在。無(wú)論是企業(yè)運(yùn)營(yíng)、科學(xué)研究還是個(gè)人決策,我們都需要從海量數(shù)據(jù)中提取有價(jià)值的信息。數(shù)據(jù)分析數(shù)據(jù)
    的頭像 發(fā)表于 12-06 17:09 ?661次閱讀

    電子發(fā)燒友

    中國(guó)電子工程師最喜歡的網(wǎng)站

    • 2931785位工程師會(huì)員交流學(xué)習(xí)
    • 獲取您個(gè)性化的科技前沿技術(shù)信息
    • 參加活動(dòng)獲取豐厚的禮品