AI和機(jī)器學(xué)習(xí)的火熱讓數(shù)據(jù)科學(xué)家成為近幾年熱門職業(yè)之一。但對于試圖從事這一職業(yè)的新人來說,數(shù)學(xué)可能最大的攔路虎之一。不過本文作者認(rèn)為,當(dāng)數(shù)據(jù)科學(xué)家并不一定需要堅(jiān)實(shí)的數(shù)學(xué)基礎(chǔ),并給出了9類無需數(shù)學(xué)基礎(chǔ)的數(shù)據(jù)科學(xué)任務(wù)。
在當(dāng)今世界上,數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)已成為最令人向往的職業(yè)方向之一,從大學(xué)生到職業(yè)生涯中期的專業(yè)人士,很多人都希望進(jìn)入數(shù)據(jù)科學(xué)領(lǐng)域。但是,在追求數(shù)據(jù)科學(xué)或機(jī)器學(xué)習(xí)領(lǐng)域時(shí)想到的第一個(gè)先決條件是,要具備深入研究復(fù)雜數(shù)學(xué)問題的能力,才能走進(jìn)數(shù)據(jù)科學(xué)的大門。
但是那些數(shù)學(xué)基礎(chǔ)薄弱,不具備扎實(shí)數(shù)學(xué)背景的人怎么辦?他們就沒有希望進(jìn)入數(shù)據(jù)科學(xué)領(lǐng)域了嗎?
當(dāng)然不是。本文將提供踏入數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)世界之前,是否強(qiáng)制要求數(shù)學(xué)背景知識(shí)的真實(shí)情況。
為什么說數(shù)學(xué)知識(shí)是數(shù)據(jù)科學(xué)家的先決條件?
與大學(xué)其他專業(yè)相比,數(shù)據(jù)科學(xué)更多地是關(guān)于如何快速準(zhǔn)確地學(xué)習(xí)。通過嚴(yán)格的數(shù)學(xué)運(yùn)算,快速準(zhǔn)確地掌握技術(shù),并且通??梢员却蠖鄶?shù)人更容易地學(xué)習(xí)。
數(shù)據(jù)科學(xué)家基本上都是統(tǒng)計(jì)學(xué)家,大多數(shù)人擁有研究生水平的數(shù)學(xué)和統(tǒng)計(jì)學(xué)知識(shí)。這是從事實(shí)際項(xiàng)目所必需的知識(shí),對于正確使用算法和假設(shè)檢驗(yàn)至關(guān)重要。
掌握邏輯回歸、決策樹、置信區(qū)間等標(biāo)準(zhǔn)數(shù)學(xué)工具也很重要。大多數(shù)企業(yè)都會(huì)使用這些標(biāo)準(zhǔn)工具。因此,招聘人員也傾向于尋找具備扎實(shí)數(shù)學(xué)背景的求職者,這主要是出于歷史原因。
堅(jiān)持使用標(biāo)準(zhǔn)的數(shù)學(xué)訓(xùn)練和標(biāo)準(zhǔn)工具,對有興趣成為硬核數(shù)據(jù)科學(xué)家的人是非常有用的。
數(shù)據(jù)科學(xué)家需要掌握哪些知識(shí)呢?
一位優(yōu)秀的數(shù)據(jù)科學(xué)家或工程師必須具備豐富的數(shù)據(jù)庫知識(shí)和工程實(shí)踐知識(shí)。包括處理和記錄錯(cuò)誤、監(jiān)控系統(tǒng),構(gòu)建人為錯(cuò)誤容錯(cuò)渠道,了解擴(kuò)展項(xiàng)目所需的條件、處理持續(xù)整合問題、掌握數(shù)據(jù)庫管理知識(shí),維護(hù)數(shù)據(jù)清理以及確保確定性處理流程等。
凡事有例外,高中數(shù)學(xué)水平的人也有機(jī)會(huì)
實(shí)際上,在機(jī)器學(xué)習(xí)的所有方面的技術(shù)中,數(shù)據(jù)科學(xué)背后的統(tǒng)計(jì)引擎并不涉及高中以后的任何數(shù)學(xué)或統(tǒng)計(jì)理論。
如果具備強(qiáng)大的數(shù)據(jù)和編程背景,任何人都可以非??焖俚貙W(xué)習(xí)數(shù)據(jù)科學(xué)。
不過,由硬核數(shù)學(xué)導(dǎo)向的數(shù)據(jù)科學(xué)家開發(fā)的一些技術(shù)并不使用數(shù)學(xué)或統(tǒng)計(jì)學(xué),這些技術(shù)同樣有效,其中一些技術(shù)已經(jīng)被證明不輸于使用數(shù)學(xué)的同類技術(shù),而且性能通常更加強(qiáng)大。此外,這些技術(shù)更易于理解,并且可解釋性更強(qiáng)。
數(shù)據(jù)科學(xué)家的實(shí)際工作有多少和數(shù)學(xué)有關(guān)?
打破神話,揭示現(xiàn)實(shí)。
從入門級數(shù)據(jù)科學(xué)家到中級數(shù)據(jù)科學(xué)家,一般花在數(shù)學(xué)上的時(shí)間不到5%,機(jī)器學(xué)習(xí)也是如此,尤其是建立模型時(shí),很少有時(shí)間做任何數(shù)學(xué)上的工作。對于機(jī)器學(xué)習(xí),需要學(xué)習(xí)的真正的必要技能是數(shù)據(jù)分析,以便建立能夠進(jìn)行準(zhǔn)確預(yù)測的模型。初學(xué)者其實(shí)不需過多掌握微積分和線性代數(shù)。
只有參與學(xué)術(shù)上的機(jī)器學(xué)習(xí)研究或者少數(shù)先進(jìn)的數(shù)據(jù)科學(xué)家團(tuán)隊(duì)時(shí),數(shù)學(xué)的作用才顯得特別重要。高水平的業(yè)內(nèi)人士也經(jīng)常使用高等數(shù)學(xué)。一些人正在拓展機(jī)器學(xué)習(xí)研究人員的研究邊界。
像谷歌和Facebook這樣的公司中,人們只會(huì)在工作中經(jīng)常使用微積分、線性代數(shù)和更高級的數(shù)學(xué)工具。
最重要的是,在產(chǎn)業(yè)界中,數(shù)據(jù)科學(xué)家只是沒有將太多時(shí)間花在數(shù)學(xué)上,但花了大量時(shí)間來獲取數(shù)據(jù)、清理數(shù)據(jù)、探索數(shù)據(jù)。實(shí)際上,80%的人所做的是數(shù)據(jù)整理和數(shù)據(jù)的可視化。
9類無需數(shù)學(xué)技術(shù)的數(shù)據(jù)科學(xué)任務(wù)
1、使用基本的Excel進(jìn)行高級機(jī)器學(xué)習(xí):此方法是一種輕量級的技術(shù)實(shí)現(xiàn),包括非常簡單易懂的基本Excel實(shí)現(xiàn)。目前可用于Python、Perl,Julia和R。未來預(yù)計(jì)還將支持SQL實(shí)現(xiàn)。
2、使用HDT進(jìn)行自動(dòng)化的機(jī)器學(xué)習(xí):此方法融合了名為“決策樹”和“回歸”的兩種傳統(tǒng)技術(shù)。但是這種實(shí)現(xiàn)不涉及任何節(jié)點(diǎn)分割或任何傳統(tǒng)的回歸模型,回歸部分是與數(shù)學(xué)無關(guān)的Jack-knife回歸。早期版本使用邏輯回歸,但由于數(shù)據(jù)轉(zhuǎn)換過程比較簡單,使用的參數(shù)較少,導(dǎo)致邏輯回歸被Jack-knife回歸所取代。
3、無模型置信區(qū)間:需要對隨機(jī)變量和概率分布有基本的了解才能知道置信區(qū)間的概念。這類置信區(qū)間方法基于百分位數(shù),非常易于理解,無需數(shù)學(xué)知識(shí)且可靠性高,可用于預(yù)測分析。
4、假設(shè)檢驗(yàn):這是學(xué)生在統(tǒng)計(jì)課程中的難題之一。這里已被置信區(qū)間的簡單變體所取代,便于直觀理解。
5、使用Excel的Jack-knife回歸:這些回歸技術(shù)非常簡單高效,可以在Excel或SQL中輕松實(shí)現(xiàn)。
6、Jack-knife回歸:理論 – 無須統(tǒng)計(jì)理論的回歸,甚至不涉及線性代數(shù)。不過帶有置信區(qū)間。在該方法中,即使使用少量元參數(shù),與經(jīng)典回歸相比,也能實(shí)現(xiàn)最低限度的精度損失。該方法在存在異常值、高度相關(guān)的特征或其他違反假設(shè)的情況下性能良好,這些假設(shè)條件在使用傳統(tǒng)回歸時(shí)必須通過一個(gè)數(shù)據(jù)集滿足。
7、索引,編目和NLP:無需數(shù)學(xué)知識(shí)的監(jiān)督聚類方法。
8、快速組合特征選擇:這種方法通常需要理解隨機(jī)變量的概念。
9、方差,聚類和密度估計(jì):這些方法中也不大涉及數(shù)學(xué)。
要成為高效的數(shù)據(jù)科學(xué)家,還是要懂點(diǎn)數(shù)學(xué)的
其實(shí),這里的關(guān)鍵點(diǎn)是,對于初出茅廬的數(shù)據(jù)科學(xué)家和機(jī)器學(xué)習(xí)從業(yè)者來說,數(shù)據(jù)專業(yè)知識(shí)的重要性要優(yōu)于數(shù)學(xué)專業(yè)知識(shí),因此,如果你的目標(biāo)是獲得一份工作,進(jìn)入數(shù)據(jù)科學(xué)領(lǐng)域,那么最重要的任務(wù)是必須掌握數(shù)據(jù)分析,而不是掌握微積分。數(shù)據(jù)科學(xué)家要做的不是做證明題或研究數(shù)學(xué)問題,能夠分析數(shù)據(jù)才是最重要的。
初學(xué)者需要盡快掌握如何收集數(shù)據(jù)、探索和準(zhǔn)備數(shù)據(jù)。全面掌握數(shù)據(jù)可視化和數(shù)據(jù)處理(包括聚合)是關(guān)鍵環(huán)節(jié),這樣才可以同時(shí)使用它們來執(zhí)行探索性數(shù)據(jù)分析任務(wù)。
盡管這些無需數(shù)學(xué)知識(shí)的工具和方法,確實(shí)凸顯了在不具備堅(jiān)實(shí)數(shù)學(xué)基礎(chǔ)的情況下從事數(shù)據(jù)科學(xué)的可能性,但并一定能夠滿足行業(yè)的期望,因?yàn)槟芊瘾@得數(shù)據(jù)科學(xué)家的職位,完全取決于你從事的工作內(nèi)容,以及你心儀的公司究竟從事什么業(yè)務(wù)。
在不具備數(shù)學(xué)背景知識(shí)的情況下,確實(shí)有可能成為一名數(shù)據(jù)科學(xué)家。但按以往經(jīng)驗(yàn)來看,如果沒有一定程度的數(shù)學(xué)素養(yǎng),從長期而言,很難成為一個(gè)高效的數(shù)據(jù)科學(xué)家,而高效這一點(diǎn)無疑是更為重要的。
-
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8434瀏覽量
132879 -
數(shù)據(jù)科學(xué)
+關(guān)注
關(guān)注
0文章
165瀏覽量
10081
原文標(biāo)題:不懂?dāng)?shù)學(xué),照樣做數(shù)據(jù)科學(xué)家
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論