0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

數(shù)據(jù)科學家與數(shù)據(jù)工程師的區(qū)別

工程師人生 ? 來源:工程師吳畏 ? 2019-07-10 17:06 ? 次閱讀

數(shù)據(jù)科學家和數(shù)據(jù)工程師的主要區(qū)別,可以用ETL和DAD的區(qū)別來解釋。

ETL(提取/變換/載入)是數(shù)據(jù)工程師,還有數(shù)據(jù)架構師或數(shù)據(jù)庫管理員(DBA)的職責。

DAD(發(fā)現(xiàn)/獲取/提煉)是數(shù)據(jù)科學家的職責。

數(shù)據(jù)工程師往往把重點放在軟件工程、數(shù)據(jù)庫設計、生產環(huán)境代碼上,并確保數(shù)據(jù)在來源(在那里它被收集)和目的地之間平穩(wěn)地流動(在目的地那里通過統(tǒng)計摘要提取和處理,或通過數(shù)據(jù)科學算法產生結果,并最終轉移到源或其他地方)。數(shù)據(jù)科學家卻需要了解數(shù)據(jù)的流動和如何優(yōu)化(尤其是使用Hadoop時)。實際上不是優(yōu)化數(shù)據(jù)流本身,而是數(shù)據(jù)處理的步驟,從數(shù)據(jù)中提取出價值。數(shù)據(jù)科學家與工程師和商業(yè)人員一起工作,定義指標、設計數(shù)據(jù)收集方案,并確保數(shù)據(jù)科學流程與企業(yè)數(shù)據(jù)系統(tǒng)(存儲、數(shù)據(jù)流)有效地集成。對于在小公司工作的數(shù)據(jù)科學家,尤其如此,這也是數(shù)據(jù)科學家應該能編寫可被工程師重復使用的代碼的原因。

有時數(shù)據(jù)工程師也操作DAD,有時數(shù)據(jù)科學家也操作ETL,但這并不常見,且他們通常是在公司內部才這么做。例如,數(shù)據(jù)工程師可以做一些統(tǒng)計分析,以優(yōu)化一些數(shù)據(jù)庫流程,而數(shù)據(jù)科學家可以做一些數(shù)據(jù)庫管理,以管理一個保存匯總信息的、小型的、本地的私有數(shù)據(jù)庫。

DAD包含以下內容。

發(fā)現(xiàn):識別良好的數(shù)據(jù)源和指標。有時(與數(shù)據(jù)工程師和業(yè)務分析師一起工作),對應該創(chuàng)建的數(shù)據(jù)提出需求。

獲取:獲取數(shù)據(jù),有時通過API、網絡爬蟲、互聯(lián)網下載或數(shù)據(jù)庫,有時是從內存數(shù)據(jù)庫獲取數(shù)據(jù)。

提煉:從數(shù)據(jù)中提取信息,做出決策,增加投資回報率,并采取行動(比如,在自動投標系統(tǒng)中,確定最佳的投標價格)。它包括以下內容。

— 通過創(chuàng)建數(shù)據(jù)字典和進行探索性分析,對數(shù)據(jù)進行探索。

— 清洗數(shù)據(jù)雜質。

— 通過數(shù)據(jù)匯總進一步提煉數(shù)據(jù),有時是通過多層匯總或分層匯總來實現(xiàn)的。

— 對數(shù)據(jù)進行統(tǒng)計分析(有時會采取像實驗設計這樣的做法,所以在前面的“獲取”階段也可以進行),自動和手動都可以??赡苄枰O計統(tǒng)計模型,也可能不需要。

— 在某些自動過程中呈現(xiàn)結果或集成結果。

數(shù)據(jù)科學是計算機科學、商業(yè)工程、統(tǒng)計學、數(shù)據(jù)挖掘、機器學習、運籌學、六西格瑪、自動化和行業(yè)知識的交叉點。這些不同的領域,加上業(yè)務的愿景和行動,匯集了一系列的技術、流程和方法。數(shù)據(jù)科學是連接不同組件的過程,有助于業(yè)務優(yōu)化,并消除那些降低業(yè)務效率的孤島。它也有自己獨特的核心,(例如)包括以下主題。

高級可視化。

分析即服務(AaaS)和API服務。

大規(guī)模數(shù)據(jù)集的聚類與分類。

計算大數(shù)據(jù)的相關性和R平方。

任何數(shù)據(jù)庫、SQL或NoSQL都應該有的11個特征。

快速特征選擇。

Hadoop/Map-Reduce。

網絡拓撲。

大數(shù)據(jù)中關鍵詞的相關性。

在常規(guī)空間、超平面、球面上或單純形上的線性回歸。

無模型置信區(qū)間。

特征的預測能力。

無模型的統(tǒng)計建模。

大數(shù)據(jù)“詛咒”。

MapReduce不能做的事。

請記住,一些雇主尋找的是具備豐富統(tǒng)計知識的。然而,有時招聘經理不知道他真正想要的是什么,如果你告訴他你的專業(yè)知識所帶來的附加價值,你可能會說服他雇用你,哪怕欠缺他們預期的某些技能。對于雇主,招聘Java軟件工程師,再要他們學習統(tǒng)計學,比反過來更容易。

數(shù)據(jù)科學家與統(tǒng)計學家

許多統(tǒng)計學家認為,數(shù)據(jù)科學是關于分析數(shù)據(jù)的,但它遠不止分析數(shù)據(jù)。數(shù)據(jù)科學還涉及實現(xiàn)算法、自動處理數(shù)據(jù),并提供自動化的預測和行動,比如:

分析美國宇航局的照片,以尋找新的行星或小行星。

自動報價系統(tǒng)。

自動駕駛(飛機和汽車)。

在Amazon.com或Facebook上推薦書和朋友。

針對所有酒店客房的客戶定制(實時)定價系統(tǒng)。

在計算化學中模擬用于癌癥治療的新分子。

流行病的早期檢測。

(實時)估計美國所有房屋的價值(Zillow.com)。

高頻交易。

為用戶和網頁匹配谷歌廣告,以最大限度地提高轉化率。

為所有谷歌搜索返回高度相關的結果。

信用卡交易評分(欺詐檢測)。

稅收欺詐檢測與恐怖行為檢測。

天氣預報。

所有這些都涉及統(tǒng)計科學和TB級的數(shù)據(jù)。大多數(shù)做這些類型的項目的人,并不稱自己為統(tǒng)計學家。他們稱自己為數(shù)據(jù)科學家。

幾個世紀以來,統(tǒng)計學家一直在收集數(shù)據(jù)并進行線性回歸分析。300年前、20年前、現(xiàn)在或在2015年由統(tǒng)計學家進行的DAD,跟如今數(shù)據(jù)科學家進行的DAD大相徑庭。關鍵是,最終隨著越來越多的統(tǒng)計學家學會這些新技術,而更多的數(shù)據(jù)科學家學會統(tǒng)計科學知識(采樣、實驗設計、置信區(qū)間——不只是第5章中描述的那些),數(shù)據(jù)科學家和統(tǒng)計學家之間的邊界將變得更加模糊。事實上,我可以看到另一種數(shù)據(jù)科學家正在興起:具備深厚統(tǒng)計知識的數(shù)據(jù)科學家。

數(shù)據(jù)科學家和計算機科學家的區(qū)別是,數(shù)據(jù)科學家有更強大的統(tǒng)計學背景,特別是在計算統(tǒng)計方面,但有時則是在實驗設計、采樣和蒙特卡洛模擬方面。

數(shù)據(jù)科學家與業(yè)務分析師

業(yè)務分析師專注于數(shù)據(jù)庫設計(高層次的數(shù)據(jù)庫建模,包括指標定義、儀表盤設計、檢索和生成管理報告,并設計報警系統(tǒng))、評估各種業(yè)務項目和支出的投資回報率及預算問題。一些業(yè)務分析師從事營銷或財務的規(guī)劃、優(yōu)化和風險管理工作。許多業(yè)務分析師從事高層次的項目管理工作,直接向公司主管匯報。

有些任務也由數(shù)據(jù)科學家完成,特別是在較小的公司:指標的創(chuàng)建和定義、高層次的數(shù)據(jù)庫設計(收集什么樣的數(shù)據(jù)以及如何收集),或計算營銷,甚至增長黑客(最近創(chuàng)造的一個詞,來形容一種角色,它能夠快速增加公司互聯(lián)網訪問流量,擴大公司或產品的影響力,這種工作涉及較強的工程和分析技能)。

數(shù)據(jù)科學家讓業(yè)務分析師有提升空間,例如,幫助將報表制作過程自動化,使數(shù)據(jù)提取速度更快。數(shù)據(jù)科學家還可以教給業(yè)務分析師FTP和基礎的UNIX指令知識:ls -l、rm -i、head、tail、cat、cp、mv、sort、grep、uniq -c及管道和重定向操作符(|, 》)。然后,可以在數(shù)據(jù)庫服務器上編程或安裝一段代碼(業(yè)務分析師通常是通過瀏覽器或工具,如Toad或Brio訪問服務器),以檢索數(shù)據(jù)。所有的業(yè)務分析師都必須做的是:

1.創(chuàng)建SQL查詢(甚至要有可視化工具),并保存為SQL文本文件。

2.將它上傳到服務器并運行程序(例如,一個Python腳本,讀取SQL文件并執(zhí)行它,檢索數(shù)據(jù),并將結果存儲在CSV文件中)。

3.輸出結果(CSV文件)到業(yè)務分析師的電腦中,做進一步分析。

對于業(yè)務分析師和數(shù)據(jù)科學家,這樣的合作是雙贏的。在實踐中,這樣的合作已經幫助業(yè)務分析師提取的數(shù)據(jù)比他們過去所使用的數(shù)據(jù)要大100倍,而且提取速度快10倍。

總之,數(shù)據(jù)科學家并不是業(yè)務分析師,但前者可以極大地幫助后者,包括幫助業(yè)務分析師將任務自動化。此外,如果數(shù)據(jù)科學家能帶來額外的價值,具備額外的經驗,他更容易找到工作,特別是在只有一個職位預算的公司,當雇主不能確定是雇用業(yè)務分析師(開展整體分析和數(shù)據(jù)任務)還是數(shù)據(jù)科學家(有商業(yè)頭腦,可以執(zhí)行一些通常分配給業(yè)務分析師的任務)時。在一般情況下,業(yè)務分析師是優(yōu)先聘請的,但如果數(shù)據(jù)和算法變得過于復雜,也會雇用數(shù)據(jù)科學家。如果你創(chuàng)建自己的創(chuàng)業(yè)公司,你需要扮演兩個角色:數(shù)據(jù)科學家和業(yè)務分析師。

13個真實世界情景中的數(shù)據(jù)科學應用

現(xiàn)在讓我們看看13個在真實世界情景下的例子,了解現(xiàn)代數(shù)據(jù)科學家可以幫助我們做些什么。這些例子將有助于你學習如何專注于一個問題和如何形式化一個問題,以及如何仔細評估所有潛在問題——總之,是學習數(shù)據(jù)科學家在提出解決方案之前,如何定位問題和進行戰(zhàn)略性思考。你也會看到為什么一些廣泛使用的技術,如標準回歸,可能并不適合所有情況。

數(shù)據(jù)科學家的思維方式不同于工程師、運籌學專業(yè)人士、計算機科學家。雖然運籌學涉及很多分析,但這一領域的焦點是具體業(yè)務優(yōu)化層面,如庫存管理和質量控制。運籌學涉及國防、經濟、工程、軍事等領域。它采用馬爾可夫模型、蒙特卡洛模擬、排隊論、隨機過程,以及(由于歷史原因)Matlab和Informatica工具。

數(shù)據(jù)科學會遇到兩種基本類型的問題。

1.內部數(shù)據(jù)科學問題,如損壞的數(shù)據(jù)、粗心的分析或使用不恰當?shù)募夹g。內部問題不是針對業(yè)務而言,而是針對數(shù)據(jù)科學社區(qū)。因此,解決辦法包括訓練數(shù)據(jù)科學家更好地工作,要他們遵循最佳做法。

2.業(yè)務應用問題是現(xiàn)實世界中的問題,因此要尋求解決方案,如欺詐檢測,或識別一個因素是原因還是結果。這些可能涉及內部或外部(第三方)數(shù)據(jù)。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
收藏 0人收藏

    評論

    相關推薦

    硬件工程師:回答我!#回答我 #硬件工程師 #YXC晶振 #揚興科技

    硬件工程師
    揚興科技
    發(fā)布于 :2025年03月25日 18:46:59

    一招拿捏電子工程師#被AI拿捏了 #電子工程師 #電子電工

    電子工程師
    安泰小課堂
    發(fā)布于 :2025年03月25日 17:30:51

    硬件工程師的終極幻想:焊板子焊上人生巔峰!#半導體器件 #硬件工程師 #MDD辰達半導體

    硬件工程師
    MDD辰達半導體
    發(fā)布于 :2025年02月24日 19:00:35

    如何成為嵌入式開發(fā)工程師

    如何成為嵌入式開發(fā)工程師? 成為嵌入式開發(fā)工程師通常需要掌握一系列技能和知識,并且在實踐中不斷積累經驗。以下是一些基本步驟和建議: 1. 基礎教育:- 獲取電子工程、計算機科學或相關領
    發(fā)表于 02-19 10:39

    西湖大學:科學家+AI,科研新范式的樣本

    研究,創(chuàng)新科研新范式。這一點在西湖大學的科研項目中已得到體現(xiàn)。 成立于2018年的西湖大學是由施一公院士領銜創(chuàng)辦的、聚焦前沿科學研究的研究型大學,該校鼓勵科學家們探索AI與各學科交叉融合,為科研創(chuàng)新提速。為此,西湖大學在浪潮信息等企業(yè)助力下打造
    的頭像 發(fā)表于 12-12 15:59 ?378次閱讀
    西湖大學:<b class='flag-5'>科學家</b>+AI,科研新范式的樣本

    AI for Science:人工智能驅動科學創(chuàng)新》第4章-AI與生命科學讀后感

    了傳統(tǒng)學科界限,使得科學家們能夠從更加全面和深入的角度理解生命的奧秘。同時,AI技術的引入也催生了一種全新的科學研究范式,即數(shù)據(jù)驅動的研究范式,這種范式強調從大量數(shù)據(jù)中提取有價值的信息
    發(fā)表于 10-14 09:21

    FPGA算法工程師、邏輯工程師、原型驗證工程師有什么區(qū)別?

    ,共同進步。 歡迎加入FPGA技術微信交流群14群! 交流問題(一) Q:FPGA中的FPGA算法工程師、FPGA邏輯工程師、FPGA原型驗證工程師三者有什么區(qū)別? A:FPGA 算法
    發(fā)表于 09-23 18:26

    正是拼的年紀|65歲電子工程師上班VLOG #65歲退休 #電子工程師 #搞笑 #上班vlog

    電子工程師
    安泰小課堂
    發(fā)布于 :2024年07月25日 11:31:02

    新華社:突破性成果!祝賀我國科學家成功研發(fā)這一傳感器!

    6月25日,新華社以《突破性成果!祝賀我國科學家》為標題,報道了由我國科學家研發(fā)的傳感器成果。 我國科學家研發(fā)高通道神經探針實現(xiàn)獼猴全腦尺度神經活動監(jiān)測 神經探針是一種用來記錄神經活動的針狀電傳
    的頭像 發(fā)表于 06-27 18:03 ?629次閱讀
    新華社:突破性成果!祝賀我國<b class='flag-5'>科學家</b>成功研發(fā)這一傳感器!

    前OpenAI首席科學家創(chuàng)辦新的AI公司

    消息在業(yè)界引起了廣泛關注,因為蘇茨克維曾是OpenAI的聯(lián)合創(chuàng)始人及首席科學家,并在去年在OpenAI董事會上扮演了重要角色。
    的頭像 發(fā)表于 06-21 10:42 ?642次閱讀

    嵌入式軟件工程師和硬件工程師區(qū)別?

    嵌入式軟件工程師和硬件工程師區(qū)別? 嵌入式軟件工程師 嵌入式軟件工程師是軟件開發(fā)領域中的一種專業(yè)工程師
    發(fā)表于 05-16 11:00

    大廠電子工程師常見面試題#電子工程師 #硬件工程師 #電路知識 #面試題

    電子工程師電路
    安泰小課堂
    發(fā)布于 :2024年04月30日 17:33:15

    電子發(fā)燒友

    中國電子工程師最喜歡的網站

    • 2931785位工程師會員交流學習
    • 獲取您個性化的科技前沿技術信息
    • 參加活動獲取豐厚的禮品