0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

一名數(shù)據(jù)分析工程師的實(shí)習(xí)經(jīng)歷

工程師人生 ? 來(lái)源:工程師吳畏 ? 2019-07-10 17:03 ? 次閱讀

從進(jìn)入大學(xué),我就常在思考,未來(lái)要做什么,自己的興趣是什么。我的大學(xué)階段,在保證本專業(yè)的成績(jī)優(yōu)秀的情況下,我盡一切努力探索更多未知的領(lǐng)域。參加過(guò)全國(guó)物流設(shè)計(jì)大賽,電子商務(wù)大賽,機(jī)械設(shè)計(jì)大賽,創(chuàng)新創(chuàng)業(yè)大賽,全國(guó)大學(xué)生數(shù)學(xué)建模大賽,還參與各種社團(tuán),學(xué)生活動(dòng),只是為了找尋真正喜歡的方向。后面,我發(fā)現(xiàn)能從心底里感興趣,真正喜歡的就是參與數(shù)學(xué)建模的整個(gè)過(guò)程,這也在最后奠定了以后的方向。

保研后,在完成學(xué)校所有的論文要求和實(shí)驗(yàn)室項(xiàng)目的同時(shí),我開(kāi)啟了數(shù)據(jù)分析的實(shí)習(xí)道路,現(xiàn)在已經(jīng)在互聯(lián)網(wǎng)實(shí)習(xí)快一年了,記錄一下所有的成長(zhǎng)歷程吧!

首先是面試,有兩輪的面試,因?yàn)槭羌夹g(shù)崗,第一個(gè)面試官問(wèn)了兩個(gè)算法題和一個(gè)數(shù)學(xué)題,第二個(gè)面試官問(wèn)了一個(gè)用sql處理數(shù)據(jù)的問(wèn)題和兩個(gè)數(shù)學(xué)題,而第二個(gè)面試官就是我們數(shù)據(jù)組的老大。

開(kāi)始的一周,需要搭建跳板機(jī),vpn和git的環(huán)境,接著就開(kāi)始工作了。

我們組的工作內(nèi)容:

我們組的工作是分析公司各業(yè)務(wù)的log日志,包括服務(wù)器和客戶端,還有每個(gè)業(yè)務(wù)服務(wù)的數(shù)據(jù)庫(kù)中的數(shù)據(jù)。最后搭建數(shù)據(jù)倉(cāng)庫(kù),完成一整套數(shù)據(jù)收集,處理,分析到展示的過(guò)程,其中還涉及監(jiān)控和報(bào)警,有離線數(shù)據(jù)還有實(shí)時(shí)數(shù)據(jù)的分析。我們提供一個(gè)數(shù)據(jù)報(bào)表展示平臺(tái),每一個(gè)報(bào)表由運(yùn)維,產(chǎn)品,運(yùn)營(yíng),服務(wù)器開(kāi)發(fā)等同事提出數(shù)據(jù)需求,最后由我們完成,同時(shí),我們還會(huì)處理各種臨時(shí)需求,數(shù)據(jù)分析等工作,并提供一個(gè)方便大家查詢數(shù)據(jù)的sql查詢接口。

技術(shù)流:

首先,各業(yè)務(wù)的產(chǎn)品經(jīng)理想要分析某個(gè)點(diǎn)擊行為或者功能,需要和對(duì)應(yīng)的開(kāi)發(fā),和我們組協(xié)商打點(diǎn)的數(shù)據(jù)格式,參數(shù),對(duì)應(yīng)的服務(wù)器名,日志路徑,或者jdbc,庫(kù)名與表名,對(duì)應(yīng)的字段名稱,具體業(yè)務(wù)邏輯和含義。業(yè)務(wù)產(chǎn)品需要給我們提出數(shù)據(jù)分析需求,不同的維度的篩選,統(tǒng)計(jì)指標(biāo)的定義。接著需要大數(shù)據(jù)工程師,如果是離線數(shù)據(jù),需要用sqoop將數(shù)據(jù)導(dǎo)入hdfs上,存入規(guī)定地標(biāo)準(zhǔn)路徑和文件中,建立partition以天為分區(qū)。然后數(shù)據(jù)分析工程師需要搭建整個(gè)數(shù)據(jù)倉(cāng)庫(kù),公司的數(shù)據(jù)倉(cāng)庫(kù)是用php搭建的框架,對(duì)應(yīng)格式基本一致的數(shù)據(jù)源,用hive建表,可以對(duì)應(yīng)csv,用jave寫(xiě)serde進(jìn)行解析等方式處理,如果是非格式化且記錄之間的格式變動(dòng)較大,需要用pig處理,pig中調(diào)用python,處理后再用hive建表,也有需要用r進(jìn)行處理的數(shù)據(jù),最后數(shù)據(jù)經(jīng)過(guò)ods,dw層以hive表記錄,到最后dm層時(shí)實(shí)現(xiàn)產(chǎn)品最后的統(tǒng)計(jì)分析需求,dm以mysql表記錄,數(shù)據(jù)倉(cāng)庫(kù)的建立需要伴隨著業(yè)務(wù)不斷修改邏輯,最后展示到web中,web中還需要進(jìn)行一些簡(jiǎn)單的sql進(jìn)行展示,用js插件可以調(diào)用不用的數(shù)據(jù)展示形式。實(shí)時(shí)數(shù)據(jù)是用kafak進(jìn)行收集,然后實(shí)時(shí)查詢,離線數(shù)據(jù)是晚上12:00開(kāi)始跑job,其中包括任務(wù)調(diào)度,依賴等的設(shè)置。如果有以月跑的數(shù)據(jù),還crontab進(jìn)行調(diào)度,有些數(shù)據(jù)還需要外部信息,比如ip地址的對(duì)應(yīng),手機(jī)型號(hào)等,要寫(xiě)對(duì)應(yīng)爬蟲(chóng)收集相關(guān)數(shù)據(jù)。公司有三個(gè)業(yè)務(wù),業(yè)務(wù)的數(shù)據(jù)還會(huì)內(nèi)嵌,交叉統(tǒng)計(jì),有時(shí)候某一個(gè)業(yè)務(wù)邏輯修改會(huì)影響很多數(shù)據(jù)的統(tǒng)計(jì)結(jié)果,因此數(shù)據(jù)分析工作是一個(gè)復(fù)雜的系統(tǒng)工程。

作為一個(gè)數(shù)據(jù)分析工程師,我的工作主要是分析離線數(shù)據(jù),在產(chǎn)品提出需求后,分析要統(tǒng)計(jì)的邏輯,提出倒數(shù)需求log或mysql,建立數(shù)據(jù)倉(cāng)庫(kù)hive,pig,python,php,從ods層到dm層寫(xiě)出數(shù)據(jù)統(tǒng)計(jì)的邏輯,最后把數(shù)據(jù)放如mysql,最后配置web頁(yè)面,有時(shí)候會(huì)寫(xiě)簡(jiǎn)單的爬蟲(chóng),跑臨時(shí)數(shù)據(jù),會(huì)用shell寫(xiě)個(gè)簡(jiǎn)單的腳本,用crontab進(jìn)行調(diào)度等。倉(cāng)庫(kù)的代碼用git管理。

結(jié)語(yǔ):

喜歡我們組的氛圍,大家都熱愛(ài)各種創(chuàng)新的技術(shù)和分析方法,熱愛(ài)分享。很感激老大帶領(lǐng)我進(jìn)入了公司,進(jìn)入了我們組,感謝大家對(duì)我的幫助,開(kāi)啟了我數(shù)據(jù)分析的道路。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 工程師
    +關(guān)注

    關(guān)注

    59

    文章

    1571

    瀏覽量

    68607
  • 數(shù)據(jù)分析
    +關(guān)注

    關(guān)注

    2

    文章

    1460

    瀏覽量

    34127
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    為什么嵌入式驅(qū)動(dòng)開(kāi)發(fā)工程師可以拿高薪?

    技術(shù)領(lǐng)域具有不可替代的地位。 成為一名優(yōu)秀的嵌入式驅(qū)動(dòng)工程師只需要深耕以下幾點(diǎn): 1)堅(jiān)實(shí)的技術(shù)基礎(chǔ): 首先,需要有堅(jiān)實(shí)的基礎(chǔ),包括計(jì)算機(jī)組成原理、微處理器與微控制器架構(gòu)以及電路設(shè)計(jì)與硬件接口知識(shí)
    發(fā)表于 01-07 16:56

    NVIDIA助力百度提升數(shù)據(jù)分析效能

    在現(xiàn)代商業(yè)環(huán)境中,數(shù)據(jù)分析已然成為企業(yè)獲取成功的關(guān)鍵所在。長(zhǎng)期以來(lái),百度廣告數(shù)據(jù)團(tuán)隊(duì)始終面臨著極為復(fù)雜的數(shù)據(jù)分析挑戰(zhàn),其需要為逾千用戶提供在線廣告業(yè)務(wù)
    的頭像 發(fā)表于 11-20 10:06 ?247次閱讀

    數(shù)據(jù)分析的工具有哪些

    數(shù)據(jù)分析個(gè)涉及收集、處理、分析和解釋數(shù)據(jù)以得出有意義見(jiàn)解的過(guò)程。在這個(gè)過(guò)程中,使用正確的工具至關(guān)重要。以下是些主要的
    的頭像 發(fā)表于 07-05 14:54 ?1007次閱讀

    數(shù)據(jù)分析有哪些分析方法

    數(shù)據(jù)分析種重要的技能,它可以幫助我們從大量的數(shù)據(jù)中提取有價(jià)值的信息,從而做出更明智的決策。在這篇文章中,我們將介紹數(shù)據(jù)分析的各種方法,包括描述性
    的頭像 發(fā)表于 07-05 14:51 ?733次閱讀

    嵌入式軟件工程師如何提升自己?

    嵌入式軟件工程師如何提升自己? 作為一名嵌入式軟件工程師,在這個(gè)充滿機(jī)遇和挑戰(zhàn)的領(lǐng)域里,如何提升自己顯得非常重要,它決定了你未來(lái)的發(fā)展方向和成就。接下來(lái),我們起探討
    發(fā)表于 06-12 11:20

    索尼誠(chéng)邀軟件工程師參與PS免費(fèi)手游平臺(tái)設(shè)計(jì)

    據(jù)悉,近日,澳大利亞知名媒體TweakTown發(fā)現(xiàn),索尼互動(dòng)娛樂(lè)正在為其旗下的PlayStation Studios Mobile招募一名資深的軟件工程師,負(fù)責(zé)設(shè)計(jì)PlayStation的免費(fèi)手機(jī)游戲平臺(tái)。
    的頭像 發(fā)表于 05-23 17:08 ?769次閱讀

    求助,關(guān)于AD采集到的數(shù)據(jù)分析問(wèn)題

    問(wèn)題描述:使用AD采集個(gè)10Hz到2MHz的脈沖,脈沖底部可能大于零,由采集到的數(shù)據(jù)分析出該脈沖的上升時(shí)間,幅值和占空比。 備注:在分析的時(shí)候已經(jīng)知道脈沖的頻率,精度為2X10^-5. 在
    發(fā)表于 05-09 07:40

    大廠電子工程師常見(jiàn)面試題#電子工程師 #硬件工程師 #電路知識(shí) #面試題

    電子工程師電路
    安泰小課堂
    發(fā)布于 :2024年04月30日 17:33:15

    位硬件工程師的歷練之路:從入門(mén)學(xué)習(xí)理論到... #搞笑 #硬件工程師 #電子工程師 #揚(yáng)興科技

    硬件工程師揚(yáng)興科技
    揚(yáng)興科技
    發(fā)布于 :2024年03月13日 17:50:21

    單片機(jī)如何通過(guò)代碼控制硬件:一名工程師的分享

    今天跟大家聊聊單片機(jī)是怎樣通過(guò)代碼來(lái)操控硬件的。作為一名單片機(jī)工程師,我們平時(shí)的工作就像是給單片機(jī)編寫(xiě)“指令集”,讓它按照我們的意圖去驅(qū)動(dòng)各種硬件設(shè)備。
    的頭像 發(fā)表于 03-06 14:46 ?1598次閱讀
    單片機(jī)如何通過(guò)代碼控制硬件:<b class='flag-5'>一名</b><b class='flag-5'>工程師</b>的分享

    如何搞崩個(gè)硬件工程師心態(tài)?試試對(duì)ta說(shuō)這幾句

    硬件工程師
    揚(yáng)興科技
    發(fā)布于 :2024年02月20日 18:05:49