埋點本身現(xiàn)在已經(jīng)有太多的集成解決方案,神策、諸葛IO、GIO,但是在實踐的過程中仍然還是會碰都很多問題,這些問題都是躺過的坑。
01
梳理當前業(yè)務(wù),未來業(yè)務(wù)發(fā)展問題,目的是給埋點預(yù)留空間
① 業(yè)務(wù)兼容的問題
前期規(guī)范執(zhí)行之后,后續(xù)隨著業(yè)務(wù)的拓展,已有數(shù)據(jù)字段滿足不了業(yè)務(wù)的分析需求;
② 產(chǎn)品兼容的問題
埋點從應(yīng)用端來區(qū)分,web/ios/android,小程序,公眾號,然后還要區(qū)分一下是否是原生,還是H5,新老版本之間肯定會帶來一些模塊化的差異;
③ 前后端埋點不一致的問題
前端請求服務(wù)端的數(shù)據(jù)大多是存在binlog里面的,數(shù)據(jù)日志同步解析的過程里面可能會存在丟包的可能性,數(shù)倉的穩(wěn)定性也會影響數(shù)據(jù)質(zhì)量;后端服務(wù)信息存儲的數(shù)據(jù)是存在mysql,表字段結(jié)構(gòu)化,分多表存儲,需要靠主鍵進行關(guān)聯(lián),有大量的ETL過程。兩者之間可能因為數(shù)據(jù)清洗、處理、實時技術(shù)等原因,造成數(shù)據(jù)差異化;
③ 自埋點和第三方應(yīng)用統(tǒng)計口徑的問題
自埋點一般都會定義一個唯一id作為區(qū)分用戶的標志,但是第三方是缺少用戶屬性信息的判斷,一般會以設(shè)備號uuid/imse,或者IP地址段、mac地址段作為區(qū)分標志,從而造成統(tǒng)計數(shù)據(jù)上的差異化,對于留存分析、轉(zhuǎn)化分析、流失分析需要用到明細數(shù)據(jù)的場景,可兼容性不是很友好;
④ 埋點開發(fā)技術(shù)執(zhí)行不到位的問題
絕大多數(shù)情況下我們說埋點,一般都是說前端埋點,前端開發(fā)工程師在做埋點的時候又多是人為埋點,在開發(fā)過程中,會造成部分信息冗余、重復(fù)、記錄不完整的情況存在;
⑤ 多產(chǎn)品之間的模塊差異化問題
埋點不能夠只有一套標準規(guī)范,多生態(tài)應(yīng)用下,業(yè)務(wù)繁瑣,在產(chǎn)品、技術(shù)的架構(gòu)上有明顯的差異,不同的產(chǎn)品、模塊、坑位、點擊事件的定義也可能有一定的區(qū)別,這時候可能需要根據(jù)場景劃分不同的埋點標準;
⑥ 自定義埋點信息的鍵對設(shè)計問題
往往會在埋點里面增加一個json的字段(bdata),在埋點的時候?qū)懭胱远x的業(yè)務(wù)信息進行場景識別,譬如活動id、業(yè)務(wù)信息、用戶快照的基本信息等,不同開發(fā)寫入的自定義字段格式可能會有差異;
02
埋點應(yīng)用場景,對應(yīng)初期埋點預(yù)留
基于業(yè)務(wù)分析框架,梳理常規(guī)分析案例中需要用到的埋點數(shù)據(jù)集,核心指標必須要有埋點;
基于算法模型框架,梳理算法所需要構(gòu)建的數(shù)據(jù)特征需要用到的字段信息;
基于業(yè)務(wù)訴求,梳理非常規(guī),當前沒需求未來有應(yīng)用場景的字段信息;
舉個例子,譬如供需匹配、資源調(diào)度、智能選址,所對應(yīng)的幾個信息主體分別是:用戶需求方、用戶供給方、商品信息、時間信息、空間信息、行為信息、業(yè)務(wù)信息;
03
標簽預(yù)留場景,反推埋點預(yù)留
基于用戶畫像的標簽建設(shè),需要考慮畫像的多層屬性,社會屬性、基本屬性、市場屬性、交易屬性、行為屬性等,通過畫像篩選人群的時候,可能需要通過數(shù)據(jù)模型建立用戶分層的過程,所需要用到的輔助數(shù)據(jù);
基于智能運營的標簽建設(shè),運營策略、活動、方案的數(shù)據(jù)需求收集,哪些標簽需要用到埋點中的信息;
基于營銷系統(tǒng)的標簽建設(shè),涉及到渠道分配、廣告投放、點擊預(yù)測等,可能需要對曝光、點擊、轉(zhuǎn)化進行全鏈路的埋點建設(shè),或者基于某一個產(chǎn)品使用鏈路,埋點數(shù)據(jù)要完備;
標簽管理,沒有一套產(chǎn)品來支撐,多標簽?zāi)阍趺磳ν馓峁?;海量的標簽,又要怎么做標簽管理?/p>
04
后面做推薦抓到核心指標,前期做埋點預(yù)設(shè)
推薦算法中需要用到的數(shù)據(jù)特征中包含哪些數(shù)據(jù)指標,其中埋點的部分所需要的數(shù)據(jù)格式是怎樣的;
推薦算法的設(shè)計方案,基于用戶、基于物品、協(xié)同過濾、基于規(guī)則、基于融合模型,不同的方案下,對數(shù)據(jù)底層的要求可能也會有一定的差異;
05
數(shù)倉庫表的開發(fā)成本
埋點數(shù)據(jù)落到數(shù)倉后,需要預(yù)先建立哪些表,如何做埋點數(shù)據(jù)的分層;
畢竟埋點的數(shù)據(jù)體量是非常大的,TB級數(shù)據(jù)的存儲本身就是一個比較大的成本,再加上調(diào)度系統(tǒng)、計算資源、運行性能等方面,就需要數(shù)倉團隊在一開始就要把數(shù)據(jù)模型提前建立好,做好ods層到dw層、ads層的劃分,維度和事實之間的建設(shè);
06
數(shù)倉性能,時間問題(hive)
因為埋點數(shù)據(jù)的體量問題,落表的時候,一定會存在大量的冗余字段,如果集群資源比較緊張,對于常規(guī)數(shù)據(jù)的統(tǒng)計、計算都會帶來性能上的問題;
在數(shù)據(jù)團隊的架構(gòu)中,有對外提供數(shù)據(jù)應(yīng)用服務(wù),對于數(shù)據(jù)的實時計算就有一定的要求,什么場景下應(yīng)該是T+1,什么場景下應(yīng)該是偽實時,避免數(shù)據(jù)調(diào)度任務(wù)影響前臺應(yīng)用產(chǎn)出;
07
產(chǎn)品全埋點還是分塊埋點?分塊兒埋點的話有什么響應(yīng)機制?應(yīng)用措施?
全埋點和分模塊埋點,直接的影響是數(shù)據(jù)存儲成本的問題,作為一個數(shù)據(jù)分析,這也是不得不考慮的問題,如果數(shù)據(jù)結(jié)構(gòu)優(yōu)化不做好,每年浪費的存儲成本可能會是百萬級的消耗。隨著周期的增加,成本浪費會更嚴重。
所以說,企業(yè)數(shù)據(jù)的分析,不僅局限在數(shù)據(jù)本身,而應(yīng)該是全面的剖析,多場景的結(jié)合。凡事都不簡單,如果簡單為什么那么多人都沒有做成功,只不過是層次還到而已。
- EOF -
推薦閱讀 點擊標題可跳轉(zhuǎn)
1、萬字長文說透分布式鎖
2、pandas 與 GUI 界面的超強結(jié)合,爆贊!
3、面試,MySQL 搞透這 20 道就穩(wěn)了
看完本文有收獲?請轉(zhuǎn)發(fā)分享給更多人
推薦關(guān)注「數(shù)據(jù)分析與開發(fā)」,提升數(shù)據(jù)技能
點贊和在看就是最大的支持
原文標題:干貨分享:埋點實踐過程中碰到的坑點集合
文章出處:【微信公眾號:數(shù)據(jù)分析與開發(fā)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
埋點本身現(xiàn)在已經(jīng)有太多的集成解決方案,神策、諸葛IO、GIO,但是在實踐的過程中仍然還是會碰都很多問題,這些問題都是躺過的坑。
01
梳理當前業(yè)務(wù),未來業(yè)務(wù)發(fā)展問題,目的是給埋點預(yù)留空間
① 業(yè)務(wù)兼容的問題
前期規(guī)范執(zhí)行之后,后續(xù)隨著業(yè)務(wù)的拓展,已有數(shù)據(jù)字段滿足不了業(yè)務(wù)的分析需求;
② 產(chǎn)品兼容的問題
埋點從應(yīng)用端來區(qū)分,web/ios/android,小程序,公眾號,然后還要區(qū)分一下是否是原生,還是H5,新老版本之間肯定會帶來一些模塊化的差異;
③ 前后端埋點不一致的問題
前端請求服務(wù)端的數(shù)據(jù)大多是存在binlog里面的,數(shù)據(jù)日志同步解析的過程里面可能會存在丟包的可能性,數(shù)倉的穩(wěn)定性也會影響數(shù)據(jù)質(zhì)量;后端服務(wù)信息存儲的數(shù)據(jù)是存在mysql,表字段結(jié)構(gòu)化,分多表存儲,需要靠主鍵進行關(guān)聯(lián),有大量的ETL過程。兩者之間可能因為數(shù)據(jù)清洗、處理、實時技術(shù)等原因,造成數(shù)據(jù)差異化;
③ 自埋點和第三方應(yīng)用統(tǒng)計口徑的問題
自埋點一般都會定義一個唯一id作為區(qū)分用戶的標志,但是第三方是缺少用戶屬性信息的判斷,一般會以設(shè)備號uuid/imse,或者IP地址段、mac地址段作為區(qū)分標志,從而造成統(tǒng)計數(shù)據(jù)上的差異化,對于留存分析、轉(zhuǎn)化分析、流失分析需要用到明細數(shù)據(jù)的場景,可兼容性不是很友好;
④ 埋點開發(fā)技術(shù)執(zhí)行不到位的問題
絕大多數(shù)情況下我們說埋點,一般都是說前端埋點,前端開發(fā)工程師在做埋點的時候又多是人為埋點,在開發(fā)過程中,會造成部分信息冗余、重復(fù)、記錄不完整的情況存在;
⑤ 多產(chǎn)品之間的模塊差異化問題
埋點不能夠只有一套標準規(guī)范,多生態(tài)應(yīng)用下,業(yè)務(wù)繁瑣,在產(chǎn)品、技術(shù)的架構(gòu)上有明顯的差異,不同的產(chǎn)品、模塊、坑位、點擊事件的定義也可能有一定的區(qū)別,這時候可能需要根據(jù)場景劃分不同的埋點標準;
⑥ 自定義埋點信息的鍵對設(shè)計問題
往往會在埋點里面增加一個json的字段(bdata),在埋點的時候?qū)懭胱远x的業(yè)務(wù)信息進行場景識別,譬如活動id、業(yè)務(wù)信息、用戶快照的基本信息等,不同開發(fā)寫入的自定義字段格式可能會有差異;
02
埋點應(yīng)用場景,對應(yīng)初期埋點預(yù)留
基于業(yè)務(wù)分析框架,梳理常規(guī)分析案例中需要用到的埋點數(shù)據(jù)集,核心指標必須要有埋點;
基于算法模型框架,梳理算法所需要構(gòu)建的數(shù)據(jù)特征需要用到的字段信息;
基于業(yè)務(wù)訴求,梳理非常規(guī),當前沒需求未來有應(yīng)用場景的字段信息;
舉個例子,譬如供需匹配、資源調(diào)度、智能選址,所對應(yīng)的幾個信息主體分別是:用戶需求方、用戶供給方、商品信息、時間信息、空間信息、行為信息、業(yè)務(wù)信息;
03
標簽預(yù)留場景,反推埋點預(yù)留
基于用戶畫像的標簽建設(shè),需要考慮畫像的多層屬性,社會屬性、基本屬性、市場屬性、交易屬性、行為屬性等,通過畫像篩選人群的時候,可能需要通過數(shù)據(jù)模型建立用戶分層的過程,所需要用到的輔助數(shù)據(jù);
基于智能運營的標簽建設(shè),運營策略、活動、方案的數(shù)據(jù)需求收集,哪些標簽需要用到埋點中的信息;
基于營銷系統(tǒng)的標簽建設(shè),涉及到渠道分配、廣告投放、點擊預(yù)測等,可能需要對曝光、點擊、轉(zhuǎn)化進行全鏈路的埋點建設(shè),或者基于某一個產(chǎn)品使用鏈路,埋點數(shù)據(jù)要完備;
標簽管理,沒有一套產(chǎn)品來支撐,多標簽?zāi)阍趺磳ν馓峁缓A康臉撕?,又要怎么做標簽管理?/p>
04
后面做推薦抓到核心指標,前期做埋點預(yù)設(shè)
推薦算法中需要用到的數(shù)據(jù)特征中包含哪些數(shù)據(jù)指標,其中埋點的部分所需要的數(shù)據(jù)格式是怎樣的;
推薦算法的設(shè)計方案,基于用戶、基于物品、協(xié)同過濾、基于規(guī)則、基于融合模型,不同的方案下,對數(shù)據(jù)底層的要求可能也會有一定的差異;
05
數(shù)倉庫表的開發(fā)成本
埋點數(shù)據(jù)落到數(shù)倉后,需要預(yù)先建立哪些表,如何做埋點數(shù)據(jù)的分層;
畢竟埋點的數(shù)據(jù)體量是非常大的,TB級數(shù)據(jù)的存儲本身就是一個比較大的成本,再加上調(diào)度系統(tǒng)、計算資源、運行性能等方面,就需要數(shù)倉團隊在一開始就要把數(shù)據(jù)模型提前建立好,做好ods層到dw層、ads層的劃分,維度和事實之間的建設(shè);
06
數(shù)倉性能,時間問題(hive)
因為埋點數(shù)據(jù)的體量問題,落表的時候,一定會存在大量的冗余字段,如果集群資源比較緊張,對于常規(guī)數(shù)據(jù)的統(tǒng)計、計算都會帶來性能上的問題;
在數(shù)據(jù)團隊的架構(gòu)中,有對外提供數(shù)據(jù)應(yīng)用服務(wù),對于數(shù)據(jù)的實時計算就有一定的要求,什么場景下應(yīng)該是T+1,什么場景下應(yīng)該是偽實時,避免數(shù)據(jù)調(diào)度任務(wù)影響前臺應(yīng)用產(chǎn)出;
07
產(chǎn)品全埋點還是分塊埋點?分塊兒埋點的話有什么響應(yīng)機制?應(yīng)用措施?
全埋點和分模塊埋點,直接的影響是數(shù)據(jù)存儲成本的問題,作為一個數(shù)據(jù)分析,這也是不得不考慮的問題,如果數(shù)據(jù)結(jié)構(gòu)優(yōu)化不做好,每年浪費的存儲成本可能會是百萬級的消耗。隨著周期的增加,成本浪費會更嚴重。
所以說,企業(yè)數(shù)據(jù)的分析,不僅局限在數(shù)據(jù)本身,而應(yīng)該是全面的剖析,多場景的結(jié)合。凡事都不簡單,如果簡單為什么那么多人都沒有做成功,只不過是層次還到而已。
責任編輯:haq
-
數(shù)據(jù)
+關(guān)注
關(guān)注
8文章
7048瀏覽量
89076
原文標題:干貨分享:埋點實踐過程中碰到的坑點集合
文章出處:【微信號:DBDevs,微信公眾號:數(shù)據(jù)分析與開發(fā)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論