0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

埋點實踐過程中遇到的一些問題

數(shù)據(jù)分析與開發(fā) ? 來源:一個數(shù)據(jù)人的自留地 ? 作者:數(shù)據(jù)人創(chuàng)作者聯(lián)盟 ? 2021-10-22 16:33 ? 次閱讀

埋點本身現(xiàn)在已經(jīng)有太多的集成解決方案,神策、諸葛IO、GIO,但是在實踐的過程中仍然還是會碰都很多問題,這些問題都是躺過的坑。

01

梳理當前業(yè)務(wù),未來業(yè)務(wù)發(fā)展問題,目的是給埋點預(yù)留空間

① 業(yè)務(wù)兼容的問題

前期規(guī)范執(zhí)行之后,后續(xù)隨著業(yè)務(wù)的拓展,已有數(shù)據(jù)字段滿足不了業(yè)務(wù)的分析需求;

產(chǎn)品兼容的問題

埋點從應(yīng)用端來區(qū)分,web/ios/android,小程序,公眾號,然后還要區(qū)分一下是否是原生,還是H5,新老版本之間肯定會帶來一些模塊化的差異;

③ 前后端埋點不一致的問題

前端請求服務(wù)端的數(shù)據(jù)大多是存在binlog里面的,數(shù)據(jù)日志同步解析的過程里面可能會存在丟包的可能性,數(shù)倉的穩(wěn)定性也會影響數(shù)據(jù)質(zhì)量;后端服務(wù)信息存儲的數(shù)據(jù)是存在mysql,表字段結(jié)構(gòu)化,分多表存儲,需要靠主鍵進行關(guān)聯(lián),有大量的ETL過程。兩者之間可能因為數(shù)據(jù)清洗、處理、實時技術(shù)等原因,造成數(shù)據(jù)差異化;

③ 自埋點和第三方應(yīng)用統(tǒng)計口徑的問題

自埋點一般都會定義一個唯一id作為區(qū)分用戶的標志,但是第三方是缺少用戶屬性信息的判斷,一般會以設(shè)備號uuid/imse,或者IP地址段、mac地址段作為區(qū)分標志,從而造成統(tǒng)計數(shù)據(jù)上的差異化,對于留存分析、轉(zhuǎn)化分析、流失分析需要用到明細數(shù)據(jù)的場景,可兼容性不是很友好;

④ 埋點開發(fā)技術(shù)執(zhí)行不到位的問題

絕大多數(shù)情況下我們說埋點,一般都是說前端埋點,前端開發(fā)工程師在做埋點的時候又多是人為埋點,在開發(fā)過程中,會造成部分信息冗余、重復(fù)、記錄不完整的情況存在;

⑤ 多產(chǎn)品之間的模塊差異化問題

埋點不能夠只有一套標準規(guī)范,多生態(tài)應(yīng)用下,業(yè)務(wù)繁瑣,在產(chǎn)品、技術(shù)的架構(gòu)上有明顯的差異,不同的產(chǎn)品、模塊、坑位、點擊事件的定義也可能有一定的區(qū)別,這時候可能需要根據(jù)場景劃分不同的埋點標準;

⑥ 自定義埋點信息的鍵對設(shè)計問題

往往會在埋點里面增加一個json的字段(bdata),在埋點的時候?qū)懭胱远x的業(yè)務(wù)信息進行場景識別,譬如活動id、業(yè)務(wù)信息、用戶快照的基本信息等,不同開發(fā)寫入的自定義字段格式可能會有差異;

02

埋點應(yīng)用場景,對應(yīng)初期埋點預(yù)留

基于業(yè)務(wù)分析框架,梳理常規(guī)分析案例中需要用到的埋點數(shù)據(jù)集,核心指標必須要有埋點;

基于算法模型框架,梳理算法所需要構(gòu)建的數(shù)據(jù)特征需要用到的字段信息;

基于業(yè)務(wù)訴求,梳理非常規(guī),當前沒需求未來有應(yīng)用場景的字段信息;

舉個例子,譬如供需匹配、資源調(diào)度、智能選址,所對應(yīng)的幾個信息主體分別是:用戶需求方、用戶供給方、商品信息、時間信息、空間信息、行為信息、業(yè)務(wù)信息;

03

標簽預(yù)留場景,反推埋點預(yù)留

基于用戶畫像的標簽建設(shè),需要考慮畫像的多層屬性,社會屬性、基本屬性、市場屬性、交易屬性、行為屬性等,通過畫像篩選人群的時候,可能需要通過數(shù)據(jù)模型建立用戶分層的過程,所需要用到的輔助數(shù)據(jù);

基于智能運營的標簽建設(shè),運營策略、活動、方案的數(shù)據(jù)需求收集,哪些標簽需要用到埋點中的信息;

基于營銷系統(tǒng)的標簽建設(shè),涉及到渠道分配、廣告投放、點擊預(yù)測等,可能需要對曝光、點擊、轉(zhuǎn)化進行全鏈路的埋點建設(shè),或者基于某一個產(chǎn)品使用鏈路,埋點數(shù)據(jù)要完備;

標簽管理,沒有一套產(chǎn)品來支撐,多標簽?zāi)阍趺磳ν馓峁?;海量的標簽,又要怎么做標簽管理?/p>

04

后面做推薦抓到核心指標,前期做埋點預(yù)設(shè)

推薦算法中需要用到的數(shù)據(jù)特征中包含哪些數(shù)據(jù)指標,其中埋點的部分所需要的數(shù)據(jù)格式是怎樣的;

推薦算法的設(shè)計方案,基于用戶、基于物品、協(xié)同過濾、基于規(guī)則、基于融合模型,不同的方案下,對數(shù)據(jù)底層的要求可能也會有一定的差異;

05

數(shù)倉庫表的開發(fā)成本

埋點數(shù)據(jù)落到數(shù)倉后,需要預(yù)先建立哪些表,如何做埋點數(shù)據(jù)的分層;

畢竟埋點的數(shù)據(jù)體量是非常大的,TB級數(shù)據(jù)的存儲本身就是一個比較大的成本,再加上調(diào)度系統(tǒng)、計算資源、運行性能等方面,就需要數(shù)倉團隊在一開始就要把數(shù)據(jù)模型提前建立好,做好ods層到dw層、ads層的劃分,維度和事實之間的建設(shè);

06

數(shù)倉性能,時間問題(hive)

因為埋點數(shù)據(jù)的體量問題,落表的時候,一定會存在大量的冗余字段,如果集群資源比較緊張,對于常規(guī)數(shù)據(jù)的統(tǒng)計、計算都會帶來性能上的問題;

在數(shù)據(jù)團隊的架構(gòu)中,有對外提供數(shù)據(jù)應(yīng)用服務(wù),對于數(shù)據(jù)的實時計算就有一定的要求,什么場景下應(yīng)該是T+1,什么場景下應(yīng)該是偽實時,避免數(shù)據(jù)調(diào)度任務(wù)影響前臺應(yīng)用產(chǎn)出;

07

產(chǎn)品全埋點還是分塊埋點?分塊兒埋點的話有什么響應(yīng)機制?應(yīng)用措施?

全埋點和分模塊埋點,直接的影響是數(shù)據(jù)存儲成本的問題,作為一個數(shù)據(jù)分析,這也是不得不考慮的問題,如果數(shù)據(jù)結(jié)構(gòu)優(yōu)化不做好,每年浪費的存儲成本可能會是百萬級的消耗。隨著周期的增加,成本浪費會更嚴重。

所以說,企業(yè)數(shù)據(jù)的分析,不僅局限在數(shù)據(jù)本身,而應(yīng)該是全面的剖析,多場景的結(jié)合。凡事都不簡單,如果簡單為什么那么多人都沒有做成功,只不過是層次還到而已。

- EOF -

推薦閱讀 點擊標題可跳轉(zhuǎn)

1、萬字長文說透分布式鎖

2、pandas 與 GUI 界面的超強結(jié)合,爆贊!

3、面試,MySQL 搞透這 20 道就穩(wěn)了

看完本文有收獲?請轉(zhuǎn)發(fā)分享給更多人

推薦關(guān)注「數(shù)據(jù)分析與開發(fā)」,提升數(shù)據(jù)技能

點贊和在看就是最大的支持

原文標題:干貨分享:埋點實踐過程中碰到的坑點集合

文章出處:【微信公眾號:數(shù)據(jù)分析與開發(fā)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

埋點本身現(xiàn)在已經(jīng)有太多的集成解決方案,神策、諸葛IO、GIO,但是在實踐的過程中仍然還是會碰都很多問題,這些問題都是躺過的坑。

01

梳理當前業(yè)務(wù),未來業(yè)務(wù)發(fā)展問題,目的是給埋點預(yù)留空間

① 業(yè)務(wù)兼容的問題

前期規(guī)范執(zhí)行之后,后續(xù)隨著業(yè)務(wù)的拓展,已有數(shù)據(jù)字段滿足不了業(yè)務(wù)的分析需求;

② 產(chǎn)品兼容的問題

埋點從應(yīng)用端來區(qū)分,web/ios/android,小程序,公眾號,然后還要區(qū)分一下是否是原生,還是H5,新老版本之間肯定會帶來一些模塊化的差異;

③ 前后端埋點不一致的問題

前端請求服務(wù)端的數(shù)據(jù)大多是存在binlog里面的,數(shù)據(jù)日志同步解析的過程里面可能會存在丟包的可能性,數(shù)倉的穩(wěn)定性也會影響數(shù)據(jù)質(zhì)量;后端服務(wù)信息存儲的數(shù)據(jù)是存在mysql,表字段結(jié)構(gòu)化,分多表存儲,需要靠主鍵進行關(guān)聯(lián),有大量的ETL過程。兩者之間可能因為數(shù)據(jù)清洗、處理、實時技術(shù)等原因,造成數(shù)據(jù)差異化;

③ 自埋點和第三方應(yīng)用統(tǒng)計口徑的問題

自埋點一般都會定義一個唯一id作為區(qū)分用戶的標志,但是第三方是缺少用戶屬性信息的判斷,一般會以設(shè)備號uuid/imse,或者IP地址段、mac地址段作為區(qū)分標志,從而造成統(tǒng)計數(shù)據(jù)上的差異化,對于留存分析、轉(zhuǎn)化分析、流失分析需要用到明細數(shù)據(jù)的場景,可兼容性不是很友好;

④ 埋點開發(fā)技術(shù)執(zhí)行不到位的問題

絕大多數(shù)情況下我們說埋點,一般都是說前端埋點,前端開發(fā)工程師在做埋點的時候又多是人為埋點,在開發(fā)過程中,會造成部分信息冗余、重復(fù)、記錄不完整的情況存在;

⑤ 多產(chǎn)品之間的模塊差異化問題

埋點不能夠只有一套標準規(guī)范,多生態(tài)應(yīng)用下,業(yè)務(wù)繁瑣,在產(chǎn)品、技術(shù)的架構(gòu)上有明顯的差異,不同的產(chǎn)品、模塊、坑位、點擊事件的定義也可能有一定的區(qū)別,這時候可能需要根據(jù)場景劃分不同的埋點標準;

⑥ 自定義埋點信息的鍵對設(shè)計問題

往往會在埋點里面增加一個json的字段(bdata),在埋點的時候?qū)懭胱远x的業(yè)務(wù)信息進行場景識別,譬如活動id、業(yè)務(wù)信息、用戶快照的基本信息等,不同開發(fā)寫入的自定義字段格式可能會有差異;

02

埋點應(yīng)用場景,對應(yīng)初期埋點預(yù)留

基于業(yè)務(wù)分析框架,梳理常規(guī)分析案例中需要用到的埋點數(shù)據(jù)集,核心指標必須要有埋點;

基于算法模型框架,梳理算法所需要構(gòu)建的數(shù)據(jù)特征需要用到的字段信息;

基于業(yè)務(wù)訴求,梳理非常規(guī),當前沒需求未來有應(yīng)用場景的字段信息;

舉個例子,譬如供需匹配、資源調(diào)度、智能選址,所對應(yīng)的幾個信息主體分別是:用戶需求方、用戶供給方、商品信息、時間信息、空間信息、行為信息、業(yè)務(wù)信息;

03

標簽預(yù)留場景,反推埋點預(yù)留

基于用戶畫像的標簽建設(shè),需要考慮畫像的多層屬性,社會屬性、基本屬性、市場屬性、交易屬性、行為屬性等,通過畫像篩選人群的時候,可能需要通過數(shù)據(jù)模型建立用戶分層的過程,所需要用到的輔助數(shù)據(jù);

基于智能運營的標簽建設(shè),運營策略、活動、方案的數(shù)據(jù)需求收集,哪些標簽需要用到埋點中的信息;

基于營銷系統(tǒng)的標簽建設(shè),涉及到渠道分配、廣告投放、點擊預(yù)測等,可能需要對曝光、點擊、轉(zhuǎn)化進行全鏈路的埋點建設(shè),或者基于某一個產(chǎn)品使用鏈路,埋點數(shù)據(jù)要完備;

標簽管理,沒有一套產(chǎn)品來支撐,多標簽?zāi)阍趺磳ν馓峁缓A康臉撕?,又要怎么做標簽管理?/p>

04

后面做推薦抓到核心指標,前期做埋點預(yù)設(shè)

推薦算法中需要用到的數(shù)據(jù)特征中包含哪些數(shù)據(jù)指標,其中埋點的部分所需要的數(shù)據(jù)格式是怎樣的;

推薦算法的設(shè)計方案,基于用戶、基于物品、協(xié)同過濾、基于規(guī)則、基于融合模型,不同的方案下,對數(shù)據(jù)底層的要求可能也會有一定的差異;

05

數(shù)倉庫表的開發(fā)成本

埋點數(shù)據(jù)落到數(shù)倉后,需要預(yù)先建立哪些表,如何做埋點數(shù)據(jù)的分層;

畢竟埋點的數(shù)據(jù)體量是非常大的,TB級數(shù)據(jù)的存儲本身就是一個比較大的成本,再加上調(diào)度系統(tǒng)、計算資源、運行性能等方面,就需要數(shù)倉團隊在一開始就要把數(shù)據(jù)模型提前建立好,做好ods層到dw層、ads層的劃分,維度和事實之間的建設(shè);

06

數(shù)倉性能,時間問題(hive)

因為埋點數(shù)據(jù)的體量問題,落表的時候,一定會存在大量的冗余字段,如果集群資源比較緊張,對于常規(guī)數(shù)據(jù)的統(tǒng)計、計算都會帶來性能上的問題;

在數(shù)據(jù)團隊的架構(gòu)中,有對外提供數(shù)據(jù)應(yīng)用服務(wù),對于數(shù)據(jù)的實時計算就有一定的要求,什么場景下應(yīng)該是T+1,什么場景下應(yīng)該是偽實時,避免數(shù)據(jù)調(diào)度任務(wù)影響前臺應(yīng)用產(chǎn)出;

07

產(chǎn)品全埋點還是分塊埋點?分塊兒埋點的話有什么響應(yīng)機制?應(yīng)用措施?

全埋點和分模塊埋點,直接的影響是數(shù)據(jù)存儲成本的問題,作為一個數(shù)據(jù)分析,這也是不得不考慮的問題,如果數(shù)據(jù)結(jié)構(gòu)優(yōu)化不做好,每年浪費的存儲成本可能會是百萬級的消耗。隨著周期的增加,成本浪費會更嚴重。

所以說,企業(yè)數(shù)據(jù)的分析,不僅局限在數(shù)據(jù)本身,而應(yīng)該是全面的剖析,多場景的結(jié)合。凡事都不簡單,如果簡單為什么那么多人都沒有做成功,只不過是層次還到而已。

責任編輯:haq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 數(shù)據(jù)
    +關(guān)注

    關(guān)注

    8

    文章

    7048

    瀏覽量

    89076

原文標題:干貨分享:埋點實踐過程中碰到的坑點集合

文章出處:【微信號:DBDevs,微信公眾號:數(shù)據(jù)分析與開發(fā)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    用TMS320C5534調(diào)試ADS131A02遇到一些問題求解

    各位大牛,我在用TMS320C5534調(diào)試ADS131A02遇到一些問題如下: 1.異步中斷模式,F(xiàn)igure 109初始化流程圖中說等待 READY WORD(0xFF02),請問是器件復(fù)位后
    發(fā)表于 12-26 06:16

    ldc1614使用過程中會有尖峰的存在,怎么解決?

    我購買了該公司的ldc1614,在使用過程中發(fā)現(xiàn)了一些問題,如果能為我解答,我將非常感謝。 問題1:為什么我的ldc1614上面LED是紅色但是顯示已連接。有正常數(shù)據(jù)讀取,這個現(xiàn)象大概發(fā)生在我取下
    發(fā)表于 12-16 06:53

    PLC數(shù)據(jù)采集在實施過程中存在的問題及解決方案

    PLC數(shù)據(jù)采集在工業(yè)自動化領(lǐng)域的實施過程中,遇到系列顯著的挑戰(zhàn)與痛,這些痛直接影響了數(shù)據(jù)采集的效率、準確性和成本效益。
    的頭像 發(fā)表于 11-30 14:38 ?223次閱讀

    用ADS8698做項目時遇到一些問題求解答

    您好,最近在用ADS8698做項目時遇到一些問題,想請教下: 問題描述:我們使用該芯片的5個輸入通道采集模擬量,兩路采集0-5V電壓信號,路采集4-20mA電流信號,兩路采集溫度信號
    發(fā)表于 11-19 06:38

    使用ADS1299的過程中遇到的疑問求解

    我在使用ADS1299的過程中一點疑問,需要您的幫助。 這是張關(guān)于BIAS反饋回路的示意圖,在我的理解里這可以看作個加減運算電路,我想知道的是,只關(guān)注它的反向輸入時,且暫時忽略
    發(fā)表于 11-15 06:35

    電能質(zhì)量治理產(chǎn)品如何解決分布式光伏電站運行過程中一些問題

    安科瑞徐赟杰 18706165067 1. 概述 隨著全球?qū)稍偕茉葱枨蟮脑黾?,分布式光伏電站的建設(shè)和發(fā)展迅速。然而,分布式光伏電站的運行過程中面臨著系列問題,比如導致企業(yè)關(guān)口計量功率因數(shù)
    的頭像 發(fā)表于 11-13 10:19 ?156次閱讀
    電能質(zhì)量治理產(chǎn)品如何解決分布式光伏電站運行<b class='flag-5'>過程中</b>的<b class='flag-5'>一些問題</b>

    鎧裝光纜可以直接地嗎

    ,鎧裝光纜的直接地也需要考慮一些問題: 地下環(huán)境:鎧裝光纜敷設(shè)的地下環(huán)境需要優(yōu)良,應(yīng)避免有大量雜物、根系等,以免擠壓和毀損光纜。 施工質(zhì)量和工藝:鎧裝光纜的直接地需要采用專業(yè)工具和施工工藝,確保安裝質(zhì)量,
    的頭像 發(fā)表于 11-06 10:09 ?244次閱讀

    TAS5766開發(fā)遇到一些問題 請幫忙解決

    TAS5766遇到一些問題 ,請能幫忙解決。 1, 正常情況,不加EQ時,用DC15V供電4歐姆負載,喇叭端輸出最大有9V左右開始有失真。 2,當加了EQ,其它條件相同,喇叭端輸出最大2V多就
    發(fā)表于 10-09 10:05

    Profinet遠程IO模塊的常見問題

    Profinet遠程IO模塊在工業(yè)自動化扮演著重要的角色,但使用過程中也可能會遇到一些問題。
    的頭像 發(fā)表于 09-18 14:14 ?562次閱讀

    使用VCA810過程中遇到一些問題求解

    我在使用VCA810過程中遇到一些問題,請各位大神指點,具體如下: 1、控制電壓最小只能加到-1.7V,再減小的話輸出信號消失或者放大倍數(shù)驟然減小。 2、輸入端出現(xiàn)個疊加在信號上的
    發(fā)表于 08-30 07:11

    使用AD8495芯片+K型熱電偶搭建溫度采樣電路時遇到一些問題求解

    您好,我在使用AD8495芯片+K型熱電偶搭建溫度采樣電路時遇到一些問題,希望能得到您的幫助,問題如下: 我們制作的溫度采樣電路的原理圖如下所示:前端采用建議的濾波電路,在AD8495輸出端連接二階
    發(fā)表于 06-03 08:50

    編寫個任務(wù)調(diào)度程序,在上下文切換后遇到一些問題求解

    大家好, 我正在編寫個任務(wù)調(diào)度程序,在上下文切換后遇到一些問題。 為下個任務(wù)恢復(fù)上下文后: __builtin_tricore_mtcr_by_name(\"pcxi\&quo
    發(fā)表于 05-22 07:50

    USB to CAN分析儀的常見故障盤點

     USB to CAN分析儀在使用過程中可能會遇到一些問題,以下是USB to CAN分析儀常見的十個問題及其簡要描述。
    的頭像 發(fā)表于 04-28 12:23 ?701次閱讀
    USB to CAN分析儀的常見故障盤點

    做FPGA向FX3寫數(shù)據(jù)的過程中遇到一些問題求解

    你好我在做FPGA向FX3寫數(shù)據(jù)的過程中遇到一些問題想要明確下: (緩沖區(qū)的大小設(shè)置為16kB,數(shù)據(jù)總線位寬為32位,水印值為6) 1、如果以16kB為單位寫,這時候pktend_
    發(fā)表于 02-28 07:45

    使用ADUC843BSZ62-5替換ADUC831的過程中出現(xiàn)的疑問求解

    請問:使用ADUC843BSZ62-5替換ADUC831的過程中出現(xiàn)一些問題。外部晶振更換為32.768KHZ。系統(tǒng)上電后發(fā)現(xiàn),PSEN引腳始終為0V,CREF電壓為0.32V。VREF電壓在1V波動。使用WSD下載程序時,無法識別芯片型號。
    發(fā)表于 01-11 07:07