人人澡人人妻人人爽人人蜜桃麻豆,欧美中日韩在线,亚洲日韩国产综合区

埋點本身現(xiàn)在已經(jīng)有太多的集成解決方案，神策、諸葛IO、GIO，但是在實踐的過程中仍然還是會碰都很多問題，這些問題都是躺過的坑。

梳理當前業(yè)務(wù)，未來業(yè)務(wù)發(fā)展問題，目的是給埋點預(yù)留空間

① 業(yè)務(wù)兼容的問題

前期規(guī)范執(zhí)行之后，后續(xù)隨著業(yè)務(wù)的拓展，已有數(shù)據(jù)字段滿足不了業(yè)務(wù)的分析需求；

埋點從應(yīng)用端來區(qū)分，web/ios/android，小程序，公眾號，然后還要區(qū)分一下是否是原生，還是H5，新老版本之間肯定會帶來一些模塊化的差異；

③ 前后端埋點不一致的問題

前端請求服務(wù)端的數(shù)據(jù)大多是存在binlog里面的，數(shù)據(jù)日志同步解析的過程里面可能會存在丟包的可能性，數(shù)倉的穩(wěn)定性也會影響數(shù)據(jù)質(zhì)量；后端服務(wù)信息存儲的數(shù)據(jù)是存在mysql，表字段結(jié)構(gòu)化，分多表存儲，需要靠主鍵進行關(guān)聯(lián)，有大量的ETL過程。兩者之間可能因為數(shù)據(jù)清洗、處理、實時技術(shù)等原因，造成數(shù)據(jù)差異化；

③ 自埋點和第三方應(yīng)用統(tǒng)計口徑的問題

自埋點一般都會定義一個唯一id作為區(qū)分用戶的標志，但是第三方是缺少用戶屬性信息的判斷，一般會以設(shè)備號uuid/imse，或者IP地址段、mac地址段作為區(qū)分標志，從而造成統(tǒng)計數(shù)據(jù)上的差異化，對于留存分析、轉(zhuǎn)化分析、流失分析需要用到明細數(shù)據(jù)的場景，可兼容性不是很友好；

④ 埋點開發(fā)技術(shù)執(zhí)行不到位的問題

絕大多數(shù)情況下我們說埋點，一般都是說前端埋點，前端開發(fā)工程師在做埋點的時候又多是人為埋點，在開發(fā)過程中，會造成部分信息冗余、重復(fù)、記錄不完整的情況存在；

⑤ 多產(chǎn)品之間的模塊差異化問題

埋點不能夠只有一套標準規(guī)范，多生態(tài)應(yīng)用下，業(yè)務(wù)繁瑣，在產(chǎn)品、技術(shù)的架構(gòu)上有明顯的差異，不同的產(chǎn)品、模塊、坑位、點擊事件的定義也可能有一定的區(qū)別，這時候可能需要根據(jù)場景劃分不同的埋點標準；

⑥ 自定義埋點信息的鍵對設(shè)計問題

往往會在埋點里面增加一個json的字段（bdata），在埋點的時候?qū)懭胱远x的業(yè)務(wù)信息進行場景識別，譬如活動id、業(yè)務(wù)信息、用戶快照的基本信息等，不同開發(fā)寫入的自定義字段格式可能會有差異；

埋點應(yīng)用場景，對應(yīng)初期埋點預(yù)留

基于業(yè)務(wù)分析框架，梳理常規(guī)分析案例中需要用到的埋點數(shù)據(jù)集，核心指標必須要有埋點；

基于算法模型框架，梳理算法所需要構(gòu)建的數(shù)據(jù)特征需要用到的字段信息；

基于業(yè)務(wù)訴求，梳理非常規(guī)，當前沒需求未來有應(yīng)用場景的字段信息；

舉個例子，譬如供需匹配、資源調(diào)度、智能選址，所對應(yīng)的幾個信息主體分別是：用戶需求方、用戶供給方、商品信息、時間信息、空間信息、行為信息、業(yè)務(wù)信息；

標簽預(yù)留場景，反推埋點預(yù)留

基于用戶畫像的標簽建設(shè)，需要考慮畫像的多層屬性，社會屬性、基本屬性、市場屬性、交易屬性、行為屬性等，通過畫像篩選人群的時候，可能需要通過數(shù)據(jù)模型建立用戶分層的過程，所需要用到的輔助數(shù)據(jù)；

基于智能運營的標簽建設(shè)，運營策略、活動、方案的數(shù)據(jù)需求收集，哪些標簽需要用到埋點中的信息；

基于營銷系統(tǒng)的標簽建設(shè)，涉及到渠道分配、廣告投放、點擊預(yù)測等，可能需要對曝光、點擊、轉(zhuǎn)化進行全鏈路的埋點建設(shè)，或者基于某一個產(chǎn)品使用鏈路，埋點數(shù)據(jù)要完備；

標簽管理，沒有一套產(chǎn)品來支撐，多標簽?zāi)阍趺磳ν馓峁?；海量的標簽，又要怎么做標簽管理?/p>

后面做推薦抓到核心指標，前期做埋點預(yù)設(shè)

推薦算法中需要用到的數(shù)據(jù)特征中包含哪些數(shù)據(jù)指標，其中埋點的部分所需要的數(shù)據(jù)格式是怎樣的；

推薦算法的設(shè)計方案，基于用戶、基于物品、協(xié)同過濾、基于規(guī)則、基于融合模型，不同的方案下，對數(shù)據(jù)底層的要求可能也會有一定的差異；

數(shù)倉庫表的開發(fā)成本

埋點數(shù)據(jù)落到數(shù)倉后，需要預(yù)先建立哪些表，如何做埋點數(shù)據(jù)的分層；

畢竟埋點的數(shù)據(jù)體量是非常大的，TB級數(shù)據(jù)的存儲本身就是一個比較大的成本，再加上調(diào)度系統(tǒng)、計算資源、運行性能等方面，就需要數(shù)倉團隊在一開始就要把數(shù)據(jù)模型提前建立好，做好ods層到dw層、ads層的劃分，維度和事實之間的建設(shè)；

數(shù)倉性能，時間問題（hive）

因為埋點數(shù)據(jù)的體量問題，落表的時候，一定會存在大量的冗余字段，如果集群資源比較緊張，對于常規(guī)數(shù)據(jù)的統(tǒng)計、計算都會帶來性能上的問題；

在數(shù)據(jù)團隊的架構(gòu)中，有對外提供數(shù)據(jù)應(yīng)用服務(wù)，對于數(shù)據(jù)的實時計算就有一定的要求，什么場景下應(yīng)該是T+1，什么場景下應(yīng)該是偽實時，避免數(shù)據(jù)調(diào)度任務(wù)影響前臺應(yīng)用產(chǎn)出；

產(chǎn)品全埋點還是分塊埋點？分塊兒埋點的話有什么響應(yīng)機制？應(yīng)用措施？

全埋點和分模塊埋點，直接的影響是數(shù)據(jù)存儲成本的問題，作為一個數(shù)據(jù)分析，這也是不得不考慮的問題，如果數(shù)據(jù)結(jié)構(gòu)優(yōu)化不做好，每年浪費的存儲成本可能會是百萬級的消耗。隨著周期的增加，成本浪費會更嚴重。

所以說，企業(yè)數(shù)據(jù)的分析，不僅局限在數(shù)據(jù)本身，而應(yīng)該是全面的剖析，多場景的結(jié)合。凡事都不簡單，如果簡單為什么那么多人都沒有做成功，只不過是層次還到而已。

- EOF -

推薦閱讀點擊標題可跳轉(zhuǎn)

1、萬字長文說透分布式鎖

2、pandas 與 GUI 界面的超強結(jié)合，爆贊！

3、面試，MySQL 搞透這 20 道就穩(wěn)了

看完本文有收獲？請轉(zhuǎn)發(fā)分享給更多人

推薦關(guān)注「數(shù)據(jù)分析與開發(fā)」，提升數(shù)據(jù)技能

點贊和在看就是最大的支持

原文標題：干貨分享：埋點實踐過程中碰到的坑點集合

文章出處：【微信公眾號：數(shù)據(jù)分析與開發(fā)】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。