阿里
為打破數(shù)據(jù)孤島,創(chuàng)造更大的數(shù)據(jù)價(jià)值,阿里設(shè)計(jì)了OneEntity來(lái)提供全域數(shù)據(jù)與服務(wù)。OneEntity體系主要包含統(tǒng)一實(shí)體、全域標(biāo)簽、全域關(guān)系、全域行為4大類。
01
標(biāo)簽分類
其中GProfile全域標(biāo)簽的分類,將“人”的立體刻畫(huà)劃分為“人的核心屬性”和“人的向往與需求”2大部分,具體包含4大類:
人的核心屬性,可分為自然屬性、社會(huì)屬性。
-自然屬性:是指人的肉體存在及其特征,是人自出生后自然存在的,一般不會(huì)因人為因素發(fā)生較大的改變。例如“性別”“生肖”“年齡”“身高”“體重”等。
-社會(huì)屬性:指人在實(shí)踐活動(dòng)基礎(chǔ)上產(chǎn)生的一切社會(huì)關(guān)系的總和。人一旦進(jìn)入社會(huì)就會(huì)產(chǎn)生社會(huì)屬性。例如經(jīng)濟(jì)狀況、家庭狀況、社會(huì)地位、政治宗教、地理位置、價(jià)值觀等。
人的向往與需求,可分為興趣偏好、行為消費(fèi)偏好。
-興趣偏好:是人堆非物化對(duì)象的內(nèi)在心理向往與外在行為表達(dá),是一種法子內(nèi)心的本能喜好,與物質(zhì)無(wú)必然關(guān)系。例如渴望愛(ài)情、需要安全感、討厭臟亂環(huán)境等。
-行為消費(fèi)偏好:是人對(duì)物化對(duì)象的需求與外在行為表達(dá),涉及各行業(yè),與物質(zhì)世界存在千絲萬(wàn)縷的聯(lián)系。例如母嬰行業(yè)偏好、美妝行業(yè)偏好、洗護(hù)行業(yè)偏好、家裝行業(yè)偏好等。
在以上四大類的基礎(chǔ)上,我們又嘗試根據(jù)不同的業(yè)務(wù)形態(tài)進(jìn)一步細(xì)分二級(jí)、三級(jí)分類。
02
標(biāo)簽萃取
標(biāo)簽的萃取工作包含:數(shù)據(jù)采集;清洗,去噪聲并統(tǒng)一;反復(fù)試用并確定最佳算法及模型;為模型選擇計(jì)算因子并對(duì)模型中的每一個(gè)計(jì)算因子調(diào)配權(quán)重;產(chǎn)出標(biāo)簽質(zhì)量評(píng)估報(bào)告以輔助驗(yàn)收。
我們隨機(jī)抽查了若干個(gè)在用的標(biāo)簽,預(yù)估工作量和工作周期,一個(gè)有價(jià)值的標(biāo)簽的萃取,平均耗時(shí)2周。
慢的主要原因,一是由于萃取流程復(fù)雜,每個(gè)標(biāo)簽萃取都依賴底層的基礎(chǔ)數(shù)據(jù),而較少依賴上一層匯總的數(shù)據(jù)中間層數(shù)據(jù);二是大量重復(fù)的人力,對(duì)應(yīng)的標(biāo)簽萃取邏輯時(shí)可以復(fù)用的,包含算法的選擇、模型訓(xùn)練和計(jì)算因子的加權(quán)等,但由于不同人來(lái)做,造成了很多重復(fù)工作。
標(biāo)簽萃取過(guò)程復(fù)雜,那有什么可以參考的流程呢?
首先,數(shù)據(jù)源層面:建設(shè)一套完整的數(shù)據(jù)源,以O(shè)neEntity體系為核心,將OneEntity相關(guān)實(shí)體及其行為全部串聯(lián)起來(lái),與存量的標(biāo)簽一起作為數(shù)據(jù)源。
其次,標(biāo)簽計(jì)算層面:將標(biāo)簽萃取邏輯沉淀為2種,分別對(duì)應(yīng)到偏好類標(biāo)簽和分類預(yù)測(cè)類標(biāo)簽的工具型產(chǎn)品的生產(chǎn)過(guò)程中,包含計(jì)算因子、權(quán)重等業(yè)務(wù)規(guī)則、數(shù)據(jù)樣本選擇、模型與算法選擇等。
最后,標(biāo)簽監(jiān)測(cè)層面:沉淀質(zhì)量評(píng)估報(bào)告和生產(chǎn)監(jiān)測(cè)、上線等管理流程。
當(dāng)一整套工具型產(chǎn)品上線之后,批量生產(chǎn)十幾個(gè)同類型標(biāo)簽只需要2天左右,這是因?yàn)樵谘a(bǔ)足數(shù)據(jù)源、確定業(yè)務(wù)規(guī)則、選擇數(shù)據(jù)樣本、選擇算法與模型的過(guò)程中,減少了大量的代碼開(kāi)發(fā)與模型訓(xùn)練的工作。
在這個(gè)過(guò)程中,參與的角色也發(fā)生了變化,從原本的以數(shù)據(jù)產(chǎn)品經(jīng)理、數(shù)倉(cāng)工程師、數(shù)據(jù)科學(xué)家為主導(dǎo),轉(zhuǎn)變?yōu)閷?duì)業(yè)務(wù)更為熟悉的業(yè)務(wù)人員、數(shù)據(jù)分析師為主導(dǎo)。
2
網(wǎng)易
網(wǎng)易大數(shù)據(jù)融合用戶娛樂(lè)、電商購(gòu)物、教育、新聞資訊、通訊等多行業(yè)10+產(chǎn)品線,構(gòu)建起全域用戶畫(huà)像數(shù)據(jù),目前總標(biāo)簽1000+,ID量URS、phone、idfa、IMEI、oaid等均達(dá)到憶級(jí)。
01
標(biāo)簽分類
1.基礎(chǔ)標(biāo)簽:
性別、年齡、教育背景、生活習(xí)慣(早起晚起)、地理位置(POI信息)、職業(yè)狀況、經(jīng)濟(jì)情況(有車有房)、設(shè)備信息(手機(jī)、運(yùn)營(yíng)商等)、會(huì)員信息(會(huì)員等級(jí))、衍生信息。
其中衍生標(biāo)簽,如評(píng)估是否已婚,在原由標(biāo)簽體系下沒(méi)有此類標(biāo)簽,但可通過(guò)多個(gè)標(biāo)簽進(jìn)行組合生成新的標(biāo)簽,包含是否有小孩、30歲等條件組合。
2. 行為標(biāo)簽
包含地域、廣告、搜過(guò)、播放、點(diǎn)擊、評(píng)論、關(guān)注、收藏、購(gòu)買等維度。
3. 偏好標(biāo)簽
包含出行購(gòu)物、手機(jī)數(shù)碼、家裝家居、教育公益、文化娛樂(lè)、新聞資訊、金融理財(cái)、游戲競(jìng)技、動(dòng)漫影視、明星藝人等維度
4. 預(yù)測(cè)標(biāo)簽
包含利用算法進(jìn)行預(yù)測(cè)生成的標(biāo)簽,包含是否出行、是否買車等標(biāo)簽。
注意:
1. 標(biāo)簽的枚舉值十分重要,業(yè)務(wù)分析過(guò)程中很容易出現(xiàn)枚舉值的偏差,不符合實(shí)際業(yè)務(wù)邏輯
2. 注意標(biāo)簽之間的沖突,如年齡15歲,學(xué)歷卻是博士或者有小孩
02
標(biāo)簽計(jì)算
預(yù)測(cè)類標(biāo)簽案例:性別,主要包含三種方案:
1. 標(biāo)簽傳播:根據(jù)用戶在各個(gè)業(yè)務(wù)場(chǎng)景,如母嬰商品點(diǎn)擊行為,進(jìn)行item標(biāo)記,構(gòu)建user-item的興趣網(wǎng)絡(luò)進(jìn)行 Graph Embedding,最后進(jìn)行分類,預(yù)測(cè)用戶的性別。
2. 語(yǔ)義分析:利用NLP算法對(duì)用戶昵稱進(jìn)行語(yǔ)義分析
3. 自行填寫(xiě):利用業(yè)務(wù)屬性自行填寫(xiě)的內(nèi)容進(jìn)行判斷,此處需對(duì)數(shù)據(jù)質(zhì)量進(jìn)行過(guò)濾,排除如生日為1990-01-01的參數(shù)異常值信息。
基于上述三類算法特征結(jié)果集,對(duì)模型進(jìn)行融合,然后對(duì)用戶的性別進(jìn)行預(yù)測(cè),其準(zhǔn)確率在0.6以上。
注意:需要突破的地方在于特征的稀疏性,因?yàn)镮D-mapping打通后,數(shù)據(jù)覆蓋率僅20%左右,嚴(yán)重影響了模型的整體效果。
3
汽車之家
用戶畫(huà)像的構(gòu)建就是把用戶標(biāo)簽分列到不同的類里面,這些類都是什么,彼此之間的聯(lián)系,就構(gòu)成了標(biāo)簽體系。
01
按用途分類
1.人口屬性:用戶自然屬性、用戶會(huì)員、用戶所屬年代、用戶價(jià)值登記、是否增換購(gòu)用戶、用戶分群、UVN-B用戶分群、用戶分層、用戶流失預(yù)警
2.網(wǎng)絡(luò)屬性:用戶APP設(shè)備信息、用戶PC設(shè)備信息、用戶活躍時(shí)段、用戶平臺(tái)偏好、用戶活躍類型
3.內(nèi)容興趣偏好:業(yè)務(wù)類型偏好、內(nèi)容分類標(biāo)簽、用戶關(guān)注作者偏好、用戶產(chǎn)品偏好、用戶顯式負(fù)反饋、用戶論壇偏好、車友圈偏好、用戶興趣欄目
4.車興趣偏好 :用戶短期興趣車偏好、用戶興趣車偏好、配置偏好、用戶顏色偏好、用戶購(gòu)車目的、用戶置換偏好、用戶推薦有車、二手車用戶偏好、用戶購(gòu)車意向、用戶新舊偏好、用戶購(gòu)車階段、用戶有車標(biāo)簽、用戶興趣集中度、用戶能源偏好、用戶生產(chǎn)方式偏好
5.金融畫(huà)像:分期購(gòu)車意向度、用戶購(gòu)買力、二手車用戶購(gòu)買力、用戶汽車價(jià)格偏好、用戶經(jīng)濟(jì)屬性、增換購(gòu)用戶預(yù)測(cè)線索
6.場(chǎng)景畫(huà)像:用戶地理位置
02
按統(tǒng)計(jì)方式分類
1.統(tǒng)計(jì)類標(biāo)簽
統(tǒng)計(jì)類標(biāo)簽,通過(guò)業(yè)務(wù)規(guī)則,將業(yè)務(wù)問(wèn)題轉(zhuǎn)化為數(shù)據(jù)口徑實(shí)現(xiàn)。如收藏列表、 搜索關(guān)鍵詞、保險(xiǎn)到期時(shí)間、是否下過(guò)線索、30天內(nèi)訪問(wèn)xx次等。
2.興趣類標(biāo)簽
興趣類標(biāo)簽,基于興趣遷移模型構(gòu)建用戶標(biāo)簽。綜合考慮特征、特征權(quán)重、距今時(shí)間、行為次數(shù)等因素,用戶興趣標(biāo)簽構(gòu)建公式如下:
用戶興趣標(biāo)簽=行為類型權(quán)重*時(shí)間衰減*行為次數(shù)
-特征:需要結(jié)合業(yè)務(wù)選擇,如瀏覽、搜索、線索、對(duì)比、互動(dòng)、點(diǎn)擊、有車等行為。
-權(quán)重:用戶在平臺(tái)上發(fā)生的行為具體到用戶標(biāo)簽層面有著不同的行為權(quán)重,一般而言,行為發(fā)生的成本越高,權(quán)重越大??梢杂蓸I(yè)務(wù)人員確定,也可以采用TF-IDF技術(shù)分析得出。
-時(shí)間衰減:用戶行為收時(shí)間的影響不斷衰減,距離現(xiàn)在越遠(yuǎn),對(duì)用戶興趣的影響越低,這里采用牛頓冷卻定律的思想擬合衰減系數(shù),衰減周期結(jié)合業(yè)務(wù)制定。
-行為次數(shù):在固定時(shí)間周期內(nèi)行為發(fā)生的次數(shù)越多,興趣傾向越重。
3.模型類標(biāo)簽
基于機(jī)器學(xué)習(xí)方法進(jìn)行數(shù)據(jù)建模預(yù)測(cè)用戶的標(biāo)簽,這類標(biāo)簽在標(biāo)簽體系中占比較少,其實(shí)現(xiàn)難度高,開(kāi)發(fā)成本高。
例如:
-是否有車:基于RF+LR模型實(shí)現(xiàn)
-常駐地:基于GPS聚類獲取,采用DBSCAN
-購(gòu)車轉(zhuǎn)化:GBDT
-用戶分群:KMENAS聚類產(chǎn)生
03
按時(shí)效分類
從數(shù)據(jù)時(shí)效上,可分為離線畫(huà)像和實(shí)時(shí)畫(huà)像。離線與實(shí)時(shí)采用的構(gòu)建思想相同,不同之處在于:
-離線畫(huà)像:描述用戶長(zhǎng)期的習(xí)慣;
-實(shí)時(shí)畫(huà)像:描述用戶當(dāng)下的興趣,會(huì)隨時(shí)間的改變而發(fā)生變更;
總結(jié)
各大公司的標(biāo)簽分類不同,現(xiàn)市面上有三種常用的標(biāo)簽分類方式,按用途分類,可分為基礎(chǔ)信息、用戶行為、業(yè)務(wù)偏好、場(chǎng)景標(biāo)簽;按統(tǒng)計(jì)方式分類,可分為事實(shí)類標(biāo)簽、規(guī)則類標(biāo)簽、預(yù)測(cè)類標(biāo)簽;按時(shí)效分類,可分為靜態(tài)標(biāo)簽、動(dòng)態(tài)標(biāo)簽。
原文標(biāo)題:干貨:阿里/網(wǎng)易/汽車之家畫(huà)像標(biāo)簽體系
文章出處:【微信公眾號(hào):數(shù)據(jù)分析與開(kāi)發(fā)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
責(zé)任編輯:haq
-
數(shù)據(jù)
+關(guān)注
關(guān)注
8文章
7077瀏覽量
89161 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8423瀏覽量
132757
原文標(biāo)題:干貨:阿里/網(wǎng)易/汽車之家畫(huà)像標(biāo)簽體系
文章出處:【微信號(hào):DBDevs,微信公眾號(hào):數(shù)據(jù)分析與開(kāi)發(fā)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論