作者;京東零售 馮偉
一、前言
優(yōu)秀的廣告創(chuàng)意不僅能夠增強(qiáng)信息傳遞的效果,還可以提高用戶的點(diǎn)擊和轉(zhuǎn)化率。2023年廣告團(tuán)隊利用AIGC技術(shù)顯著提升了創(chuàng)意內(nèi)容的多樣性。然而隨著多樣性的提升,質(zhì)量欠佳的素材限制了智能創(chuàng)意的覆蓋率,海量創(chuàng)意如何匹配用戶的問題更加凸顯。2024年廣告團(tuán)隊在創(chuàng)意生成和優(yōu)選方面進(jìn)行了技術(shù)突破,實現(xiàn)了高質(zhì)量廣告創(chuàng)意的自動生成和千人千面的創(chuàng)意推薦效果。
創(chuàng)意生成方面,廣告團(tuán)隊提出了一種提高生成圖片可用率的方法,通過多模態(tài)可靠反饋模型模擬人類審核圖片,并利用該模型的反饋顯著提升生成圖片的可用率,同時保持了視覺吸引力。團(tuán)隊還發(fā)布了業(yè)界首個人工標(biāo)注生成廣告圖片的RF1M數(shù)據(jù)集,用于幫助模型更真實地反映人類反饋。創(chuàng)意優(yōu)選方面,廣告團(tuán)隊利用多模態(tài)大語言模型提取創(chuàng)意的表征信息,提升優(yōu)選模型對創(chuàng)意的區(qū)分能力和冷啟效果。同時將創(chuàng)意優(yōu)選任務(wù)拆分為元素選擇和組合選擇兩個階段,使得優(yōu)選模型能夠應(yīng)對更豐富的創(chuàng)意素材。
以上技術(shù)突破成功解決了現(xiàn)有AIGC圖片可用率低的問題,提升了AIGC素材的覆蓋率;并有效緩解了數(shù)據(jù)稀疏和海量創(chuàng)意接入帶來的組合爆炸問題,實現(xiàn)了線上創(chuàng)意和用戶的精準(zhǔn)推薦。相關(guān)創(chuàng)新成果已在 AAAI,ECCV,IJCV等頂會上發(fā)表多篇論文。
本文將詳細(xì)闡述2024年廣告團(tuán)隊在創(chuàng)意生成和優(yōu)選方面的技術(shù)突破。
?
二、可信賴創(chuàng)意生成
吸引人的廣告圖片對于電子商務(wù)的成功至關(guān)重要。由于手動設(shè)計圖片需要大量的人工成本,因此對自動廣告圖像生成的需求正在上升。盡管生成模型有潛力創(chuàng)造出吸引人的背景,但我們觀察到其經(jīng)常會生成質(zhì)量欠佳的廣告圖片,因此需要大量人工來檢查生成的圖像。這些缺陷限制了生成模型在廣告圖像生產(chǎn)中的廣泛應(yīng)用。因此,我們要解決的問題是如何建立一個可信賴的廣告圖像生成流程,以高可用率生成圖像。
【2.1 信賴反饋模型】
提高可用率的自然解決方案是利用生成過程中的隨機(jī)性,反復(fù)生成圖像直到獲得可用的圖像(循環(huán)生成)。為了替代人工檢查,我們提出了一種新穎的信賴反饋網(wǎng)絡(luò)(RFNet),充當(dāng)人工檢查員來評估生成的廣告圖像的可用性。由于僅依賴單一生成的圖像,模型無法有效獲得進(jìn)行精確檢查所需的關(guān)鍵知識,例如產(chǎn)品是什么以及產(chǎn)品如何出現(xiàn)在背景中。因此,RFNet整合了多種輔助模態(tài),以提供對判斷不同不可用情況至關(guān)重要的信息。RFNet的結(jié)構(gòu)如下所示:
【2.2 可信賴人類反饋】
雖然循環(huán)生成大大增加了可用圖像的數(shù)量,但因為生成模型本身能力有限,多次嘗試會顯著延長生成過程。利用人類反饋(RLHF)來增強(qiáng)擴(kuò)散模型的能力提供了一種可行的選擇,這些方法在提高生成圖像的視覺質(zhì)量方面已經(jīng)取得顯著結(jié)果。類似的,在訓(xùn)練完信賴反饋模型后,我們將其輸出看作人類對于生成圖片的評價,通過將其結(jié)果反傳回生成模型來提升生成圖片中可用的比例。該流程如下所示:
其中,yd為一個one-hot向量,其中合格類別的概率為1,而其他類別的概率為0。oi為生成圖像輸入給信賴反饋模型后得到的概率,N為一次訓(xùn)練中樣本的總數(shù)。所得到的梯度被反傳至生成模型中,來使其朝著更高概率生成合格圖像的方向優(yōu)化。沿用ControlNet原有的設(shè)定,只有ControlNet部分參與梯度更新,而Stable Diffusion部分是不更新參數(shù)的。
?
三、離線表征建設(shè)和接入
離線表征建設(shè)上,廣告團(tuán)隊基于MLLM技術(shù),提取創(chuàng)意圖片和文案的表征信息,完善創(chuàng)意粒度現(xiàn)有表征體系,并將其接入優(yōu)選模型進(jìn)行表征的對齊和優(yōu)化,提升優(yōu)選模型對不同創(chuàng)意的區(qū)分能力,并增強(qiáng)新增創(chuàng)意的冷啟效果。
【3.1 創(chuàng)意粒度表征建設(shè)】
創(chuàng)意粒度表征建設(shè)主要包括兩方面:
?顯式特征:創(chuàng)意素材中可見的顯式信息,例如如NER、背景色、人臉/品牌LOGO識別等。
?隱式特征:從創(chuàng)意素材展示內(nèi)容中可推斷的隱式信息,如商品是否在促銷,適合哪種用戶群體。
我們從不同表征的提取及表征質(zhì)量評估兩個方面進(jìn)行了探索和優(yōu)化:
?基于MLLM的創(chuàng)意表征體系建設(shè):利用MLLM的圖文處理能力,從創(chuàng)意圖像中同步提取顯式和隱式特征,包括圖像布局,展示風(fēng)格,商品信息,及促銷活動等內(nèi)容。
?基于對比學(xué)習(xí)的多模態(tài)表征抽?。夯贛OCO v3設(shè)計對比學(xué)習(xí)任務(wù),將同sku下的其他創(chuàng)意作為當(dāng)前創(chuàng)意表征學(xué)習(xí)的負(fù)樣本,提升表征在同sku創(chuàng)意間區(qū)分度。
?表征質(zhì)量評價體系:基于Fassi檢索工具,評測創(chuàng)意表征檢索效果是否符合預(yù)期。
【3.2 創(chuàng)意多模態(tài)表征落地優(yōu)選】
任務(wù)目標(biāo):
?創(chuàng)補(bǔ)充創(chuàng)意表征:創(chuàng)意本身表征太少,只有部分id信息,無法感知創(chuàng)意細(xì)節(jié),影響模型打分效果。
?增強(qiáng)三元組交互:已有工作基礎(chǔ)上,直接接入多模態(tài)信息帶來的增益有限,需考慮更加精細(xì)化的建模方式,提升模型精度。
實現(xiàn)方案:
?接入增量表征:考量新接入表征相對現(xiàn)有模型的信息增益,多角度補(bǔ)充特征。
?適配建模目標(biāo):注重同sku不同創(chuàng)意圖像差異性表征接入。
?精細(xì)化建模:增加模型中user,sku,creative素材之間的交互強(qiáng)度,提升建模效果。
?
四、優(yōu)選任務(wù)在線架構(gòu)優(yōu)化
【4.1 優(yōu)選模型建模目標(biāo)升級】
線上模型打分是在同sku下對下掛的不同創(chuàng)意進(jìn)行排序的,但是我們離線訓(xùn)練時,從特征輸入及目標(biāo)優(yōu)化的角度均未考慮候選創(chuàng)意對當(dāng)前創(chuàng)意的影響。導(dǎo)致兩個問題:1、模型建模學(xué)習(xí)接收的信息不完整。2、無法將離線基于ctr的點(diǎn)預(yù)估任務(wù)與線上推理的創(chuàng)意list排序任務(wù)統(tǒng)一。
因此,優(yōu)選模型在原有建模目標(biāo)上進(jìn)行了任務(wù)目標(biāo)的升級:
1、推動候選創(chuàng)意特征建設(shè),包括特征數(shù)據(jù)的接入和落表,將候選創(chuàng)意接入現(xiàn)有排序模型,與待排序創(chuàng)意進(jìn)行整體建模,提升離線模型訓(xùn)練和在線優(yōu)選任務(wù)服務(wù)場景的一致性。
2、升級建模目標(biāo),在原有的CTR點(diǎn)預(yù)估基礎(chǔ)上,新增同樣本中曝光創(chuàng)意和其他候選創(chuàng)意之間的list-wise建模目標(biāo),提升創(chuàng)意優(yōu)選模型精確度。具體公式如下:
【4.2 優(yōu)選-精排模型聯(lián)合訓(xùn)練】
在線方案設(shè)計上,為緩解線上serve壓力,提出創(chuàng)意-精排聯(lián)和學(xué)習(xí)范式:將三元組預(yù)估問題拆解為二元組預(yù)估與在該分布下的創(chuàng)意排序問題,分別由排序模型和創(chuàng)意優(yōu)選模型進(jìn)行聯(lián)合訓(xùn)練,拆解創(chuàng)意對點(diǎn)擊的貢獻(xiàn),緩解組合爆炸問題。線上只部署創(chuàng)意模型,通過輕量化的特征和模型服務(wù),減輕線上壓力。
?
上述技術(shù)針對線上個性化創(chuàng)意優(yōu)選任務(wù),從數(shù)據(jù)、模型、算力等方面進(jìn)行提效,有效緩解了創(chuàng)意素材接入帶來的組合爆炸和數(shù)據(jù)稀疏問題,提升了線上創(chuàng)意展示效果。
?
五、總結(jié)&展望
【5.1 技術(shù)路線總結(jié)】
為了解決廣告創(chuàng)意中生成素材的bad case,以及海量創(chuàng)意和用戶匹配的問題,京東廣告部門提出了以下技術(shù)方案:
創(chuàng)意生成方面,廣告團(tuán)隊提出了一種提高生成圖片可用率的方法,通過多模態(tài)可靠反饋網(wǎng)絡(luò)模擬人類審核圖片,并利用該網(wǎng)絡(luò)的反饋顯著提升了生成圖片的可用率,同時保持了視覺吸引力。該團(tuán)隊還發(fā)布了一個超過一百萬張人工標(biāo)注生成廣告圖片的RF1M數(shù)據(jù)集,用于促進(jìn)該領(lǐng)域的研究工作。
創(chuàng)意優(yōu)選方面,廣告團(tuán)隊利用 MLLM 技術(shù)提取創(chuàng)意的多模態(tài)表征,并通過對齊和優(yōu)化提升模型對創(chuàng)意的區(qū)分能力和冷啟效果。同時采用多示例學(xué)習(xí)方法,將創(chuàng)意組合與元素統(tǒng)一建模,利用組合點(diǎn)擊作為監(jiān)督信號,訓(xùn)練組合和元素優(yōu)選分支,實現(xiàn)聯(lián)合建模。
【5.2 未來技術(shù)展望】
盡管AIGC技術(shù)在廣告創(chuàng)意領(lǐng)域有較為廣泛的應(yīng)用,但仍存在諸多待解決的問題,未來我們將在以下方向開展技術(shù)探索:
多模態(tài):優(yōu)化技術(shù)在處理和整合不同模態(tài)的內(nèi)容上的能力,如如何將文字、圖像、視頻等元素有效融合,以創(chuàng)造吸引力更強(qiáng)的創(chuàng)意形式。
個性化:針對不同的目標(biāo)用戶群體,利用用戶數(shù)據(jù)和行為分析,生成符合特定用戶偏好的個性化廣告創(chuàng)意。
?
參考文獻(xiàn)
【1】Parallel Ranking of Ads and Creatives in Real-Time Advertising Systems, AAAI2024.
【2】Towards Reliable Advertising Image Generation Using Human Feedback, ECCV2024.
【3】CBNet: A Plug-and-Play Network for Segmentation-Based Scene Text Detection, IJCV2024.
【4】Generate E-commerce Product Background by Integrating Category Commonality and Personalized Style, ICASSP2025.
審核編輯 黃宇
-
京東
+關(guān)注
關(guān)注
2文章
1010瀏覽量
48962 -
AIGC
+關(guān)注
關(guān)注
1文章
376瀏覽量
1878
發(fā)布評論請先 登錄
相關(guān)推薦
ZT:創(chuàng)意是免費(fèi)的,但創(chuàng)意者是無價的
創(chuàng)意機(jī)器人的教程
電子元器件制作的創(chuàng)意小人
高端獵頭服務(wù)招聘創(chuàng)意總監(jiān)
電子元器件制作的創(chuàng)意小人
開發(fā)快創(chuàng)意方案賞析
機(jī)器人想法創(chuàng)意
創(chuàng)意USB設(shè)備介紹
機(jī)器人的創(chuàng)意設(shè)計與實踐
戛納國際創(chuàng)意節(jié)上谷歌展示AR廣告的潛力
千人峰會再起航!賦能新能源高質(zhì)量發(fā)展
11 月 9 日:Shutterstock 展示:創(chuàng)意人工智能
借助谷歌Gemini和Imagen模型生成高質(zhì)量圖像

京東零售廣告創(chuàng)意:引入場域目標(biāo)的創(chuàng)意圖片生成

評論