阿里巴巴將于12月開源其內部深度學習框架 X-DeepLearning,面向廣告、推薦、搜索等高維稀疏數據場景,以填補TensorFlow、PyTorch等現(xiàn)有開源深度學習框架主要面向圖像、語音等低維稠密數據的不足。
阿里巴巴內部透露將開源內部深度學習框架 X-DeepLearning的計劃,這是業(yè)界首個面向廣告、推薦、搜索等高維稀疏數據場景的深度學習開源框架,可以與TensorFlow、PyTorch 和 MXNet 等現(xiàn)有框架形成互補。
X-Deep Learning(下文簡稱XDL)由阿里巴巴旗下大數據營銷平臺阿里媽媽基于自身廣告業(yè)務自主研發(fā),已經大規(guī)模部署應用在核心生產場景,在這次的“雙11”中也發(fā)揮了重要作用。
阿里媽媽研究人員介紹,XDL整體上跟TensorFlow和PyTorch是同級的,它們很好地解決了目前已有開源深度學習框架分布式運行能力不足,以及大規(guī)模稀疏特征表征學習能力不足的問題。
XDL 采用了“橋接”的架構設計理念。這種架構使得 XDL 跟業(yè)界的開源社區(qū)無縫對接。例如,用戶可以非常方便地在XDL框架上應用基于TensorFlow或者PyTorch編寫的最先進開源深度學習算法。此外,對于已經在使用其他開源框架的企業(yè)或者個人用戶,也可以在原有系統(tǒng)基礎上輕松進行擴展,享受XDL帶來的高維稀疏數據場景下極致的分布式能力。
數據的高維稀疏性是廣告、推薦、搜索等互聯(lián)網眾多核心應用場景的特征,覆蓋了大多數互聯(lián)網企業(yè)的數據應用模式。
對于難以與BAT研發(fā)能力比肩的眾多互聯(lián)網公司而言,工業(yè)級深度學習框架XDL及內置算法方案的開源,將助力各大公司的技術升級,大大提升廣告/推薦/搜索場景的精準性,縮短技術迭代周期。
面向廣告、推薦、搜索場景的工業(yè)級分布式開源DL框架
2016年左右,阿里媽媽團隊在研發(fā)基于深度學習的廣告點擊率預估算法時發(fā)現(xiàn),當時已有的TensorFlow、MXNet等開源框架,用來實驗算法原型可以,但真正面臨互聯(lián)網尺度的規(guī)模化數據時,運行效率面臨巨大的挑戰(zhàn)。
“我們第一次基于TensorFlow訓練我們實際生產系統(tǒng)的深度點擊率預估模型時,一天的數據量需要運行超過3天的時間模型才能收斂,”阿里媽媽研發(fā)人員告訴新智元:“典型的生產模型需要用到的訓練樣本往往都是歷史幾個月的數據,顯然直接使用TensorFlow是不現(xiàn)實的?!?/p>
隨后,阿里媽媽團隊也試圖對TensorFlow做一些簡單優(yōu)化,但發(fā)現(xiàn)改動成本巨大。進一步剖析框架后,他們發(fā)現(xiàn)本質的原因是TensorFlow、MXNet、PyTorch等框架大都是面向圖像、語音等領域的稠密數據設計,對廣告、推薦等場景的高維稀疏數據上的深度學習計算考慮不足。
為此,阿里媽媽啟動了XDL框架的研發(fā),希望能夠在復用已有開源框架對稠密數據的計算能力基礎上,重點打造面向工業(yè)級應用的分布式規(guī)模能力,單機能夠處理的計算則引用現(xiàn)有開源框架。
經過2年的研發(fā)與打磨,XDL目前已經在阿里媽媽成功部署到內部的生產系統(tǒng)。以阿里媽媽定向廣告為例,2017年,以 XDL 為基礎的深度學習算法升級帶來的廣告收入提升超過百億。
“我們注意到今天業(yè)界的很多團隊還在類似的重復性工作。開源XDL,是希望把阿里巴巴的能力賦能給大家,推高全行業(yè)的整體技術水位,同時也希望能夠吸引業(yè)界的伙伴們一起來建設高維稀疏數據場景上的深度學習技術,一起成長與獲益。 ”
“在現(xiàn)有的版本中,我們在單節(jié)點稠密深度網絡計算上采用橋接技術,復用了 TensorFlow、MxNet 的能力,也是最大程度上復用了已有開源深度學習框架的能力?!?/p>
研究人員表示,后續(xù) XDL 也會考慮加入ONNX。“ONNX針對稀疏計算的表征能力目前是不完善的,我們也在考慮對ONNX的協(xié)議標準進行擴充。”
研究人員表示,他們預計12月在Github公開 XDL的源代碼和使用文檔。除了核心的X-DeepLearning訓練框架,阿里還將開源面向高維稀疏數據場景的系統(tǒng)化解決方案,計劃分批次對外發(fā)布,包括面向在線實時服務的高性能深度學習預估引擎、面向全庫實時檢索的全新深度學習匹配引擎;同時還內置阿里媽媽自主研發(fā)的一系列創(chuàng)新算法,涉及CTR預估模型、CVR預估模型、匹配召回模型、模型壓縮訓練算法等等。
不管是以廣告、推薦、搜索為代表業(yè)務的企業(yè)級用戶,還是對此感興趣的個人用戶,都可以加入到開源計劃當中。
一圖看懂阿里巴巴首次公開深度學習框架
-
阿里巴巴
+關注
關注
7文章
1617瀏覽量
47305 -
大數據
+關注
關注
64文章
8897瀏覽量
137526 -
深度學習
+關注
關注
73文章
5507瀏覽量
121291
原文標題:阿里深度學習框架開源了!無縫對接TensorFlow、PyTorch
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論