0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

軟件巨頭Salesforce帶來(lái)AutoML殺手TransmogrifAI

zhKF_jqr_AI ? 來(lái)源:未知 ? 作者:工程師曾玲 ? 2018-08-18 11:32 ? 次閱讀

如果說(shuō)去年“機(jī)器換人”的輿論來(lái)自車間的機(jī)器人手,那今年在全球范圍內(nèi)揮舞起“自動(dòng)化”大棒的,就成了機(jī)器學(xué)習(xí)。上月,李飛飛發(fā)布面向商業(yè)公司的機(jī)器學(xué)習(xí)庫(kù)AutoML,技術(shù)門檻之低,讓不少工程師擔(dān)憂不已。一波未平,8月月初,美國(guó)德州農(nóng)工大學(xué)開(kāi)源Auto Keras,同樣的功能,但是完全免費(fèi)。而今天,軟件巨頭Salesforce也入場(chǎng)了,他們帶來(lái)的TransmogrifAI,才可能是真正的AutoML“殺手”。

以下內(nèi)容來(lái)自Salesforce Einstein數(shù)據(jù)科學(xué)高級(jí)總監(jiān)Shubha Nabar:

在過(guò)去十年中,盡管機(jī)器學(xué)習(xí)取得了巨大進(jìn)步,但構(gòu)建可用的機(jī)器學(xué)習(xí)系統(tǒng)卻依然是件難事。三年前,當(dāng)我們著手把機(jī)器學(xué)習(xí)功能部署到Salesforce平臺(tái)時(shí),大家才發(fā)現(xiàn),原來(lái)構(gòu)建企業(yè)級(jí)機(jī)器學(xué)習(xí)系統(tǒng)更加困難。為了解決這個(gè)問(wèn)題,我們開(kāi)發(fā)了TransmogrifAI(發(fā)音為trans-mog-ri-phi)——一種用于處理結(jié)構(gòu)化數(shù)據(jù)的端到端自動(dòng)化機(jī)器學(xué)習(xí)庫(kù),它也是現(xiàn)在Einstein平臺(tái)優(yōu)化功能的一個(gè)工具。

今天,我們把這個(gè)項(xiàng)目分享給開(kāi)源社區(qū)。未來(lái),數(shù)據(jù)科學(xué)家和開(kāi)發(fā)人員可以用它快速大規(guī)模地構(gòu)建機(jī)器學(xué)習(xí)解決方案。

TransmogrifAI GitHub:github.com/salesforce/TransmogrifAI

當(dāng)數(shù)據(jù)科學(xué)家在為商業(yè)產(chǎn)品構(gòu)建機(jī)器學(xué)習(xí)功能時(shí),他們通常會(huì)關(guān)注易于理解的樣本和數(shù)據(jù)集。相比之下,企業(yè)擁有的數(shù)據(jù)和樣本是多樣化的,這種多樣性使構(gòu)建企業(yè)級(jí)機(jī)器學(xué)習(xí)系統(tǒng)成了一項(xiàng)挑戰(zhàn)。在Salesforce,我們的客戶可能希望預(yù)測(cè)一系列結(jié)果——從客戶流失、銷售預(yù)測(cè)、潛在用戶轉(zhuǎn)化,到數(shù)字廣告點(diǎn)擊、網(wǎng)購(gòu)、報(bào)價(jià)接受、設(shè)備故障和延遲付款等,

對(duì)于企業(yè)客戶來(lái)說(shuō),他們的數(shù)據(jù)是保密的、不可共享的,這兩點(diǎn)至關(guān)重要。這意味著我們必須針對(duì)客戶,用給定的數(shù)據(jù)樣本構(gòu)建機(jī)器學(xué)習(xí)模型。同時(shí),構(gòu)建全局模型絕對(duì)沒(méi)有意義,因?yàn)槊總€(gè)企業(yè)都獨(dú)立無(wú)二,他們有不同的商業(yè)模式,也有各自的經(jīng)營(yíng)規(guī)模和業(yè)務(wù)渠道,用機(jī)器學(xué)習(xí)的術(shù)語(yǔ)講,就是有不同的偏差。

為了讓機(jī)器學(xué)習(xí)真正為客戶服務(wù),我們要做的就是構(gòu)建和部署上千個(gè)用不同數(shù)據(jù)樣本訓(xùn)練得到的個(gè)性化機(jī)器學(xué)習(xí)模型!而如果不想聘請(qǐng)大批數(shù)據(jù)科學(xué)家,實(shí)現(xiàn)這一目標(biāo)的唯一方法就是自動(dòng)化。

TransmogrifAI工作流程

通常情況下,如果要構(gòu)建性能良好的機(jī)器學(xué)習(xí)模型,它需要的研究量和開(kāi)發(fā)量是相當(dāng)可觀的。數(shù)據(jù)準(zhǔn)備、特征工程、模型訓(xùn)練……這些繁瑣過(guò)程需要不斷迭代,為了得到成熟的模型,數(shù)據(jù)科學(xué)家們可能要耗費(fèi)數(shù)周乃至數(shù)月的時(shí)間。

TransmogrifAI是一個(gè)基于Scala和SparkML構(gòu)建的庫(kù),它能承擔(dān)這個(gè)過(guò)程中的部分工作。只需幾行代碼,數(shù)據(jù)科學(xué)家就可以自動(dòng)完成數(shù)據(jù)清理、特征工程和模型選擇,然后訓(xùn)練出一個(gè)高性能模型,進(jìn)行進(jìn)一步探索和迭代。

它封裝了機(jī)器學(xué)習(xí)過(guò)程的五個(gè)主要步驟:

特征推斷(Feature Inference)

數(shù)據(jù)是所有機(jī)器學(xué)習(xí)管道的第一步。數(shù)據(jù)科學(xué)家先收集所有相關(guān)數(shù)據(jù),再進(jìn)行整平操作,添加、聚合不同數(shù)據(jù)源,從中提取可能有助于預(yù)測(cè)的原始信號(hào)。這之后,提取得到的信號(hào)會(huì)被放進(jìn)靈活的數(shù)據(jù)結(jié)構(gòu)中,也就是DataFrame,方便后續(xù)操作。雖然這些數(shù)據(jù)結(jié)構(gòu)簡(jiǎn)單且易于操作,但其中還是存在一些錯(cuò)誤,可能會(huì)對(duì)下游造成影響,比如存在類型錯(cuò)誤和空值錯(cuò)誤。

TransmogrifAI可以幫助解決這類問(wèn)題。它允許用戶為其數(shù)據(jù)指定類型,自動(dòng)把原始預(yù)測(cè)變量和響應(yīng)信號(hào)提取為“特征”。除了原始類型,TransmogrifAI的支持面更豐富、更細(xì)化,地理位置、電話號(hào)碼、郵政編碼……凡是數(shù)據(jù)科學(xué)家可能頻繁遇到的,它都能進(jìn)行區(qū)分。

事實(shí)上,即便用戶沒(méi)有指定,TransmogrifAI也可以自行推斷。例如,當(dāng)它檢測(cè)到數(shù)據(jù)中的文本特征其實(shí)是分類特征時(shí),它會(huì)記錄這個(gè)錯(cuò)誤并進(jìn)行適當(dāng)處理。不用等到運(yùn)行時(shí)再報(bào)錯(cuò),數(shù)據(jù)科學(xué)家在編譯時(shí)就能找出大多數(shù)錯(cuò)誤。

自動(dòng)化特征工程(Transmogrification)

雖然找到正確的類型有助于數(shù)據(jù)推理和減少對(duì)下游的不良影響,但最終所有特征都是要被轉(zhuǎn)換成數(shù)字表示的。只有這樣,機(jī)器學(xué)習(xí)算法才能尋找并利用其中的規(guī)律。這個(gè)過(guò)程被稱為特征工程。

舉個(gè)例子,我們?cè)撛趺窗衙绹?guó)的各個(gè)州(如CA, NY, TX等)轉(zhuǎn)成數(shù)字?一種方法是把每個(gè)州映射為1到50之間的數(shù)字,因?yàn)槊绹?guó)一共有50個(gè)州。但這種編碼方法的缺點(diǎn)在于沒(méi)有保留州與州之間地理位置上的關(guān)系。那么如果我們計(jì)算州中心點(diǎn)到美國(guó)中心點(diǎn)的距離,并以此為編碼依據(jù)呢?這確實(shí)可以解決之前提到的問(wèn)題,但它同樣無(wú)法反映東西南北位置。

所以特征工程的方法有無(wú)數(shù)種,但是找出正確的一種十分不容易。

TransmogrifAI可以幫數(shù)據(jù)科學(xué)家自動(dòng)化這個(gè)惱人的過(guò)程。它為自己支持的所有特征類型提供了無(wú)數(shù)種編碼技術(shù),能做到不僅把數(shù)據(jù)轉(zhuǎn)成算法可用的格式,還能優(yōu)化轉(zhuǎn)換,使機(jī)器學(xué)習(xí)算法更容易從數(shù)據(jù)中學(xué)習(xí)。例如,同樣是年齡數(shù)字特征,它能根據(jù)特定問(wèn)題(時(shí)尚行業(yè)、金融理財(cái))把它們轉(zhuǎn)成最合適的年齡段。

盡管TransmogrifAI已經(jīng)具備了上述強(qiáng)大能力,但考慮到特征工程是一場(chǎng)無(wú)窮無(wú)盡的“博弈”,它也支持用戶自定義和擴(kuò)展默認(rèn)值。

自動(dòng)化特征驗(yàn)證(Feature Validation)

特征工程可能導(dǎo)致數(shù)據(jù)維度出現(xiàn)爆炸性增長(zhǎng),而高維數(shù)據(jù)往往會(huì)讓模型出現(xiàn)差錯(cuò)!其中最典型的是模型過(guò)擬合,另一個(gè)容易被忽視但影響巨大的問(wèn)題是數(shù)據(jù)泄露。

假設(shè)我們手頭有一個(gè)包含交易信息的數(shù)據(jù)集,任務(wù)是預(yù)測(cè)最終的交易金額,而數(shù)據(jù)集上一個(gè)條目叫“已結(jié)算交易金額”,這是完成交易后才能統(tǒng)計(jì)到的信息。如果我們不慎把這個(gè)信息也放進(jìn)訓(xùn)練集里,模型就會(huì)發(fā)現(xiàn)它的“可參考性”極強(qiáng),最后成為一個(gè)測(cè)試時(shí)精度極高,實(shí)踐時(shí)一無(wú)所用的廢品。

事實(shí)上,在Salesforce業(yè)務(wù)中,這種后見(jiàn)之明的偏見(jiàn)尤其成問(wèn)題,因?yàn)榇蟛糠挚蛻舻臄?shù)據(jù)很復(fù)雜,平時(shí)也是自動(dòng)填充的,這使得數(shù)據(jù)科學(xué)家很容易混淆因果關(guān)系。

TransgmogrifAI包含執(zhí)行自動(dòng)特征驗(yàn)證的算法,可以刪除幾乎沒(méi)有預(yù)測(cè)能力的特征——隨著時(shí)間的推移而使用的特征,表現(xiàn)出零方差的特征,或者在訓(xùn)練樣本中的分布與預(yù)測(cè)時(shí)的分布存在顯著不同的特征。在處理含有偏差的高維數(shù)據(jù)時(shí),這些算法會(huì)用一系列基于特征類型的統(tǒng)計(jì)測(cè)試,結(jié)合特征譜系來(lái)檢測(cè)和排除偏差。

自動(dòng)化模型選擇(Model Selection)

完成所有關(guān)于數(shù)據(jù)預(yù)處理的工作后,數(shù)據(jù)科學(xué)家就該把機(jī)器學(xué)習(xí)算法應(yīng)用于準(zhǔn)備好的數(shù)據(jù)以構(gòu)建預(yù)測(cè)模型。如果是手動(dòng)完成,他們往往需要嘗試許多不同的算法,并找到合適的參數(shù)設(shè)置。這是個(gè)耗時(shí)的工程。

TransmogrifAI的模型選擇器可以在數(shù)據(jù)上運(yùn)行多種算法,并比較它們的平均驗(yàn)證錯(cuò)誤,從中挑出最佳算法。除此之外,它還能通過(guò)適當(dāng)?shù)貙?duì)數(shù)據(jù)進(jìn)行采樣并重新校準(zhǔn)預(yù)測(cè)以匹配真實(shí)的先驗(yàn),自動(dòng)處理不平衡數(shù)據(jù)的問(wèn)題,進(jìn)一步提高模型性能。

超參數(shù)優(yōu)化(Hyperparameter Optimization)

上述自動(dòng)化步驟的基礎(chǔ)都涉及超參數(shù)優(yōu)化,它幾乎無(wú)處不在。而就是這么一個(gè)耗時(shí)久、任務(wù)量重、讓數(shù)據(jù)科學(xué)家望而生畏的操作,它背后的技術(shù)原理卻不難,可以直接看成一個(gè)高性能模型和一個(gè)隨機(jī)數(shù)生成器模型。這個(gè)任務(wù),TransmogrifAI可以代勞。、

賦予每個(gè)人使用ML技術(shù)的權(quán)利

總的來(lái)看,現(xiàn)在TransmogrifAI在Salesforce內(nèi)部已經(jīng)成功把訓(xùn)練模型所需的總時(shí)間從幾周、幾個(gè)月縮短到了幾個(gè)小時(shí)。而封裝所有這些復(fù)雜操作的代碼卻非常簡(jiǎn)單,只需短短幾行就能搞定:

// 讀取交易數(shù)據(jù)

val dealData = DataReaders.Simple.csvCase[Deal](path = pathToData).readDataset().toDF()

// 提取原始信號(hào),預(yù)測(cè)特征

val (isClosed, predictors) = FeatureBuilder.fromDataFrame[RealNN](dealData, response = "isClosed")

// 自動(dòng)化特征工程

val featureVector = predictors.transmogrify()

// 自動(dòng)化特征驗(yàn)證

val cleanFeatures = survived.sanityCheck(featureVector, removeBadFeatures = true)

// 自動(dòng)化模型選擇

val (pred, raw, prob) = BinaryClassificationModelSelector().setInput(isClosed, cleanFeatures).getOutput()

// 設(shè)置工作流程,訓(xùn)練模型

val model = newOpWorkflow().setInputDataset(dealData).setResultFeatures(pred).train()

這意味著TransmogrifAI已經(jīng)成為一個(gè)變革。

在我們眼里,這種自動(dòng)化水平的工具對(duì)開(kāi)發(fā)面向企業(yè)的機(jī)器學(xué)習(xí)系統(tǒng)至關(guān)重要,因此我們也相信,隨著機(jī)器學(xué)習(xí)在各行各業(yè)的應(yīng)用場(chǎng)景不斷拓寬,對(duì)運(yùn)營(yíng)方式產(chǎn)生巨大影響,未來(lái)企業(yè)對(duì)機(jī)器學(xué)習(xí)系統(tǒng)的需求會(huì)不斷增大,而那時(shí),TransmogrifAI這樣的自動(dòng)化機(jī)器學(xué)習(xí)庫(kù)可以幫助他們實(shí)現(xiàn)目標(biāo),實(shí)現(xiàn)轉(zhuǎn)變。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    31054

    瀏覽量

    269407
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    66

    文章

    8423

    瀏覽量

    132757

原文標(biāo)題:又一個(gè)AutoML庫(kù):Salesforce開(kāi)源TransmogrifAI

文章出處:【微信號(hào):jqr_AI,微信公眾號(hào):論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    Salesforce解決方案

    Skyvia 提供了許多工具來(lái)幫助 Salesforce 用戶處理許多不同的情況 ? Skyvia 可以通過(guò)提供與其他應(yīng)用程序集成的簡(jiǎn)單方法、安全的 Salesforce 備份、報(bào)告和分析輔助工具等
    的頭像 發(fā)表于 01-02 14:01 ?67次閱讀
    <b class='flag-5'>Salesforce</b>解決方案

    Salesforce第三季度業(yè)績(jī)穩(wěn)健增長(zhǎng)

    近日,云軟件巨頭Salesforce發(fā)布了其第三季度財(cái)務(wù)報(bào)告,數(shù)據(jù)顯示公司業(yè)績(jī)穩(wěn)健增長(zhǎng)。 在第三季度,Salesforce實(shí)現(xiàn)了94.4億美元的營(yíng)收,同比增長(zhǎng)8.3%,略高于市場(chǎng)預(yù)期的93.5億美元
    的頭像 發(fā)表于 12-05 11:14 ?293次閱讀

    SensiML開(kāi)源了Analytics Studio AutoML引擎

    我們很高興地宣布,我們的AutoML服務(wù)器應(yīng)用程序Analytics Studio將很快在開(kāi)源許可下提供。我們還將推出一個(gè)新的開(kāi)源項(xiàng)目網(wǎng)站,以聯(lián)合一個(gè)致力于為 tinyML 模型開(kāi)發(fā)創(chuàng)建全面的、與硬件無(wú)關(guān)的解決方案的開(kāi)發(fā)人員社區(qū)。此次發(fā)布計(jì)劃于初夏進(jìn)行,我們正準(zhǔn)備在您的支持下取得成功。
    的頭像 發(fā)表于 11-06 09:36 ?363次閱讀
    SensiML開(kāi)源了Analytics Studio <b class='flag-5'>AutoML</b>引擎

    甲骨文攜手Rai Way,強(qiáng)化AI應(yīng)用與數(shù)據(jù)安全

    近日,全球領(lǐng)先的軟件巨頭甲骨文與意大利基礎(chǔ)設(shè)施服務(wù)提供商Rai Way宣布達(dá)成重要合作。雙方將攜手在Rai Way分布廣泛的數(shù)據(jù)中心部署甲骨文的人工智能應(yīng)用系統(tǒng),為企業(yè)客戶帶來(lái)前所未有的服務(wù)體驗(yàn)與安全保障。
    的頭像 發(fā)表于 07-27 17:19 ?2194次閱讀

    SensiML開(kāi)源AutoML解決方案-Piccolo AI發(fā)布

    SensiML強(qiáng)大的Analytics Studio軟件開(kāi)發(fā)工具的開(kāi)源版本-Piccolo AI發(fā)布了!Piccolo AI遵循AGPL許可,面向個(gè)人開(kāi)發(fā)者、研究人員和AI愛(ài)好者,旨在將AutoML
    的頭像 發(fā)表于 07-22 16:53 ?782次閱讀

    甲骨文在AI革命中逆襲成功

    在人工智能革命的浪潮中,甲骨文公司意外地取得了顯著的成功。這家由拉里·埃里森創(chuàng)立的軟件巨頭,其訂閱云產(chǎn)品已被OpenAI等公司選定為構(gòu)建大語(yǔ)言模型的支柱。
    的頭像 發(fā)表于 06-17 17:14 ?648次閱讀

    軟件巨頭SAP宣布收購(gòu)WalkMe

    近日,全球知名的德國(guó)企業(yè)軟件公司SAP SE宣布了一項(xiàng)重大收購(gòu)計(jì)劃,以15億美元的價(jià)格全資收購(gòu)數(shù)據(jù)分析服務(wù)商WalkMe。此次交易以每股14美元的價(jià)格進(jìn)行,較WalkMe周二的收盤(pán)價(jià)溢價(jià)高達(dá)45%,顯示了SAP對(duì)WalkMe的高度認(rèn)可與信心。
    的頭像 發(fā)表于 06-06 10:36 ?763次閱讀

    Snowflake洽談收購(gòu)Reka AI,進(jìn)軍生成式AI領(lǐng)域

    軟件巨頭Snowflake近日傳出消息,正在與初創(chuàng)公司Reka AI洽談收購(gòu)事宜,預(yù)計(jì)收購(gòu)金額將超過(guò)10億美元。此舉標(biāo)志著Snowflake正積極布局生成式AI服務(wù)領(lǐng)域,以擴(kuò)大其技術(shù)影響力與市場(chǎng)份額。
    的頭像 發(fā)表于 05-20 09:29 ?671次閱讀

    MathWorks與NVIDIA攜手革新醫(yī)療技術(shù)工作流

    在醫(yī)療科技領(lǐng)域,軟件定義工作流正迎來(lái)新的突破。全球知名的數(shù)學(xué)計(jì)算軟件巨頭MathWorks與圖形處理器領(lǐng)導(dǎo)者NVIDIA近日宣布達(dá)成深度合作,將MATLAB?軟件成功集成至NVIDIA的Holoscan平臺(tái)。
    的頭像 發(fā)表于 05-11 10:17 ?384次閱讀

    施耐德電氣欲收購(gòu)美國(guó)軟件巨頭Bentley Systems

    近日,施耐德電氣(SBGSF.US)官方發(fā)布聲明,證實(shí)公司正在與知名的工程軟件公司Bentley Systems(BSY.US)展開(kāi)談判。此消息一經(jīng)傳出,立刻引起了市場(chǎng)及投資者的廣泛關(guān)注。
    的頭像 發(fā)表于 04-20 14:57 ?1365次閱讀

    IBM將在營(yíng)銷部門裁員 裁員潮似乎沒(méi)有退潮跡象

    ·克里希納(Arvind Krishna)曾表示將使用人工智能取代近8000個(gè)工作崗位。 包括亞馬遜、谷歌等巨頭都有實(shí)施裁員,此外在2024年我們還看到有很多的科技巨頭裁員,比如美國(guó)云計(jì)算軟件巨頭
    的頭像 發(fā)表于 03-13 14:19 ?677次閱讀

    新思科技:預(yù)計(jì)第二財(cái)季營(yíng)收利潤(rùn)雙雙超出華爾街預(yù)期

    近期,新思科技宣布將花費(fèi)現(xiàn)金和股票共350億美元收購(gòu)CAE工業(yè)軟件巨頭Ansys。首席執(zhí)行官Sassine Ghazi表示已開(kāi)始進(jìn)行審批申請(qǐng),并表示至今“未遇阻礙”。
    的頭像 發(fā)表于 02-22 11:16 ?555次閱讀

    德國(guó)工業(yè)軟件巨頭SAP宣布重組計(jì)劃

    德國(guó)工業(yè)軟件巨頭SAP近日宣布了一項(xiàng)2024年20億歐元(約21.7億美元)的重組計(jì)劃,該計(jì)劃將對(duì)8,000名員工產(chǎn)生影響,旨在為人工智能時(shí)代重新調(diào)整團(tuán)隊(duì)和運(yùn)營(yíng)。
    的頭像 發(fā)表于 01-25 17:27 ?1024次閱讀

    德國(guó)企業(yè)軟件巨頭SAP宣布裁員8000人

    德國(guó)企業(yè)軟件巨頭SAP公布了重組計(jì)劃;其中就包括裁減約8000名員工。目前SAP有大約10.8萬(wàn)名全職員工,此次重組將影響到7%的員工。 同時(shí)計(jì)劃在2024年SAP將“進(jìn)一步加大對(duì)關(guān)鍵戰(zhàn)略增長(zhǎng)領(lǐng)域
    的頭像 發(fā)表于 01-24 14:14 ?1.3w次閱讀

    四家國(guó)際光學(xué)巨頭掀起收購(gòu)潮

    來(lái)源:光電匯OESHOW,謝謝 編輯:感知芯視界 萬(wàn)仞 2024年初,光子領(lǐng)域?qū)<揖婀饪萍肌⒐鈱W(xué)軟件巨頭新思科技、AMS Technologies、大型跨國(guó)集團(tuán)公司牛津儀器,這四家國(guó)際光學(xué)巨頭強(qiáng)勢(shì)
    的頭像 發(fā)表于 01-18 09:36 ?678次閱讀