0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

使用Transformers的企業(yè)數(shù)據(jù)挑戰(zhàn)解決方案

星星科技指導(dǎo)員 ? 來源:NVIDIA ? 作者:NVIDIA ? 2022-05-16 09:29 ? 次閱讀

大數(shù)據(jù)、新算法和快速計算是使現(xiàn)代 AI 革命成為可能的三個主要因素。然而,數(shù)據(jù)給企業(yè)帶來了許多挑戰(zhàn):數(shù)據(jù)標(biāo)記困難、數(shù)據(jù)治理效率低下、數(shù)據(jù)可用性有限、數(shù)據(jù)隱私等。

綜合生成的數(shù)據(jù)是解決這些挑戰(zhàn)的潛在解決方案,因為它通過從模型中采樣來生成數(shù)據(jù)點(diǎn)。連續(xù)采樣可以生成無限多的數(shù)據(jù)點(diǎn),包括標(biāo)簽。這允許跨團(tuán)隊或外部共享數(shù)據(jù)。

生成合成數(shù)據(jù)還可以在不影響質(zhì)量或真實性的情況下提供一定程度的數(shù)據(jù)隱私。成功的合成數(shù)據(jù)生成涉及在保持隱私的同時捕獲分布,并有條件地生成新數(shù)據(jù),然后這些數(shù)據(jù)可用于建立更穩(wěn)健的模型或用于時間序列預(yù)測。

在這篇文章中,我們以 NVIDIA NeMo 為例,解釋如何用 transformer 模型人工生成合成數(shù)據(jù)。我們解釋了如何在 machine learning 算法中使用合成生成的數(shù)據(jù)作為真實數(shù)據(jù)的有效替代品,以保護(hù)用戶隱私,同時做出準(zhǔn)確的預(yù)測。

變壓器:更好的合成數(shù)據(jù)發(fā)生器

Deep learning 生成模型自然適合對復(fù)雜的現(xiàn)實世界數(shù)據(jù)建模。兩種流行的生成模型在過去取得了一些成功:可變自動編碼器( VAE )和生成對抗網(wǎng)絡(luò)( GAN )。

然而,合成數(shù)據(jù)生成的 VAE 和 GAN 模型存在已知問題:

GAN 模型中的 模式崩潰問題 會導(dǎo)致生成的數(shù)據(jù)錯過訓(xùn)練數(shù)據(jù)分布中的某些模式。

由于非自回歸損失, VAE 模型難以生成尖銳的數(shù)據(jù)點(diǎn)。

Transformer Models 最近在自然語言處理( NLP )領(lǐng)域取得了巨大的成功。 transformer 模型的自我注意編碼和解碼架構(gòu)已被證明在建模數(shù)據(jù)分布方面是準(zhǔn)確的,并且可擴(kuò)展到更大的數(shù)據(jù)集。例如, NVIDIA Megatron-Turing NLG 模型使用 530B 參數(shù)獲得了優(yōu)異的結(jié)果。

GPT

OpenAI’s GPT3 使用 transformer 模型的解碼器部分,具有 175B 參數(shù)。 GPT3 已廣泛應(yīng)用于多個行業(yè)和領(lǐng)域,從生產(chǎn)力和教育到創(chuàng)意和游戲。

GPT 模型被證明是一種優(yōu)越的生成模型。如你所知,任何聯(lián)合概率分布都可以根據(jù) 概率鏈規(guī)則 分解成一系列條件概率分布的乘積。 GPT 自回歸損失直接模擬圖 1 所示的數(shù)據(jù)聯(lián)合概率分布。

pYYBAGKBqOSALrmNAACWRyhquH0232.png

圖 1 GPT 模型訓(xùn)練

在圖 1 中, GPT 模型訓(xùn)練使用自回歸損失。它與概率鏈規(guī)則有一對一的映射。 GPT 直接建模數(shù)據(jù)的聯(lián)合概率分布。

由于表格數(shù)據(jù)由不同類型的數(shù)據(jù)(如行或列)組成, GPT 可以理解跨多個表格行和列的聯(lián)合數(shù)據(jù)分布,并生成合成數(shù)據(jù),就好像它是 NLP 文本數(shù)據(jù)一樣。我們的 experiments 表明, GPT 模型確實可以生成更高質(zhì)量的表格合成數(shù)據(jù)。

更高質(zhì)量的表格數(shù)據(jù)標(biāo)記器

盡管 GPT 具有優(yōu)越性,但使用 GPT 對表格數(shù)據(jù)建模仍存在許多挑戰(zhàn): GPT 模型的數(shù)據(jù)輸入是令牌 ID 序列。對于 NLP 數(shù)據(jù)集,可以使用 byte-pair encoding ( BPE )標(biāo)記器將文本數(shù)據(jù)轉(zhuǎn)換為標(biāo)記 ID 序列。

對于表格數(shù)據(jù)集,使用通用 GPT BPE 標(biāo)記器 是很自然的;然而,這種方法存在一些問題。

首先,當(dāng) GPT BPE 標(biāo)記器將表格數(shù)據(jù)拆分為標(biāo)記時,同一列不同行的標(biāo)記數(shù)通常不是固定的,因為標(biāo)記數(shù)是由單個子項的出現(xiàn)頻率決定的。這意味著,如果使用普通 NLP 標(biāo)記器,表中的列信息將丟失。

NLP 標(biāo)記器的另一個問題是,列中的長字符串將由大量標(biāo)記組成??紤]到 GPT 對令牌序列建模的能力有限,這是一種浪費(fèi)。例如,商戶名稱 三井工程造船公司 需要 7 個令牌來使用 BPE 令牌化器對其進(jìn)行編碼([448969019424122216656168941766])。

正如 TabFormer paper 中所討論的,一個可行的解決方案是為考慮表的結(jié)構(gòu)信息的表格數(shù)據(jù)構(gòu)建一個專門的標(biāo)記器。 TabFormer 標(biāo)記化器為每列使用一個標(biāo)記,如果該列的標(biāo)記數(shù)較小,則可能導(dǎo)致精度損失,如果標(biāo)記數(shù)過大,則可能導(dǎo)致泛化能力較弱。

我們通過使用多個標(biāo)記對列進(jìn)行編碼來改進(jìn)它。

poYBAGKBqOaADEuKAABMrQlhRR4977.png

圖 2 將浮點(diǎn)數(shù)轉(zhuǎn)換為令牌 ID 序列

圖 2 顯示了將浮點(diǎn)數(shù)轉(zhuǎn)換為令牌 ID 序列的步驟。首先,我們可逆地將浮點(diǎn)數(shù)轉(zhuǎn)換為正整數(shù)。然后,它被轉(zhuǎn)換成一個具有位置基 B 的數(shù)字,其中 B 是一個超參數(shù)。基 B 號越大,表示該數(shù)字所需的令牌就越少。

然而,更大的基數(shù) B 犧牲了新數(shù)字的通用性。在最后一步中,數(shù)字被映射到唯一的令牌 ID 。要將令牌 ID 轉(zhuǎn)換為浮點(diǎn)數(shù),請按相反順序運(yùn)行以下步驟。然后,浮點(diǎn)數(shù)解碼精度由令牌的數(shù)量和位置基的選擇決定 B 。

基于 NeMo 框架的伸縮模型訓(xùn)練

NeMo 是用于培訓(xùn) 對話人工智能 模型的框架。在 NeMo 存儲庫內(nèi)的 released code 中,我們的表格數(shù)據(jù)標(biāo)記器支持整數(shù)和分類數(shù)據(jù),處理 NaN 值,并支持不同的標(biāo)量轉(zhuǎn)換以最小化數(shù)字之間的差異。有關(guān)更多信息,請參閱我們的 源代碼實現(xiàn) 。

您可以使用特殊的表格數(shù)據(jù)標(biāo)記器來訓(xùn)練任何大小的表格合成數(shù)據(jù)生成 GPT 模型。由于內(nèi)存限制,大型模型可能難以訓(xùn)練。 NeMo megatron 是一個用于在 NeMo 中訓(xùn)練大型語言模型的工具包,并提供 張量模型并行和管道模型并行 和 張量模型并行和管道模型并行 。

這使得 transformer 模型的訓(xùn)練具有數(shù)十億個參數(shù)。除了模型并行性之外,您還可以在培訓(xùn)期間應(yīng)用數(shù)據(jù)并行性,以充分利用集群中的所有 GPU 。根據(jù) OpenAI 的 自然語言的尺度律 和 深度學(xué)習(xí)模型的過度參數(shù)化理論 ,考慮到訓(xùn)練數(shù)據(jù)的大小,建議訓(xùn)練大型模型以獲得合理的驗證損失。

將 GPT 模型應(yīng)用于實際應(yīng)用

在我們最近的 GTC 談話 ,我們表明,經(jīng)過訓(xùn)練的大型 GPT 模型可以生成高質(zhì)量的合成數(shù)據(jù)。如果我們繼續(xù)對經(jīng)過訓(xùn)練的表格 GPT 模型進(jìn)行采樣,它可以產(chǎn)生無限多個數(shù)據(jù)點(diǎn),這些數(shù)據(jù)點(diǎn)都像原始數(shù)據(jù)一樣遵循聯(lián)合分布。生成的合成數(shù)據(jù)提供了與原始數(shù)據(jù)相同的分析見解,但沒有透露個人的私人信息。這使得安全的數(shù)據(jù)共享成為可能。

此外,如果您根據(jù)過去的數(shù)據(jù)對生成模型進(jìn)行調(diào)整,以生成未來的合成數(shù)據(jù),那么該模型實際上是在預(yù)測未來。這對金融服務(wù)行業(yè)中處理金融時間序列數(shù)據(jù)的客戶很有吸引力。 與 Cohen & Steers 合作 ,我們實施了一個表格 GPT 模型,以預(yù)測經(jīng)濟(jì)和市場指標(biāo),包括通貨膨脹、波動性和股票市場,并獲得高質(zhì)量的結(jié)果。

彭博社在 2022 年 GTC 上介紹了他們?nèi)绾螒?yīng)用我們提出的合成數(shù)據(jù)方法來分析信用卡交易數(shù)據(jù)的模式,同時保護(hù)用戶數(shù)據(jù)隱私。

運(yùn)用你的知識

在本文中,我們介紹了使用 NeMo 生成合成表格數(shù)據(jù)的想法,并展示了如何將其用于解決實際問題。

關(guān)于作者

Yi Dong 是 NVIDIA 的深度學(xué)習(xí)解決方案架構(gòu)師,負(fù)責(zé)提供金融服務(wù)業(yè)人工智能解決方案。易建聯(lián)獲得了博士學(xué)位。來自約翰·霍普金斯大學(xué)醫(yī)學(xué)院,研究計算神經(jīng)科學(xué)。易在計算機(jī)軟件工程、機(jī)器學(xué)習(xí)和金融領(lǐng)域擁有 10 年的工作經(jīng)驗。易建聯(lián)喜歡閱讀深度學(xué)習(xí)的最新進(jìn)展,并將其應(yīng)用于解決財務(wù)問題。

Emanuel Scoullos 是 NVIDIA 金融服務(wù)和技術(shù)團(tuán)隊的數(shù)據(jù)科學(xué)家,他專注于 FSI 內(nèi)的 GPU 應(yīng)用。此前,他在反洗錢領(lǐng)域的一家初創(chuàng)公司擔(dān)任數(shù)據(jù)科學(xué)家,應(yīng)用數(shù)據(jù)科學(xué)、分析和工程技術(shù)構(gòu)建機(jī)器學(xué)習(xí)管道。他獲得了博士學(xué)位。普林斯頓大學(xué)化學(xué)工程碩士和羅格斯大學(xué)化學(xué)工程學(xué)士學(xué)位。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5063

    瀏覽量

    103442
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    4764

    瀏覽量

    129172
  • 人工智能
    +關(guān)注

    關(guān)注

    1793

    文章

    47539

    瀏覽量

    239387
收藏 人收藏

    評論

    相關(guān)推薦

    企業(yè)AI解決方案包括哪些內(nèi)容

    企業(yè)AI解決方案是一種集成了人工智能技術(shù)的綜合性方案,旨在提高企業(yè)運(yùn)營效率、降低成本、優(yōu)化業(yè)務(wù)流程,并提升企業(yè)的整體競爭力。那么,
    的頭像 發(fā)表于 01-10 10:15 ?87次閱讀

    戴爾數(shù)據(jù)湖倉助力企業(yè)數(shù)字化轉(zhuǎn)型

    在數(shù)字化轉(zhuǎn)型的浪潮下,企業(yè)正面臨著前所未有的數(shù)據(jù)挑戰(zhàn)。從傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)到如今的非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)
    的頭像 發(fā)表于 12-20 09:31 ?152次閱讀

    解決方案】Acrel-7000企業(yè)能源管控平臺

    解決方案】Acrel-7000企業(yè)能源管控平臺
    的頭像 發(fā)表于 11-20 01:01 ?252次閱讀
    【<b class='flag-5'>解決方案</b>】Acrel-7000<b class='flag-5'>企業(yè)</b>能源管控平臺

    PLC數(shù)據(jù)采集解決方案

    問題,這些問題限制了企業(yè)生產(chǎn)力的提升和管理效能的增強(qiáng)。因此,打造一套高效率、高可靠性的PLC數(shù)據(jù)采集解決方案顯得尤為關(guān)鍵。 二、解決方案概述 針對工業(yè)生產(chǎn)中的數(shù)據(jù)采集需求,我們提出一套
    的頭像 發(fā)表于 10-31 15:58 ?285次閱讀
    PLC<b class='flag-5'>數(shù)據(jù)采集解決方案</b>

    PLM制造業(yè)解決方案:應(yīng)對挑戰(zhàn),提升效率與競爭力

    在當(dāng)今競爭激烈的制造業(yè)環(huán)境中,企業(yè)面臨著多重挑戰(zhàn),包括信息不對稱、成本控制困難、創(chuàng)新能力不足、供應(yīng)鏈管理薄弱等問題。為了應(yīng)對這些挑戰(zhàn),制造業(yè)企業(yè)紛紛尋求有效的
    的頭像 發(fā)表于 10-25 14:50 ?472次閱讀
    PLM制造業(yè)<b class='flag-5'>解決方案</b>:應(yīng)對<b class='flag-5'>挑戰(zhàn)</b>,提升效率與競爭力

    邊緣計算的技術(shù)挑戰(zhàn)解決方案

    邊緣計算作為一種新型的計算架構(gòu),在帶來諸多優(yōu)勢的同時,也面臨著一些技術(shù)挑戰(zhàn)。以下是對邊緣計算的技術(shù)挑戰(zhàn)及相應(yīng)解決方案的分析: 一、技術(shù)挑戰(zhàn) 資源受限 邊緣設(shè)備通常具有有限的計算和存儲資
    的頭像 發(fā)表于 10-24 14:36 ?642次閱讀

    HTTP海外安全挑戰(zhàn)解決方案:保護(hù)跨國數(shù)據(jù)傳輸

    HTTP海外安全挑戰(zhàn)解決方案是保護(hù)跨國數(shù)據(jù)傳輸安全的重要議題。
    的頭像 發(fā)表于 10-15 08:08 ?273次閱讀

    MCT8316A-設(shè)計挑戰(zhàn)和解決方案應(yīng)用說明

    電子發(fā)燒友網(wǎng)站提供《MCT8316A-設(shè)計挑戰(zhàn)和解決方案應(yīng)用說明.pdf》資料免費(fèi)下載
    發(fā)表于 09-13 09:52 ?0次下載
    MCT8316A-設(shè)計<b class='flag-5'>挑戰(zhàn)和解決方案</b>應(yīng)用說明

    MCF8316A-設(shè)計挑戰(zhàn)和解決方案應(yīng)用說明

    電子發(fā)燒友網(wǎng)站提供《MCF8316A-設(shè)計挑戰(zhàn)和解決方案應(yīng)用說明.pdf》資料免費(fèi)下載
    發(fā)表于 09-13 09:51 ?1次下載
    MCF8316A-設(shè)計<b class='flag-5'>挑戰(zhàn)和解決方案</b>應(yīng)用說明

    關(guān)于企業(yè)數(shù)據(jù)防泄密解決方案

    防止企業(yè)數(shù)據(jù)泄密不僅是企業(yè)財產(chǎn)安全、聲譽(yù)安全、客戶資料安全,更是企業(yè)信息安全發(fā)展未來的一個關(guān)鍵。企業(yè)可以采用以下幾種方法來解決
    的頭像 發(fā)表于 05-20 10:35 ?500次閱讀

    深圳比創(chuàng)達(dá)電子|EMI一站式解決方案:提升企業(yè)電磁兼容性的路徑.

    深圳比創(chuàng)達(dá)電子|EMI一站式解決方案:提升企業(yè)電磁兼容性的路徑隨著電子技術(shù)的快速發(fā)展,電磁干擾(EMI)問題日益凸顯,對電子設(shè)備的正常運(yùn)行和性能穩(wěn)定造成了嚴(yán)重影響。為了有效應(yīng)對這一挑戰(zhàn),EMI一站式
    發(fā)表于 05-08 11:51

    境外社交數(shù)據(jù)采集遇到的問題及云手機(jī)解決方案

    在數(shù)字化時代,境外社交數(shù)據(jù)成為企業(yè)決策和市場洞察的重要依據(jù)。然而,境外社交數(shù)據(jù)采集面臨諸多穩(wěn)定性問題,如部分網(wǎng)站對特定國家/地區(qū)IP的限制、IP封鎖、云節(jié)點(diǎn)停采等。為了應(yīng)對這些挑戰(zhàn),云
    的頭像 發(fā)表于 03-05 16:46 ?840次閱讀

    分布式智慧終端:挑戰(zhàn)解決方案

    分布式智慧終端在應(yīng)用中面臨多種挑戰(zhàn),以下是其中一些關(guān)鍵的挑戰(zhàn)以及可能的解決方案數(shù)據(jù)一致性挑戰(zhàn) :在分布式系統(tǒng)中,
    的頭像 發(fā)表于 01-24 14:50 ?467次閱讀

    DC電源模塊在醫(yī)療設(shè)備中的應(yīng)用挑戰(zhàn)解決方案

    BOSHIDA DC電源模塊在醫(yī)療設(shè)備中的應(yīng)用挑戰(zhàn)解決方案 醫(yī)療設(shè)備對電源模塊的要求相對較高,因此在應(yīng)用中可能會面臨一些挑戰(zhàn)。以下是一些可能的挑戰(zhàn)以及
    的頭像 發(fā)表于 01-24 14:26 ?459次閱讀
    DC電源模塊在醫(yī)療設(shè)備中的應(yīng)用<b class='flag-5'>挑戰(zhàn)</b>與<b class='flag-5'>解決方案</b>

    Transformers的功能概述

    近年來,我們聽說了很多關(guān)于Transformers的事情,并且在過去的幾年里,它們已經(jīng)在NLP領(lǐng)域取得了巨大成功。Transformers是一種使用注意力機(jī)制(Attention)顯著改進(jìn)深度學(xué)習(xí)
    的頭像 發(fā)表于 01-23 10:15 ?763次閱讀
    <b class='flag-5'>Transformers</b>的功能概述