0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

一種有效的無監(jiān)督深度表示器(Mix2Vec)

深蘭科技 ? 來源:DeepBlue深蘭科技 ? 作者:DeepBlue深蘭科技 ? 2022-03-24 17:22 ? 次閱讀

摘要

本文由深蘭科學院撰寫,文章將為大家細致講解一種有效的無監(jiān)督深度表示器(Mix2Vec),該方法可將異構數(shù)據(jù)映射到統(tǒng)一的低維向量空間,避免混合異構數(shù)據(jù)相似度度量偏差問題。同時,該方法基于深度異構信息網(wǎng)絡,采用隨機混洗預測學習機制,并融合先驗分布匹配和結構信息最大化學習目標,學習混合異構的基于向量空間的通用表示,可以用于無監(jiān)督和有監(jiān)督的學習任務。

隨著機器學習的發(fā)展和廣泛應用,(無監(jiān)督或有監(jiān)督)表示學習被應用于處理復雜(高維、異構等)特征數(shù)據(jù)。通過將復雜特征數(shù)據(jù)映射到統(tǒng)一空間,可以有效避免復雜數(shù)據(jù)中的差異性,并提供方便有效的數(shù)據(jù)統(tǒng)一處理(例如:距離度量)。

01問題

混合異構數(shù)據(jù)中的挑戰(zhàn)

現(xiàn)實生活中的大量數(shù)據(jù)都混合了數(shù)值型和類別型屬性,這些數(shù)據(jù)往往表現(xiàn)出以下一些典型特征:(1)數(shù)據(jù)中一些屬性是靜態(tài)的,而另一些是動態(tài)的;(2)某些屬性經常存在缺失值,且不同數(shù)據(jù)的缺失值的稀疏程度不同;(3)數(shù)據(jù)中可能是異構的,不同的屬性可能具有不同的分布和結構;(4)實際數(shù)據(jù)往往沒有足夠的可用標記信息并且標記此類數(shù)據(jù)成本太高,或者標簽信息(例如:路徑和規(guī)劃)很難用以模型訓練。這些數(shù)據(jù)特征在企業(yè)、制造、商業(yè)和醫(yī)療保健等典型應用的數(shù)據(jù)中很常見。圖1源自于構造的數(shù)據(jù),舉例展示了混合異構數(shù)據(jù)中的上述特征。

一種有效的無監(jiān)督深度表示器(Mix2Vec)

圖1 現(xiàn)實生活中混合數(shù)據(jù)的特征:動態(tài)性、稀疏性、異質性

混合數(shù)據(jù)表示學習主要的挑戰(zhàn)是來自多個方面。首先,很難在一個表示模型中處理上述所有特征和學習目標。因為上述每一種數(shù)據(jù)特征、每一個學習目標在實際中都非常具有挑戰(zhàn)性,并且將他們組合在一起會使學習系統(tǒng)非常復雜。因此,現(xiàn)有方法要么將混合數(shù)據(jù)類型轉換為一種類型,要么對于每種數(shù)據(jù)類型分別學習其向量表示,然后所學的各種類型數(shù)據(jù)的表示合并作為混合數(shù)據(jù)的表示。

此外,混合數(shù)據(jù)可能是靜態(tài)的,也可能是動態(tài)的,并且在結構和分布上呈現(xiàn)出明顯的異質性,表示學習在保留原始信息的同時捕獲這樣的異質性是非常具有挑戰(zhàn)性?,F(xiàn)有方法通常側重于單獨的解決某一個方面,而不是在一個模型中同時解決上述這些問題。然后,在沒有監(jiān)督信息的情況下,確定哪些信息應考慮到表示中以及驗證生成的表示是否有效則都具有一定挑戰(zhàn)性。

最后,數(shù)據(jù)本身的質量(缺失值)以及其他包括稀疏性、屬性冗余和互補性在內的其他問題進一步增加了完成上述表示學習任務的難度,而現(xiàn)有的研究往往只是處理上述問題中的單個問題。

02動機

混合異構數(shù)據(jù)表示學習的空缺

通過調研現(xiàn)階段表示學習的文獻資料,可知目前沒有一種表示學習方法可以同時解決上述的無監(jiān)督混合數(shù)據(jù)表示中挑戰(zhàn)?,F(xiàn)有方法可以根據(jù)其學習目標分為基于下游任務的方法,自我監(jiān)督的方法和基于重構的方法:

1基于下游任務的方法是學習一種數(shù)據(jù)表示,以最大化在特定學習任務的學習目標(例如,軟聚類)。此類方法學習的表示是為提升特定模型的學習性能而定制的,但往往很難遷移到其他模型和任務上。

2自我監(jiān)督方法需要在數(shù)據(jù)中指定特定的關系(例如,相同上下文中的對象相似)以學習數(shù)據(jù)表示,并且用于表示學習的監(jiān)督信息是針對單個數(shù)據(jù)類型、特定域(例如,自然語言處理)和假設(例如,時間一致性),使得這些方法很難應用于混合數(shù)據(jù)表示學習中。

3基于重構的方法最大化了原始輸入及其對應表示之間的相互信息性,以保留與原始輸入中足夠多的信息。然而,信息保存并不一定能夠保證表示質量,而且現(xiàn)有的基于重建的方法集中于研究數(shù)值型數(shù)據(jù)(例如,圖像和視頻),數(shù)值型數(shù)據(jù)中兩個值之間的距離有特定的語義含義(例如,圖像中的值的大小的表示更暗或更亮)來體現(xiàn)。對于基于重構的方法來說,很難重建混合數(shù)據(jù),因為混合數(shù)據(jù)中可能存在各種語義含義,甚至有些沒有特定的語義含義。

03方法

混合異構數(shù)據(jù)表示學習的目標和機制

以下將介紹一種新的混合數(shù)據(jù)表示學習器Mix2Vec:嘗試解決上文中所提到的數(shù)據(jù)特點和學習挑戰(zhàn),旨在通過構建功能強大的混合數(shù)據(jù)表示器來學習多方面無監(jiān)督混合數(shù)據(jù)表示。該表示器具有多種機制來應對上述數(shù)據(jù)特征和表示學習中的挑戰(zhàn)。

Mix2Vec采用以下三種機制來實現(xiàn)上述多方面目標:

1采用隨機混洗預測對輸入數(shù)據(jù)進行隨機的變換,并最大化原始數(shù)據(jù)的表示和經過混洗后數(shù)據(jù)的表示之間的互信息性。

2采用估計分布匹配的方法來將原始輸入分布中的先驗知識嵌入到學習的表示中。

3采用結構信息增強的方法來使表示中的結構信息量最大化。

這些機制將同時在深層神經表示器Mix2Vec實現(xiàn),如此一來,Mix2Vec可以有效地將具有上述各種特征的混合數(shù)據(jù)轉換為基于向量空間的表示形式。這種學習的表示形式是通用的,并且對于不同的學習任務是透明且可復用的。

一種有效的無監(jiān)督深度表示器(Mix2Vec)

圖2 Mix2Vec學習機制

給定混合數(shù)據(jù)的輸入,無監(jiān)督表示學習將學習一種映射函數(shù),在無監(jiān)督的情況下以將混合輸入轉換為連續(xù)表示。假定X和Y分別為混合數(shù)據(jù)原始輸入空間和連續(xù)表示空間,無監(jiān)督學習的任務是學習一系列可微分參數(shù)方程。對于Mixe2Vec而言,給定來自原始輸入空間的n個樣本,即,需要學習一個編碼器來實現(xiàn)以下三個目標:

01互信息最大化(Mutual Information Maximization)

最大化輸入及其表示之間的互信息,在Mix2Vec中通過隨機混洗預測(Random Shuffling Prediction,RSP)目標機制來實現(xiàn);

02先驗分布匹配(Prior Distribution Matching,PDM)

強制數(shù)據(jù)表示的分布匹配某一先驗分布,使得學習的數(shù)據(jù)表示具有所需的特征;

03結構信息量最大化(Structural Informativeness Maximization,SIM)

最大化表示中的結構信息量,這是對上述目標的補充,有利于從原始輸入中保留結構信息。

圖2顯示了Mix2Vec表示學習的工作流程,其中展示了上述待實現(xiàn)的三個目標以及為不同目標實現(xiàn)的機制。對于目標1,本工作中將原始輸入隨機混洗變成為新輸入,并且將原始輸入和對應混洗后的輸入都編碼為其對應的數(shù)據(jù)表示,而后通過解碼器從原始輸入和對應的混洗后輸入的數(shù)據(jù)表示中預測混洗位置(屬性);對于目標2,基于從輸入中獲得的先驗知識,將從原始輸入編碼的數(shù)據(jù)表示的分布與先驗分布相匹配;最后,對于目標3,最大化學習到數(shù)據(jù)表示的結構信息。將上述三個目標組合起來構成Mix2Vec整體的學習目標和機制,共同指導混合異構數(shù)據(jù)的表示學習。

04驗證

Mix2Vec學習效果

通過可視化包括Mix2Vec及其變體(不同的超參數(shù))在內的所有表示器所學到的數(shù)據(jù)表示,以顯示學習到的數(shù)據(jù)表示的可分離性。為了將數(shù)據(jù)集所學到的表示可視化為二維空間,實驗中引入了t分布的隨機鄰居嵌入可視化法方法,將高維表示向量轉換為二維表示向量。

實驗中,為每個數(shù)據(jù)集隨機抽取600個這些二維向量,并在圖3中展示它們的位置,圖3展示在Churn上的可視化效果。

從圖中結果可知,Mix2Vec可以生成包含更多信息的高度結構化表示,從單個目標的可視化效果來看,RSP擅長捕獲單個信息,PDM提供先驗匹配,SIM突出結構表示,符合Mix2Vec在設置之初融合三個目標的原因。

一種有效的無監(jiān)督深度表示器(Mix2Vec)

一種有效的無監(jiān)督深度表示器(Mix2Vec)

一種有效的無監(jiān)督深度表示器(Mix2Vec)

圖3 Mix2Vec在Churn上數(shù)據(jù)表示的結果可視化

05結論

在現(xiàn)實世界中,以無監(jiān)督的方式進行混合異構數(shù)據(jù)表示是非??量痰奶魬?zhàn)。該工作中針對具有稀疏性、動態(tài)性和異構性等復雜特征的混合數(shù)據(jù),引入了一種有效的無監(jiān)督表示方法Mix2Vec。Mix2Vec通過預測輸入的隨機混洗操作,將數(shù)據(jù)表示的分布與輸入分布匹配,并增強數(shù)據(jù)表示中的結構信息。Mix2Vec可以生成復雜的混合數(shù)據(jù)的通用且可重復使用的數(shù)據(jù)表示,以滿足多個方面的目標,包括解決上述混合數(shù)據(jù)的特征、支持信息表示質量以及實現(xiàn)不同學習任務的更好學習性能。

下一期將介紹Mix2Vec每個機制具體實現(xiàn)方法,以及Mix2Vec在不同下游任務上的性能。

請繼續(xù)關注此頻道以獲取最新的研究成果!

原文標題:技術沖擊波| 異構數(shù)據(jù)的無監(jiān)督表示學習(一)

文章出處:【微信公眾號:DeepBlue深蘭科技】歡迎添加關注!文章轉載請注明出處。

審核編輯:湯梓紅

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 數(shù)據(jù)

    關注

    8

    文章

    7104

    瀏覽量

    89294
  • 模型
    +關注

    關注

    1

    文章

    3279

    瀏覽量

    48976
  • 機器學習
    +關注

    關注

    66

    文章

    8428

    瀏覽量

    132845
  • 深蘭科技
    +關注

    關注

    1

    文章

    58

    瀏覽量

    6006

原文標題:技術沖擊波| 異構數(shù)據(jù)的無監(jiān)督表示學習(一)

文章出處:【微信號:kmdian,微信公眾號:深蘭科技】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    時空引導下的時間序列自監(jiān)督學習框架

    【導讀】最近,香港科技大學、上海AI Lab等多個組織聯(lián)合發(fā)布了篇時間序列監(jiān)督預訓練的文章,相比原來的TS2Vec等時間序列表示學習工作
    的頭像 發(fā)表于 11-15 11:41 ?297次閱讀
    時空引導下的時間序列自<b class='flag-5'>監(jiān)督</b>學習框架

    一種基于深度學習的二維拉曼光譜算法

    近日,天津大學精密儀器與光電子工程學院的光子芯片實驗室提出了一種基于深度學習的二維拉曼光譜算法,成果以“Rapid and accurate bacteria identification
    的頭像 發(fā)表于 11-07 09:08 ?266次閱讀
    <b class='flag-5'>一種</b>基于<b class='flag-5'>深度</b>學習的二維拉曼光譜算法

    mix2015a中的ep引腳是什么

    請問mix2015a中的ep引腳是什么? 手冊里沒有,但是實際有,嘉立創(chuàng)里也有
    發(fā)表于 10-18 19:19

    JK觸發(fā)一種什么穩(wěn)態(tài)電路

    JK觸發(fā)一種具有兩個穩(wěn)態(tài)的數(shù)字邏輯電路,廣泛應用于數(shù)字電路設計中。 引言 在數(shù)字電路設計中,觸發(fā)一種非常重要的基本邏輯元件。觸發(fā)
    的頭像 發(fā)表于 08-22 10:39 ?1262次閱讀

    邊沿式d觸發(fā)一種什么穩(wěn)態(tài)電路

    邊沿式D觸發(fā)一種 雙穩(wěn)態(tài)電路 。 雙穩(wěn)態(tài)電路是指具有兩個穩(wěn)定狀態(tài)的電路,即觸發(fā)有兩個穩(wěn)態(tài),可分別表示二進制數(shù)碼0和1,觸發(fā)信號作用時
    的頭像 發(fā)表于 08-22 10:15 ?836次閱讀

    一種供電總線技術POWERBUS二總線

    首先給大家介紹一種總線技術Powerbus總線,特性: 1.總線可供電,通訊和供電無需電氣隔離 2.總線抗干擾能力強,可與市電并走 3.可支持總線電流20A(2400bps) 4.具備總線短路保護
    發(fā)表于 07-23 13:38

    一種透鏡成像的新方法

    使用OAM-HHG EUV光束對高度周期性結構進行成像的EUV聚光顯微鏡 為了研究微電子或光子元件中的納米級圖案,一種基于透鏡成像的新方法可以實現(xiàn)近乎完美的高分辨率顯微鏡。 層析成像是一種強大的
    的頭像 發(fā)表于 07-19 06:20 ?418次閱讀
    <b class='flag-5'>一種</b><b class='flag-5'>無</b>透鏡成像的新方法

    為什么深度睡眠期間RTC定時會丟失呢?

    RTC定時深度睡眠期間丟失是否是一種設計功能?我觀察到以下內容(使用 SDK 1.3): The chip is awakened from deep sleep after a timer
    發(fā)表于 07-11 07:17

    神經網(wǎng)絡如何用監(jiān)督算法訓練

    神經網(wǎng)絡作為深度學習的重要組成部分,其訓練方式多樣,其中監(jiān)督學習是一種重要的訓練策略。監(jiān)督
    的頭像 發(fā)表于 07-09 18:06 ?850次閱讀

    深度學習中的監(jiān)督學習方法綜述

    應用中往往難以實現(xiàn)。因此,監(jiān)督學習在深度學習中扮演著越來越重要的角色。本文旨在綜述深度學習中的監(jiān)督
    的頭像 發(fā)表于 07-09 10:50 ?852次閱讀

    基于FPGA的類腦計算平臺 —PYNQ 集群的監(jiān)督圖像識別類腦計算系統(tǒng)

    用基于脈沖前饋卷積網(wǎng)絡,運用 STDP 監(jiān)督學習算法,相較于 CNN 等傳統(tǒng)神經網(wǎng)絡,更具有生物真實性,事件觸發(fā)型的權重更新模式使計算需求降低,能耗減少。 (2)利用 SNN 仿真
    發(fā)表于 06-25 18:35

    監(jiān)督深度學習實現(xiàn)單次非相干全息3D成像

    論文信息 背景引入 數(shù)字全息術因其能夠從單視點對3D場景進行成像而備受關注。與直接成像相比,數(shù)字全息是一種間接的多步驟成像過程,包括光學記錄全息圖和數(shù)值計算重建,為包括深度學習在內的計算成像方法
    的頭像 發(fā)表于 05-13 17:38 ?478次閱讀
    <b class='flag-5'>無</b><b class='flag-5'>監(jiān)督</b><b class='flag-5'>深度</b>學習實現(xiàn)單次非相干全息3D成像

    一種利用光電容積描記(PPG)信號和深度學習模型對高血壓分類的新方法

    深度神經網(wǎng)絡在計算機視覺任務中的有效性,并為開發(fā)更強大、更復雜的神經網(wǎng)絡架構鋪平了道路。 ResNet-50是一種深度神經網(wǎng)絡架構,由研究人員Kaiming He、XiangyuZh
    發(fā)表于 05-11 20:01

    Meta發(fā)布新型監(jiān)督視頻預測模型“V-JEPA”

    Meta,這家社交媒體和科技巨頭,近日宣布推出一種新型的監(jiān)督視頻預測模型,名為“V-JEPA”。這模型在視頻處理領域引起了廣泛關注,因為它通過抽象性預測生成視頻中缺失或模糊的部分來
    的頭像 發(fā)表于 02-19 11:19 ?1055次閱讀

    如何使用UART將TRAVEOTM T 2G設備從深度睡眠中喚醒

    睡眠模式下可用,但是 UART 模式不支持從深度睡眠喚醒。 在這種情況下,要通過 UART 實現(xiàn)從深度睡眠中喚醒,一種選擇是使用 UART_RX 引腳的 GPIO 中斷作為喚醒源。 在此應用程序中,在
    發(fā)表于 01-31 06:08