0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

全面介紹因果推斷方向的基礎方法

深度學習自然語言處理 ? 來源:機器學習算法與自然語言 ? 作者:陳歪歪 ? 2021-05-26 09:39 ? 次閱讀

寫在前面

這一部分主要介紹的是因果推斷方向的基礎方法,后面會對這個方向前沿的論文和方向做一些基礎介紹,這些論文和方法有些我進行了精讀或者實現。

有些只是粗略地了解了大概的主旨,但是會力求講解得盡量清楚明白,這里的介紹不分先后,只是對不同方法進行介紹,不同領域在早期和近期都有相關新論文出現,有任何問題和建議歡迎評論和私聊。

meta learning

這個方向使用基礎的機器學習方法去首先Estimate the conditional mean outcome E[Y|X = x](CATE),然后 Derive the CATE estimator based on the difference of results obtained from step 1,我們常見的uplift model里面one model和two model方法其實也是屬于meta learning,在這個領域one model方法是所謂的S-learner,two model方法是所謂的T-learner

T-learner & S-learner

da194014-bd58-11eb-9e57-12bb97331649.png

這里不多贅述這兩種方法,簡單來講,T-learner就是用分別的兩個base learner去模擬干預組的outcome和非干預組的outcome,優(yōu)點在于能夠很好地區(qū)分干預組和非干預組,缺點則在于容易出現兩個模型的Bias方向不一致,形成誤差累積。

使用時需要針對兩個模型打分分布做一定校準,S-learner是將treatment作為特征,干預組和非干預組一起訓練,解決了bias不一致的問題,但是如果本身X的high dimension可能會導致treatment丟失效果。而且這兩種方法更偏向于naive的方法,很多其他的問題比如干預組和非干預組樣本不均衡的問題、selection bias的問題都未解決。

2. X-learner

在這兩種方法的基礎之上還有《Metalearners for estimating heterogeneous treatment effects using machine learning pnas.org/content/116/10》這篇論文中介紹的X-learner

首先跟T-learner一樣,用base learner去預估干預組和非干預組的response

da48601a-bd58-11eb-9e57-12bb97331649.png

然后定義

da96615c-bd58-11eb-9e57-12bb97331649.jpg

這里D的定義為response的預估值和實際值的差值,然后我們用一個estimator去預估這里的D,最終我們的CATE就是這兩個預估出來的τ的加權和。

dad604d8-bd58-11eb-9e57-12bb97331649.png

論文中用圖來解釋了這么做的原因,如下:

dae4b3f2-bd58-11eb-9e57-12bb97331649.jpg

如上圖所示,如果我們的干預組和非干預組樣本數量不均衡,如圖A的藍色,那么在預估藍色的base learner時會出現無法擬合到中間上凸部分的情況,最終得到的treatment effect就是在中間部分下凸的結果。

但是如果我們使用了imputed treatment effect,會得到C中虛線的均衡結果。

論文中還提到了自己的實驗,實驗效果總結來看,如果treat和不treat的數據量差別比較大的時候,X learner效果特別好,但是如果CATE接近0的時候,X learner效果不如S learner,比T learner好,make sense的。

3. 總結性論文

meta learning的方法有非常多,這里只是提到較為經典的三種,其他meta learning的方法比如R-learner有點老了,這里不再介紹,在《Transfer Learning for Estimating Causal Effects using Neural Networks arxiv.org/abs/1808.0780》中比較有意思的是提到了很多方法的方案。

包括傳統藝能S-learner,T-learner,X-learner和比如warm start T-learner、joint training等等,有興趣可以看看。

representation learning

表示學習對于因果推斷其實算是非常自然的想法,本身由于selection bias的存在,導致treament group和control group的人群自帶偏差,而類似S-learner的方法又會使得treat的作用丟失,那么將人群embedding中并盡可能消除bias和保存treat的作用就非常重要了。

BNN & BLR

比較經典的論文有BNN、BLR《Learning Representations for Counterfactual Inference arxiv.org/abs/1605.0366》,整體的算法如圖:

db1325e8-bd58-11eb-9e57-12bb97331649.jpg

其中B指的是loss:

db615a24-bd58-11eb-9e57-12bb97331649.png

loss包含了三部分:事實數據的誤差+和與i最近的j的反事實數據的誤差和事實數據+反事實數據的分布差異,那我們是怎么學習φ的呢?

一個方法是對于特征進行選擇BLR,在embedding層只有一層,更加白盒,相當于特征篩選,只保留在treatment group和control group差距較小的特征。

db9877e8-bd58-11eb-9e57-12bb97331649.jpg

另一個方法是深度的方法BNN,embedding后整體的loss加入分布的差異。

dba8cb66-bd58-11eb-9e57-12bb97331649.png

2. TARNet

與這篇論文很相似的論文包括TARNet《Estimating individual treatment effect:generalization bounds and algorithms arxiv.org/abs/1606.0397》,這篇文章整體的思路跟BNN那篇有點像,說到了BNN那篇的問題。

這里面講了BLR的兩個缺點,首先它需要一個兩步的優(yōu)化(優(yōu)化φ和優(yōu)化y),其次如果如果φ的維度很高的話,t的重要性會被忽略掉,挺有道理的,但感覺跟那篇唯一的區(qū)別就是解決了一下treat和control組的sample數量不均衡的問題,所以火速看了一下就過了

loss的計算為:

dbcf74e6-bd58-11eb-9e57-12bb97331649.jpg

可以看出是在上篇論文的基礎上增加了ω的加權,去除了樣本不均衡的問題。整體的算法步驟如下:

dbfef6da-bd58-11eb-9e57-12bb97331649.jpg

把兩步走的優(yōu)化變?yōu)榱送瑫r優(yōu)化,雖然優(yōu)化看起來比較微小,但如果大家實際跑一下IHDP數據集的話會發(fā)現提升還是挺明顯的。

3. CFR

還有一篇論文是在TARNet之上進行優(yōu)化的,《Counter Factual Regression with Importance Sampling Weights https://www.ijcai.org/Proceedings/2019/0815.pdf》而本文的改進點也在ω上,不除以p(t),而是用一個網絡學習了p(t|x),除以p(t|x)

dc1386f4-bd58-11eb-9e57-12bb97331649.png

作者將其簡化為

dc25abcc-bd58-11eb-9e57-12bb97331649.png

可以用任何的網絡去擬合第二項,整體的過程為:

dc90d226-bd58-11eb-9e57-12bb97331649.jpg

4. ACE

還有一篇論文講到了另一個角度《Adaptively Similarity-preserved Representation Learning for Individual Treatment Effect Estimation cs.virginia.edu/~mh6ck/》

這篇主要的思想希望在representation之后能夠盡可能地保留local similarity,用一個toy example來說如下:

dca417b4-bd58-11eb-9e57-12bb97331649.jpg

整體的框架如圖:fprop(x)是提前訓練好的傾向性得分function

dcb13f0c-bd58-11eb-9e57-12bb97331649.png

整體希望representation之前用x計算出傾向性得分相近的兩個個體,representation之后,representation之間的距離還是相近,把最重要的部分貼下來如下:

dd13e58a-bd58-11eb-9e57-12bb97331649.jpg

其中Q是Ri和Rj的聯合概率(R是representation),P是xi和xj的聯合概率,similarity preserving loss就是Q和P的KL散度,其中S的函數如下:

dd659c04-bd58-11eb-9e57-12bb97331649.png

整體的loss包括正常的imbalance loss:

dd710396-bd58-11eb-9e57-12bb97331649.png

Factual y的分類或者回歸loss:

dd7bd2d0-bd58-11eb-9e57-12bb97331649.png

還有similarity preserving loss,總的loss function就是:

dd9033e2-bd58-11eb-9e57-12bb97331649.png

5. SITE

還有一篇比較類似思想的論文是SITE《Representation Learning for Treatment Effect Estimation from Observational Data papers.nips.cc/paper/75》但這篇論文我沒有非常認真地讀,來自NIPS,也是非常經典的一篇,說的主要是普通的representation learning的方法考慮了全局的分布信息。

但是沒有考慮用戶間的局部相似性,然后KNN的方法考慮了局部相似性,但是忽略了全局信息,這里面用了三元triplet pairs的方法選擇三個對,用的是傾向性得分,傾向性得分在中間的一對,傾向性得分接近1的treat unit,傾向性得分接近0的control group,有興趣的同學可以自己看一下。

編輯:jq

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯系本站處理。 舉報投訴
  • 機器學習
    +關注

    關注

    66

    文章

    8428

    瀏覽量

    132837
  • BNN
    BNN
    +關注

    關注

    0

    文章

    3

    瀏覽量

    2657
收藏 人收藏

    評論

    相關推薦

    一種基于因果路徑的層次圖卷積注意力網絡

    機電系統中的故障檢測對其可維護性和安全性至關重要。然而,系統監(jiān)測變量往往具有復雜的聯系,很難表征它們的關系并提取有效的特征。本文開發(fā)了一種基于因果路徑的層次圖卷積注意力網絡(HGCAN),以提高復雜
    的頭像 發(fā)表于 11-12 09:52 ?331次閱讀
    一種基于<b class='flag-5'>因果</b>路徑的層次圖卷積注意力網絡

    鑒源實驗室·測試設計方法-因果

    上篇文章(ISO 26262中測試用例的得出方法-邊界值分析)我們介紹了等價類方法和邊界值方法,這兩種方法廣泛應用并適用于各種類型測試的設計
    的頭像 發(fā)表于 11-05 15:17 ?237次閱讀
    鑒源實驗室·測試設計<b class='flag-5'>方法</b>-<b class='flag-5'>因果</b>圖

    GPGPU體系結構優(yōu)化方向(1)

    繼續(xù)上文GPGPU體系結構優(yōu)化方向 [上],介紹提高并行度和優(yōu)化流水線的方向
    的頭像 發(fā)表于 10-09 10:03 ?310次閱讀
    GPGPU體系結構優(yōu)化<b class='flag-5'>方向</b>(1)

    RS-485:自動方向介紹及其在系統中的作用

    電子發(fā)燒友網站提供《RS-485:自動方向介紹及其在系統中的作用.pdf》資料免費下載
    發(fā)表于 09-12 10:35 ?0次下載
    RS-485:自動<b class='flag-5'>方向</b><b class='flag-5'>介紹</b>及其在系統中的作用

    當系統鬧脾氣:用「因果推斷」哄穩(wěn)技術的心

    背景 系統穩(wěn)定性問題往往涉及復雜的因果關系。例如,一個系統的崩潰可能由多個因素引起,包括硬件故障、軟件bug、業(yè)務配置、外部攻擊或其他操作不當等。理解這些因素之間的因果關系對于系統穩(wěn)定性建設至關重要
    的頭像 發(fā)表于 08-14 10:42 ?294次閱讀
    當系統鬧脾氣:用「<b class='flag-5'>因果</b><b class='flag-5'>推斷</b>」哄穩(wěn)技術的心

    負電荷的移動方向是電流方向

    負電荷的移動方向不是電流方向。電流方向的定義是正電荷的移動方向。在電學中,電流的方向通常被規(guī)定為正電荷的移動
    的頭像 發(fā)表于 07-29 17:03 ?1901次閱讀

    如何改變步進電機方向方法

    步進電機作為一種精密的控制電機,其方向控制對于許多應用至關重要。本文將詳細介紹幾種改變步進電機方向方法,并通過分析這些方法的工作原理和實際
    的頭像 發(fā)表于 06-14 09:56 ?2765次閱讀

    三菱plc脈沖+方向編程方法

    方式。本文將詳細介紹三菱PLC脈沖+方向編程方法,包括基本概念、編程步驟、實例分析等內容。 一、脈沖+方向控制基本概念 1.1 脈沖信號 脈沖信號是一種周期性變化的信號,其特點是在一定
    的頭像 發(fā)表于 06-12 14:10 ?3104次閱讀

    伺服電機旋轉方向參數設置方法

    伺服電機是一種高精度、高效率的電機,廣泛應用于工業(yè)自動化、機器人、精密機械等領域。伺服電機的旋轉方向是其控制的重要參數之一,正確設置旋轉方向可以保證系統的穩(wěn)定運行和精確控制。本文將詳細介紹伺服電機
    的頭像 發(fā)表于 06-12 10:11 ?2821次閱讀

    功能測試覆蓋中最常見的是什么方法

    功能測試覆蓋是軟件測試過程中的一個重要環(huán)節(jié),它主要關注軟件產品的功能實現是否符合需求規(guī)格說明。在功能測試覆蓋中,有多種方法可以采用,以確保測試的全面性和有效性。本文將詳細介紹功能測試覆蓋中最
    的頭像 發(fā)表于 05-30 14:55 ?789次閱讀

    柔性電流探頭方向判斷的方法

    介紹。 首先,柔性電流探頭通常有一個標記,如箭頭或者色彩上的區(qū)別。這個標記通常顯示了電流的流動方向。在進行測量前,仔細觀察標記并確保將探頭正確安裝在被測電路上。如果沒有標記或者標記不清晰,那么需要采取其他方法
    的頭像 發(fā)表于 03-11 13:33 ?427次閱讀
    柔性電流探頭<b class='flag-5'>方向</b>判斷的<b class='flag-5'>方法</b>

    亥姆霍茲線圈實驗如何確定磁場方向

    亥姆霍茲線圈實驗是一種用來產生均勻磁場的設備,它由兩個平行的線圈組成,每個線圈都有相同的電流方向。在實驗中,我們需要確定磁場的方向,以便正確地進行磁場測量和實驗分析。本文將詳細介紹亥姆霍茲線圈實驗中
    的頭像 發(fā)表于 03-09 09:21 ?2205次閱讀

    線圈磁場方向的判斷方法用什么符號表示

    線圈是電磁器件中廣泛應用的一種結構,其具有產生磁場的功能。在實際應用中,了解線圈磁場的方向對于設計、運用和分析電路非常重要。本文將判斷線圈磁場方向方法,即右手定則,并探討其應用。 第一節(jié):線圈磁場
    的頭像 發(fā)表于 02-25 17:16 ?5206次閱讀

    線圈磁場方向的判斷方法用什么定則

    線圈磁場方向的判斷可以利用右手螺旋定則。該定則是由法國物理學家安德烈-瑪麗·安培(Andre-Marie Ampere)于19世紀提出的。 右手螺旋定則是一種用于判斷電流所產生的磁場的方向方法
    的頭像 發(fā)表于 02-25 17:07 ?6234次閱讀

    PS-2205NS系列單工位轉軸扭力測試儀的全面介紹

    PS-2205NS系列單工位轉軸扭力測試儀的全面介紹?|深圳磐石測控
    的頭像 發(fā)表于 02-23 09:10 ?525次閱讀
    PS-2205NS系列單工位轉軸扭力測試儀的<b class='flag-5'>全面</b><b class='flag-5'>介紹</b>