發(fā)布人:Clips 內(nèi)容團(tuán)隊負(fù)責(zé)人兼研究員 Aseem Agarwala
在我看來,攝影就是在一瞬間內(nèi)認(rèn)識到某個事件的重要性,同時通過精準(zhǔn)的形態(tài)組合完整記錄其面貌。
-Henri Cartier-Bresson
在過去幾年中,人工智能經(jīng)歷了一場類似寒武紀(jì)的大爆發(fā),借助深度學(xué)習(xí)方法,計算機視覺算法已能夠識別出優(yōu)質(zhì)照片的許多元素,包括人、微笑、寵物、日落和著名地標(biāo),等等。然而,盡管近期取得了一系列進(jìn)展,自動攝影仍是未攻克的一道難題。相機能自動捕捉不平凡的瞬間嗎?
前些日子,我們發(fā)布了 Google Clips,這是一款全新的免持相機,可自動捕捉生活中的有趣瞬間。我們在設(shè)計 Google Clips 時遵循了下面三個重要原則:
我們希望所有計算都在設(shè)備端執(zhí)行。除了延長電池壽命和縮短延遲時間之外,設(shè)備端處理還意味著,除非保存或共享短片,否則任何短片都不會離開設(shè)備,這是一項重要的隱私控制措施。
我們希望設(shè)備能夠拍攝短視頻,而不是單張照片。因為動作能更好地記錄瞬間的形態(tài),留下更真實的記憶,而且,為一個重要瞬間拍攝視頻往往比即時捕捉一個完美瞬間更容易。
我們希望專注于捕捉人和寵物的真實瞬間,而不是將精力放在捕捉藝術(shù)圖像這種更抽象、更主觀的問題上。也就是說,我們并未試圖教 Clips 思考構(gòu)圖、色彩平衡和燈光等問題,而是專注于如何選取包含人和動物進(jìn)行有趣活動的瞬間。
學(xué)習(xí)識別不平凡的瞬間
如何訓(xùn)練算法來識別有趣的瞬間?與大多數(shù)機器學(xué)習(xí)問題一樣,我們首先從數(shù)據(jù)集入手。先設(shè)想 Clips 的各種應(yīng)用場景,在此基礎(chǔ)上創(chuàng)建出一個由數(shù)千個視頻組成的數(shù)據(jù)集。同時,我們還確保這些數(shù)據(jù)集涵蓋廣泛的種族、性別和年齡群體。然后我們聘請了專業(yè)攝影師和視頻剪輯師仔細(xì)檢查視頻,從中選出最佳的短視頻片段。這些前期處理方式為我們的算法提供了可以模仿的實例。然而,僅僅依據(jù)專業(yè)人士的主觀選擇來訓(xùn)練算法并不容易,我們需要平滑的標(biāo)簽梯度來教會算法識別內(nèi)容的質(zhì)量(從"完美"到"糟糕")。
為了解決這個問題,我們采取了另一種數(shù)據(jù)收集方法,目標(biāo)是為整個視頻創(chuàng)建連續(xù)的質(zhì)量得分。我們將每個視頻剪輯成短片段(類似于 Clips 捕捉到的內(nèi)容),然后隨機選擇片段對,并要求人類評分者選擇他們喜歡的片段。
之所以采用這種成對比較的方法,而不是讓評分者直接為視頻打分,是因為兩者擇其優(yōu)要比給出具體分?jǐn)?shù)容易得多。我們發(fā)現(xiàn)評分者在成對比較時的結(jié)論非常一致,而在直接評分時則有較大分歧。如果為任意給定視頻提供足夠多的成對比較短片,我們就能計算整個視頻的連續(xù)質(zhì)量得分。通過這一過程,我們從 1000 多個視頻中收集了超過 5000 萬對成對比較短片。如果單純依靠人力,這項工作將異常辛苦。
訓(xùn)練 Clips 質(zhì)量模型
掌握質(zhì)量得分訓(xùn)練數(shù)據(jù)后,下一步是訓(xùn)練一個神經(jīng)網(wǎng)絡(luò)模型來評估設(shè)備捕捉到的任意照片的質(zhì)量。我們首先做了一個基本假設(shè),即了解照片中的內(nèi)容(例如人、狗和樹等)有助于確定"有趣性"。如果此假設(shè)正確,那么我們可以學(xué)習(xí)一個函數(shù),通過識別到的照片內(nèi)容來預(yù)測其質(zhì)量得分(如上文所述,得分基于人類的對比評估結(jié)果)。
為了確定訓(xùn)練數(shù)據(jù)中的內(nèi)容標(biāo)簽,我們使用了支持 Google 圖像搜索和 Google 照片的 Google 機器學(xué)習(xí)技術(shù),這項技術(shù)可以識別超過 27000 個描述物體、概念和動作的不同標(biāo)簽。我們當(dāng)然不需要所有標(biāo)簽,也無法在設(shè)備上對所有標(biāo)簽進(jìn)行計算,因此請專業(yè)攝影師從中選擇了幾百個他們認(rèn)為與預(yù)測照片"有趣性"最相關(guān)的標(biāo)簽。我們還添加了與評分者質(zhì)量得分關(guān)聯(lián)度最高的標(biāo)簽。
有了這個標(biāo)簽子集之后,我們需要設(shè)計一個緊湊高效的模型,在電量和發(fā)熱嚴(yán)格受限的條件下于設(shè)備端預(yù)測任意給定圖像的標(biāo)簽。這項工作提出了不小的難題,因為計算機視覺所依托的深度學(xué)習(xí)技術(shù)通常需要強大的桌面 GPU,并且移動設(shè)備上運行的算法遠(yuǎn)遠(yuǎn)落后于桌面設(shè)備或云端的最新技術(shù)。為了在設(shè)備端模型上進(jìn)行此項訓(xùn)練,我們首先收集了大量照片,然后再次使用 Google 基于服務(wù)器的強大識別模型來預(yù)測上述每個"有趣"標(biāo)簽的置信度。我們隨后訓(xùn)練了一個 MobileNet 圖像內(nèi)容模型 (ICM) 來模仿基于服務(wù)器的模型的預(yù)測。這個緊湊模型能夠識別照片中最有趣的元素,同時忽略不相關(guān)的內(nèi)容。
最后一步是使用 5000 萬成對比較短片作為訓(xùn)練數(shù)據(jù),利用 ICM 預(yù)測的照片內(nèi)容預(yù)測輸入照片的質(zhì)量得分。得分通過逐段線性回歸模型進(jìn)行計算,將 ICM 輸出轉(zhuǎn)換為幀質(zhì)量得分。視頻片段中的幀質(zhì)量得分取平均值即為瞬間得分。給定一組成對比較短片,我們模型計算出的人類偏好的視頻片段的瞬間得分應(yīng)當(dāng)更高一些。訓(xùn)練模型的目的是使其預(yù)測結(jié)果盡可能與人類的成對比較結(jié)果一致。
生成幀質(zhì)量得分的訓(xùn)練過程圖示。逐段線性回歸模型將 ICM 嵌入映射為幀質(zhì)量得分,視頻片段中的所有幀質(zhì)量得分取平均值即為瞬間得分。人類偏好的視頻片段的瞬間得分應(yīng)當(dāng)更高。
通過此過程,我們訓(xùn)練出一個將 Google 圖像識別技術(shù)與人類評分者智慧(5000 萬條關(guān)于內(nèi)容有趣性的評估意見)完美融合的模型。
這種基于數(shù)據(jù)的得分在識別有趣(和無趣)瞬間方面已經(jīng)做得很好,我們在此基礎(chǔ)上又做了一些補充,針對我們希望 Clips 捕捉的事件的整體質(zhì)量得分增加了一些獎勵,這些事件包括臉部(特別是因經(jīng)常出現(xiàn)而比較"熟悉"的臉部)、微笑和寵物。在最新版本中,我們?yōu)榭蛻籼貏e想捕捉的某些活動(如擁抱、親吻、跳躍和跳舞)增加了獎勵。要識別到這些活動,需要擴(kuò)展 ICM 模型。
拍照控制
基于這款強大的場景"有趣性"預(yù)測模型,Clips 相機可以決定哪些瞬間需要實時捕捉。它的拍照控制算法遵循以下三大原則:
重視耗電量和發(fā)熱:我們希望 Clips 的電池能夠續(xù)航大約三小時,同時不想設(shè)備過熱,因此設(shè)備不能一直全速運轉(zhuǎn)。Clips 大部分時間都處于每秒拍攝一幀的低電耗模式。如果這一幀的質(zhì)量超出根據(jù) Clips 最近拍攝量所設(shè)置的閾值,它將進(jìn)入高電耗模式,以 15 fps 的速度進(jìn)行拍攝。Clips 隨后會在遇到第一次質(zhì)量高峰時保存短片。
避免冗余:我們不希望 Clips 一次捕捉所有瞬間,而忽略了其他內(nèi)容。因此,我們的算法將這些瞬間聚合成視覺相似的組,并限制每一集群中短片的數(shù)量。
后見之明的好處:查看拍攝的所有短片之后再選擇最佳短片顯然要簡單得多。因此,Clips 捕捉的瞬間要比預(yù)期展示給用戶的多。當(dāng)短片要傳輸?shù)?a target="_blank">手機時,Clips 設(shè)備會花一秒時間查看其拍攝成果,只把最好和最不冗余的內(nèi)容傳輸過去。
機器學(xué)習(xí)的公平性
除了確保視頻數(shù)據(jù)集展現(xiàn)人口群體多樣性之外,我們還構(gòu)建了多項測試來評估我們算法的公平性。我們通過從不同性別和膚色中均勻采樣,同時保持內(nèi)容類型、時長和環(huán)境條件等變量恒定,來創(chuàng)建可控的數(shù)據(jù)集。然后,我們使用此數(shù)據(jù)集測試算法在應(yīng)用到其他群體時是否具備類似性能。為了幫助檢測提升瞬間質(zhì)量模型時可能發(fā)生的任何公平性回歸,我們?yōu)樽詣酉到y(tǒng)增加了公平性測試。對軟件進(jìn)行的任何變更都要進(jìn)行這些測試,并且要求必須通過。但需要注意的是,由于我們無法針對每一個可能的場景和結(jié)果進(jìn)行測試,因此,這種方法并不能確保公平性。但實現(xiàn)機器學(xué)習(xí)算法的公平性畢竟任重而道遠(yuǎn),無法一蹴而就,而這些測試將有助于促進(jìn)目標(biāo)的最終實現(xiàn)。
結(jié)論
大多數(shù)機器學(xué)習(xí)算法都是圍繞客觀特性評估而設(shè)計,例如,判斷照片中是否有貓咪。在我們的用例中,我們的目標(biāo)是捕捉一個更難捉摸、更主觀的特性,即判斷個人照片是否有趣。因此,我們將照片的客觀、語義內(nèi)容與主觀人類偏好相結(jié)合,在 Google Clips 中實現(xiàn)了人工智能。此外,Clips 的設(shè)計目標(biāo)是與人協(xié)同,而不是自主工作;為了獲得良好的拍攝效果,拍攝人仍要具備取景意識并確保相機對準(zhǔn)有趣的拍攝內(nèi)容。我們對 Google Clips 的出色表現(xiàn)感到欣慰,期待繼續(xù)改進(jìn)算法來捕捉"完美"瞬間!
致謝
本文介紹的算法由眾多 Google 工程師、研究員和其他人共同構(gòu)想并實現(xiàn)。圖片由 Lior Shapira 制作。同時感謝 Lior 和 Juston Payne 提供視頻內(nèi)容。
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4776瀏覽量
100938 -
計算機視覺
+關(guān)注
關(guān)注
8文章
1699瀏覽量
46049 -
機器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8428瀏覽量
132831
原文標(biāo)題:機器學(xué)習(xí)案例:Google Clips 自動攝影
文章出處:【微信號:tensorflowers,微信公眾號:Tensorflowers】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論