近期,一支由查珀?duì)栂柎髮W(xué)(University of Chapel Hill)和馬里蘭大學(xué)(University of Maryland)組成的研究團(tuán)隊(duì),正試圖讓這一切成為現(xiàn)實(shí)。
除了語言,機(jī)器還能如何讀懂人類的情緒?
情緒毫無疑問在生活中扮演著重要的角色,我們都是通過看別人「臉色」,進(jìn)而決定下一步采取的應(yīng)對(duì)行為。比如正在生氣的女朋友,以及心情大好的女朋友,交流使用的肯定不是同一套話術(shù)。反過來,很多時(shí)候我們也會(huì)被他人的情緒影響我們的行為。
因此,自動(dòng)情緒識(shí)別技術(shù)是諸多領(lǐng)域的剛需,如游戲娛樂、安保執(zhí)法、購物、人機(jī)交互等。有了它,機(jī)器人將能更好地與人類產(chǎn)生交流。對(duì)于具備自然語言處理能力的機(jī)器人而言,它們可以通過文字/語言交流去推斷出用戶的情緒,因而問題不大;對(duì)于那些不具備相關(guān)能力的機(jī)器人來說,是否能夠通過非語言的方式,比如面部表情或動(dòng)作姿態(tài),去判斷人類當(dāng)下的情緒狀態(tài),依然是一個(gè)棘手的問題,目前學(xué)界有不少團(tuán)隊(duì)正試圖為此找到理想方案。
在過去,研究更多集中在幫助機(jī)器解讀人類豐富表情的含義,然而近期的一些心理學(xué)文獻(xiàn)卻對(duì)此提出了質(zhì)疑——很多種情況下,由于存在一些干擾,人類面部表情不一定代表著對(duì)應(yīng)的交際目的。與此同時(shí),越來越多研究表明,人體行為在情緒傳遞方面同樣扮演者非常重要的角色,而人們?cè)谛凶邥r(shí)的身體表情或者步態(tài),已經(jīng)被證明有助于感知情緒。打個(gè)比方,當(dāng)我們沮喪時(shí),上半身會(huì)處于聳拉狀態(tài),肢體活動(dòng)速度變慢;當(dāng)我們快樂時(shí),肢體活動(dòng)節(jié)奏會(huì)明顯變快,手臂的擺動(dòng)次數(shù)變多。
一個(gè)解決方案
在這篇名為《Identifying Emotions from Walking Using Affective and Deep Features》的論文中,研究團(tuán)隊(duì)提出了一種全新的自動(dòng)情緒識(shí)別方法,可以將視頻中行走的人類進(jìn)行歸類為快樂、悲傷、憤怒或中立 4 種情感類別。
簡單來說,他們先將這些成功提取出的步態(tài)轉(zhuǎn)換為三維形態(tài),然后使用基于 LSTM 的方法對(duì)這些連貫性的 3D 人體姿勢進(jìn)行長期依賴性建模,以獲得深度特征。接著,他們提出了表示人類行走姿勢與運(yùn)動(dòng)的時(shí)空情感身體特征(spatio temporal affective body features),最后將兩者進(jìn)行集合,并使用隨機(jī)森林分類器(Random Forest Classifier)將成果歸類成上述提及的 4 種情感類別。
往細(xì)了講,即是先通過多個(gè)步態(tài)數(shù)據(jù)集提取出情感特征——這些情感特征建立在心理表征基礎(chǔ)上,當(dāng)中包括了體態(tài)特征和動(dòng)作特征。接著,通過訓(xùn)練 LSTM 網(wǎng)絡(luò)進(jìn)行深度特征提取,然后將深度特征與情感特征相結(jié)合,對(duì)隨機(jī)森林分類器進(jìn)行訓(xùn)練。最后,只要給出一個(gè)人行走的 RGB 視頻,該 3D 人體步態(tài)評(píng)估技術(shù)將會(huì)以 3D 形式對(duì)他/她的步態(tài)進(jìn)行解析,進(jìn)而提取出情感與深層特征,最后再用已經(jīng)訓(xùn)練好的隨機(jī)森林分類器來識(shí)別出個(gè)體的情感狀態(tài)。
讀懂人類情緒的奧秘
要準(zhǔn)確評(píng)估一個(gè)人的情感狀態(tài),姿勢與運(yùn)動(dòng)特征都是必不可少的,其中就包括關(guān)節(jié)角度、擺動(dòng)距離、擺動(dòng)速度以及身體所占空間等特征,都可以被用于識(shí)別步態(tài)中傳遞的情感狀態(tài)。基于這些心理學(xué)發(fā)現(xiàn),該團(tuán)隊(duì)的工作便將姿勢與運(yùn)動(dòng)特征都包含了進(jìn)來。
在姿勢特征方面,該團(tuán)隊(duì)主要從這幾個(gè)方面進(jìn)行了定義:
體積:身體的舒展一般傳達(dá)的是正面情緒;當(dāng)一個(gè)人在表達(dá)負(fù)面情緒的時(shí)候,身體姿勢往往更緊湊。
面積:通過手和頸部之間以及腳和根關(guān)節(jié)之間的三角區(qū)域來模擬身體的擴(kuò)張情況。
距離:腳和手之間的距離也可用于模擬身體的擴(kuò)張情況。
角度:頭部傾斜情況,通過頸部不同關(guān)節(jié)延伸的角度來區(qū)分快樂和悲傷情緒。
此外,他們還將步幅作為姿勢的特征之一——長步幅表示憤怒和快樂;短步幅表示悲傷和中立。
在運(yùn)動(dòng)特征方面,他們則做出以下定義:
與低喚醒情緒相比,高喚醒情緒的運(yùn)動(dòng)明顯在頻次上會(huì)更密集。
快步態(tài)代表快樂或憤怒;慢步態(tài)代表悲傷。
最終實(shí)驗(yàn)結(jié)果顯示,該團(tuán)隊(duì)的方案相較其他分類方法,準(zhǔn)確率更高,達(dá)到 80:07%;即便用于非動(dòng)作數(shù)據(jù)集(non-acted data)上,準(zhǔn)確率也高達(dá) 79:72%。
總結(jié)
總的來說,該團(tuán)隊(duì)是第一個(gè)利用最先進(jìn)的 3D 人體姿勢評(píng)估技術(shù),提供能夠從步行視頻中實(shí)時(shí)識(shí)別出情感狀態(tài)的方法。值得一提的是,這個(gè)研究最終促成了一個(gè)視頻數(shù)據(jù)集 —— EWalk,內(nèi)容都是些人們的行走視頻,被分別打上了對(duì)應(yīng)的情感標(biāo)簽。
目前該方法當(dāng)然也不是盡善盡美的,比如:
算法主要還是取決于 3D 人體姿勢評(píng)估技術(shù)和步態(tài)提取算法的精度,換而言之,如果姿勢或步態(tài)存在噪聲,那么相應(yīng)的情緒預(yù)測就可能是不準(zhǔn)確的。
該情感算法需要提取全身關(guān)節(jié)的位置,一旦視頻存在被遮擋的情況,就有可能無法獲得全身的姿勢數(shù)據(jù)。
行走動(dòng)作必須是自然的,且不涉及任何配件(手提箱、手機(jī)……)
無論如何,這昭示著在機(jī)器讀懂人類情緒這條道路上,已經(jīng)取得了關(guān)鍵一步。在未來的世界里,機(jī)器人無需與我們產(chǎn)生交流,也能看透我們內(nèi)心的小九九。所以,顫抖吧,人類!
-
機(jī)器人
+關(guān)注
關(guān)注
211文章
28506瀏覽量
207492 -
人工智能
+關(guān)注
關(guān)注
1792文章
47422瀏覽量
238943
原文標(biāo)題:防火防盜防 AI 系列:你的心事,將被你的行走步態(tài)暴露!
文章出處:【微信號(hào):worldofai,微信公眾號(hào):worldofai】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論