互聯(lián)網(wǎng)內(nèi)容越來(lái)越朝著視頻化方向發(fā)展,短視頻處于爆發(fā)期,一些不法分子試圖利用視頻風(fēng)口牟利。3月底,深圳警方打掉了一起以短視頻APP為載體,大肆從事淫穢傳播、***以及網(wǎng)絡(luò)詐騙等犯罪活動(dòng)。
最近,阿里安全圖靈實(shí)驗(yàn)室發(fā)布了一項(xiàng)關(guān)于社會(huì)文化的研究,這是一種新型視頻描述方法(SGR),可用于視頻內(nèi)容安全和視頻檢索等場(chǎng)景,助力建設(shè)互聯(lián)網(wǎng)清朗環(huán)境。該研究成果已經(jīng)被人工智能國(guó)際頂會(huì)CVPR2021(oral)收錄。
讓***做“閱讀理解”
現(xiàn)有的密集型視頻描述生成方法采用自底向上的方式,即先生成大量的事件候選片段,再為每個(gè)片段獨(dú)立的生成描述,從而組合得到密集型視頻描述。然而,視頻中事件具有很強(qiáng)的多樣性,既可以簡(jiǎn)單到是一個(gè)動(dòng)作,也可以復(fù)雜到是若干事件的組合,這導(dǎo)致事件候選片段的生成目標(biāo)不明確,對(duì)應(yīng)的密集型描述不夠連貫和準(zhǔn)確,且充斥著大量冗余。
對(duì)此,研究者提出了自頂向下的密集型視頻描述方法,即SGR。SGR可以實(shí)現(xiàn)兩類基本功能,一是讓***對(duì)視頻內(nèi)容做“閱讀理解”,生成一段長(zhǎng)文本描述視頻中心內(nèi)容,二是可以根據(jù)描述性的文本精準(zhǔn)匹配視頻中的相關(guān)片段。此前,必須人工定義關(guān)鍵詞詞庫(kù)后才能“指揮”***命中檢索,這項(xiàng)***技術(shù)的目標(biāo)是僅通過(guò)輸入自然語(yǔ)言就能實(shí)現(xiàn)檢索,對(duì)***“說(shuō)句話”,就能找到相應(yīng)片段。
“視頻中如果有人拿起鼠標(biāo),點(diǎn)擊電腦,然后脫掉衣服,呈現(xiàn)黃賭毒等相關(guān)違規(guī)信息,以前的技術(shù)路徑上,***可能還要分析脫掉衣服之前的動(dòng)作,其實(shí)拿鼠標(biāo)和點(diǎn)擊電腦與后面的違規(guī)內(nèi)容沒(méi)什么關(guān)聯(lián),無(wú)需提取這些信息。”該研究第一作者、阿里安全圖靈實(shí)驗(yàn)室實(shí)習(xí)算法工程師青崧介紹道。SGR解決了這個(gè)問(wèn)題。
給定一個(gè)視頻,***可對(duì)視頻的關(guān)鍵候選片段無(wú)縫銜接成一個(gè)完整的故事,保證了密集型描述的連貫性,且減少了冗余。為了進(jìn)一步增加視頻片段的描述細(xì)節(jié),研發(fā)人員設(shè)計(jì)了描述提升模塊,以初步得到的密集型視頻描述和視頻片段為基準(zhǔn),提出專用于描述質(zhì)量提升的強(qiáng)化學(xué)習(xí)策略,來(lái)生成細(xì)節(jié)更豐富的密集型視頻描述。
方法結(jié)構(gòu)如下圖所示:
輸入一段視頻,本方法首先使用一個(gè)視頻編碼器()來(lái)為所有視頻幀提取表征。接著,段落解碼器()根據(jù)視頻幀的表征生成一段由多句描述組成的段落。
然后,由描述定位器()對(duì)段落中的每句描述在視頻中的發(fā)生時(shí)刻進(jìn)行定位。最后,描述提升模塊,即描述解碼器()接受由輸出的視頻片段描述和由定位出的視頻片段表征,并輸出細(xì)節(jié)更豐富的視頻片段描述。
該項(xiàng)研究的共同作者、阿里安全圖靈實(shí)驗(yàn)室高級(jí)算法工程師雍秦介紹,雖然目前這個(gè)技術(shù)還無(wú)法做到“1分鐘講清楚一部電影”,但可做到“兩句話講清楚一個(gè)10分鐘以內(nèi)的短視頻”,這意味著通過(guò)該技術(shù)未來(lái)可迅速判斷整個(gè)視頻的關(guān)鍵信息是否包含黃賭毒等違規(guī)內(nèi)容。
更快更準(zhǔn)識(shí)別違規(guī)風(fēng)險(xiǎn)內(nèi)容
通過(guò)這兩個(gè)功能,***能快速識(shí)別、準(zhǔn)確定位違規(guī)片段,無(wú)需人類鑒黃師反復(fù)回看確認(rèn)。雍秦透露,在SGR技術(shù)研究基礎(chǔ)上,阿里安全近期還將研發(fā)低門(mén)檻、高可用的“鑒黃”***工具,讓***對(duì)視頻不同片段打出“危險(xiǎn)指數(shù)”,依賴信息提取直接關(guān)聯(lián)高亮風(fēng)險(xiǎn)片段,讓***鑒黃更智能、高效。
未來(lái),在實(shí)際應(yīng)用場(chǎng)景中,通過(guò)***來(lái)進(jìn)行不良內(nèi)容識(shí)別的研判準(zhǔn)確性和效率將大幅提高,比如判斷視頻內(nèi)容中是否有“一個(gè)穿著暴露蘿莉裝的女孩鴨子坐著在錄吃播”,以往要形成“暴露蘿莉裝”“鴨子坐”“吃播”三個(gè)標(biāo)簽,每次依據(jù)一個(gè)標(biāo)簽進(jìn)行一輪審核,判斷視頻內(nèi)容是否涉嫌低俗,三輪審核交叉驗(yàn)證。
創(chuàng)新工具應(yīng)用后,***只用輸入“一個(gè)穿著暴露蘿莉裝的女孩鴨子坐著在錄吃播”這句話進(jìn)行一輪研判,準(zhǔn)確性也更高。
圖說(shuō):阿里安全近期將研發(fā)低門(mén)檻、高可用的“鑒黃”***工具,該圖為示意模型。阿里安全圖靈實(shí)驗(yàn)室資深算法專家華棠指出,阿里安全一直希望從源頭守護(hù)安全,這是阿里安全方法論“新一代安全架構(gòu)”的核心理念。“互聯(lián)網(wǎng)上每天產(chǎn)生海量視頻,單靠人力無(wú)法維護(hù)互聯(lián)網(wǎng)清朗環(huán)境,違規(guī)視頻危及大眾心理健康和財(cái)產(chǎn)安全,創(chuàng)新算法可以有更多用武之地,構(gòu)建美好安全的網(wǎng)絡(luò)生活。
編輯:lyn
-
AI
+關(guān)注
關(guān)注
87文章
31493瀏覽量
270063
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論