想必你永遠(yuǎn)不會想到,有一天你也會被自己的鍵盤出賣。 對,就是你每日敲擊的鍵盤。當(dāng)指尖在鍵盤上跳躍,清脆的噼啪聲此起彼落時,你輸入的所有信息,包括那些情真意切的詞句,那些不欲人知的心事,還有你的網(wǎng)絡(luò)賬戶、銀行密碼…… 全都被它泄露了。 鍵盤,還能被黑??? 前不久,一個叫做Keytap的 “黑科技” 在國外火了。Keytap 通過監(jiān)聽你敲擊鍵盤的聲音,就能還原出你輸入的內(nèi)容。 而且,只需要通過你電腦里的麥克風(fēng),就能完成聲波采集的任務(wù)。 在一段發(fā)布于網(wǎng)上的 Demo 里,Keytap 作者展示了在 iMac+Filco 機械鍵盤環(huán)境中,這個算法的優(yōu)秀程度,請看:
四步偷窺大法
搭建這樣一個 “偷窺” 打字的模型并不難,Keytap 算法也已經(jīng)開源了。跟著做,只要如下四步:
一是,收集訓(xùn)練數(shù)據(jù); 二是,搭建預(yù)測模型,學(xué)習(xí)一下數(shù)據(jù); 三是,檢測出有人在敲鍵盤; 四是,檢測出 ta 在打什么字。
收集訓(xùn)練數(shù)據(jù)
Keytap 收集數(shù)據(jù)時,只保留每次敲擊前后 75-100 毫秒的音頻。 這就是說,并非連續(xù)取樣,兩次敲擊之間有一部分是忽略的。 這種做法是會犧牲一些信息量的。 從敲下按鍵,到程序受到指令,這之間有隨機延時,與硬件和軟件都有關(guān)系。 比如,按下 g 鍵的完整波形長這樣:
看圖像可以發(fā)現(xiàn),敲擊時出現(xiàn)了一個峰值,而再過大約 150 毫秒,又有一個按鍵被抬起的小峰值。 這樣說來,100 毫秒之外的信息也可能有用,不過這里為了簡便就忽略了。 最終,收集到的數(shù)據(jù)長這樣:
除此之外,局限性還在于,如果兩次按鍵之間相隔不久,后者落在前者的后 75 毫秒之內(nèi),那數(shù)據(jù)可能就有些混雜了。
搭個預(yù)測模型
這個部分是最能發(fā)揮創(chuàng)造力的部分。Keytap 用了一個非常簡單的方法,分為三步:
1.把收集到的波形的峰值對齊。這樣可以避免延時帶來的影響。
2.基于相似度指標(biāo) (Similarity Metric) ,更精細(xì)地對齊波形。 需要更精確的對齊方法,是因為有時候峰值未必是最好的判斷依據(jù)。 那么,可不可以跳過峰值對齊呢? 之所以第 2 步之前要先做第 1 步,是因為相似度指標(biāo)的計算很占 CPU。而第 1 步可以有效縮小對齊窗口 (Alignment Window) ,減少計算量。
3.對齊后,做簡單加權(quán)平均。權(quán)重也是用相似度指標(biāo)來定義的。 完成第 3 步之后,每一個按鍵都會得出一個平均波形 (a Single Averaged Waveform) ,用來和實時捕捉的數(shù)據(jù)做比對。 Keytap 用的相似度指標(biāo)是互相關(guān)(Cross Correlation, CC) ,長這樣:
這里,Ai 和 Bi 都是某個按鍵的波形樣本,比對就在它們之間進(jìn)行。CC 值越高,表示兩者越相似。 當(dāng)然,也可以用其他相似度指標(biāo)來做。 順便一說,兩次按鍵之間的間隔時長,其實也可以用來預(yù)測的,但開發(fā)者怕麻煩就省略了,勇敢的少年可以去源代碼基礎(chǔ)上自行實驗。
檢測出在敲鍵盤
平均波形和比對標(biāo)準(zhǔn)都有了,可是麥克風(fēng)實時收錄的聲音連綿不絕,該和哪一段來比對呢? 這就需要從連續(xù)的音頻里,找到敲擊鍵盤的聲音。 Keytap 用了一個非常簡單的閾值方法,在原始音頻里監(jiān)測敲擊動作: 按下去的時候,會有一個大大的峰值,這就是偵測目標(biāo)。 不過,這個閾值不是固定的,是自適應(yīng) (Adaptive) 的:根據(jù)過去數(shù)百毫秒之內(nèi)的平均樣本強度來調(diào)整的。
檢測打了什么字
當(dāng)系統(tǒng)發(fā)現(xiàn)有人在敲鍵盤,就用相似度指標(biāo)來測到底按了哪個鍵,CC 值最高的就是答案。方法就像上文說的那樣。 現(xiàn)在,代碼實現(xiàn)已經(jīng)開源了,傳送門見文底。 不過,作者在博客中說,這個方法目前只有機械鍵盤適用。
“薯片間諜”
聽音識字的研究不止這一個,去年一篇 Don’t Skype & Type!Acoustic Eavesdropping in Voice-Over-IP 的論文,也提出了 Skype & Type(S&T)鍵盤聲音識別算法。 和這個研究類似,根據(jù)網(wǎng)絡(luò)電話 Skepe 中傳出的打字按鍵聲音,在了解了被測者的打字風(fēng)格和設(shè)備類型后,系統(tǒng)能復(fù)原敲下了什么。
整個算法搭建過程只有三步:收集信息、數(shù)據(jù)處理與數(shù)據(jù)分類。 研究人員事先收集語音電話中鍵盤敲擊聲,將這些聲音分為兩類,即按下聲與松開回彈聲,隨后提取它們的特征。 當(dāng)聽到鍵盤聲時,算法先識別設(shè)備類型,再去識別為鍵盤中的哪個鍵。和 Keytap 不同的是,S&T 也能適用于非機械鍵盤了。
研究人員表示,在預(yù)測的最可能的前 5 個字母中,包含正確字母的準(zhǔn)確率達(dá)到了 91.7%。 這篇論文發(fā)表在 ACM 亞洲計算機和通訊安全大會(ASIACCS 2017)上,地址: https://www.math.unipd.it/~dlain/papers/2017-skype.pdf 推測人類講了什么,AI 需要甚至只是一包薯片。
什么,覺得太離譜了?Naive。 MIT、微軟和 Adobe 開發(fā)的這種看似天方夜譚的算法,只需高速相機透過隔音玻璃,拍攝出薯片袋的振動,算法就會判斷說話人是男是女,甚至還原出說了什么。
研究人員表示,聲音傳播時觸碰到周圍的物體,會震動形成一股微妙的視覺信號,肉眼無法識別,但高速相機(每秒幀數(shù) 2000~6000 FPS)可以敏銳捕捉。
除了薯片袋子,研究人員還用鋁箔、水杯甚至植物盆栽進(jìn)行了試驗,效果 “一如既往的好”。
這不是野生研究,相關(guān)論文 The Visual Microphone:Passive Recovery of Sound from Video 還登上了 2014 年的 Siggraph 計算機圖形學(xué)大會。 論文地址(注意科學(xué)前往):http://t.cn/EyZEZYI傳送門方法雖多,如果想自己動手搞一個,這些 Keytap 相關(guān)資源還是要收好: 博客地址: https://ggerganov.github.io/jekyll/update/2018/11/30/keytap-description-and-thoughts.html 代碼地址: https://github.com/ggerganov/kbd-audio Demo: https://ggerganov.github.io/jekyll/update/2018/11/24/keytap.html 噓,掩好口鼻,輕聲撤退。
責(zé)任編輯:xj
原文標(biāo)題:一個讓我感到毛骨悚然的GitHub項目!
文章出處:【微信公眾號:嵌入式ARM】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
-
算法
+關(guān)注
關(guān)注
23文章
4623瀏覽量
93110 -
GitHub
+關(guān)注
關(guān)注
3文章
473瀏覽量
16503
原文標(biāo)題:一個讓我感到毛骨悚然的GitHub項目!
文章出處:【微信號:gh_c472c2199c88,微信公眾號:嵌入式微處理器】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論