據(jù)研究報告到2020年,將有超過200億臺互聯(lián)網(wǎng)連接設(shè)備投入使用,這些設(shè)備每年將產(chǎn)生超過500個zettabytes的數(shù)據(jù),隨著更多的技術(shù)進(jìn)步,這個數(shù)字預(yù)計將繼續(xù)大幅增加。對于已經(jīng)投資物聯(lián)網(wǎng)的70%以上的組織而言,所有這些數(shù)據(jù)自然代表了獨特的競爭優(yōu)勢,并且獲得了用于開發(fā)創(chuàng)新AI應(yīng)用程序的寶貴信息和見解的巨大機會。
事實證明,對于數(shù)據(jù)科學(xué)家和機器學(xué)習(xí)工程師而言,物聯(lián)網(wǎng)數(shù)據(jù)與商業(yè)領(lǐng)袖一樣令人興奮。從醫(yī)療保健和農(nóng)業(yè)到教育和運輸,物聯(lián)網(wǎng)蓬勃發(fā)展的領(lǐng)域與其應(yīng)用程序一樣多樣化,從發(fā)現(xiàn)新信息到?jīng)Q策控制。物聯(lián)網(wǎng)數(shù)據(jù)科學(xué)為創(chuàng)建令人興奮的新數(shù)據(jù)產(chǎn)品打開了大門。但是,我們將在本文中研究物聯(lián)網(wǎng)數(shù)據(jù)科學(xué)的一些特殊性。
數(shù)據(jù)注意事項
正如我們所看到的,物聯(lián)網(wǎng)構(gòu)成了新數(shù)據(jù)的最大來源之一。物聯(lián)網(wǎng)數(shù)據(jù)實際上可能被視為大數(shù)據(jù)的縮影。如果我們查看通過一個設(shè)備生成的數(shù)據(jù),我們通常會處理相當(dāng)少量的數(shù)據(jù)(即使這也正在改變)。然而,隨著無數(shù)分布式設(shè)備生成連續(xù)的數(shù)據(jù)流,物聯(lián)網(wǎng)產(chǎn)生了大量的數(shù)據(jù)。它的多樣性同樣令人印象深刻:物聯(lián)網(wǎng)設(shè)備收集各種類型的信息,從音頻到傳感器數(shù)據(jù),并且總體上負(fù)責(zé)數(shù)據(jù)格式多樣性的奇妙爆發(fā)。因為這些設(shè)備靠近用戶并不斷收集信息,這個生成的數(shù)據(jù)通常是高速的; 這使得物聯(lián)網(wǎng)數(shù)據(jù)特別適合時間序列建模。
但是物聯(lián)網(wǎng)數(shù)據(jù)也有一些獨特的方面,使得它的開發(fā)極具挑戰(zhàn)性。由于在采集和傳輸過程中發(fā)生錯誤,因此通常會產(chǎn)生噪聲。這使得構(gòu)建,清理和驗證數(shù)據(jù)的過程成為機器學(xué)習(xí)算法開發(fā)中的關(guān)鍵步驟。從本質(zhì)上講,物聯(lián)網(wǎng)數(shù)據(jù)也是高度可變的,這是因為各種數(shù)據(jù)收集組件之間的數(shù)據(jù)流存在巨大的不一致,并且由于存在時間模式。不僅如此,數(shù)據(jù)本身的價值高度依賴于底層機制,捕獲數(shù)據(jù)的頻率以及處理數(shù)據(jù)的方式。即使來自特定設(shè)備的數(shù)據(jù)被認(rèn)為是值得信賴的,我們?nèi)匀恍枰紤]到即使在類似條件下不同設(shè)備可能表現(xiàn)不同的事實。因此,在收集訓(xùn)練數(shù)據(jù)時捕獲所有可能的情況在實踐中是不可行的。
半監(jiān)督學(xué)習(xí)
然而,物聯(lián)網(wǎng)數(shù)據(jù)最顯著的特征之一在于它的粗糙:因為物聯(lián)網(wǎng)設(shè)備通過各種復(fù)雜的傳感器收集數(shù)據(jù),它們生成的數(shù)據(jù)通常非常原始。這意味著在提取業(yè)務(wù)價值并構(gòu)建強大的AI應(yīng)用程序之前,必須進(jìn)行大量數(shù)據(jù)處理。事實上,在構(gòu)建智能物聯(lián)網(wǎng)應(yīng)用程序時,將有意義的信號與噪聲分離并將這些非結(jié)構(gòu)化數(shù)據(jù)流轉(zhuǎn)換為有用的結(jié)構(gòu)化數(shù)據(jù)是最重要但危險的步驟。
大量的物聯(lián)網(wǎng)應(yīng)用需要使用有監(jiān)督的機器學(xué)習(xí),這是一類機器學(xué)習(xí)算法,需要在訓(xùn)練模型之前標(biāo)記數(shù)據(jù)。由于手動標(biāo)記大型數(shù)據(jù)集是一項耗時,容易出錯且可能成本高昂的任務(wù),因此機器學(xué)習(xí)專業(yè)人員通常會先著手標(biāo)記的開源數(shù)據(jù)集開始,或者從少量數(shù)據(jù)開始標(biāo)記。然而,物聯(lián)網(wǎng)數(shù)據(jù)的困難來自于它的特殊性:因為這些數(shù)據(jù)通常是獨一無二的,所以不能保證現(xiàn)有的開源數(shù)據(jù)集是隨時可用的,因此工程師必須標(biāo)記自己的數(shù)據(jù)。
但是,由于物聯(lián)網(wǎng)數(shù)據(jù)的可變性,標(biāo)記一個小的隨機樣本可能是不夠的??紤]到這一點,這些是在監(jiān)督算法訓(xùn)練中利用標(biāo)記和未標(biāo)記數(shù)據(jù)的半監(jiān)督學(xué)習(xí)策略的完美環(huán)境。特別是主動學(xué)習(xí),其中允許算法向群眾工作者查詢在訓(xùn)練時智能選擇的訓(xùn)練實例的子集的標(biāo)簽,這是非常適合的方法,允許機器學(xué)習(xí)科學(xué)家獲得類似的算法精度。標(biāo)簽成本的一小部分。
人群傳感
在機器學(xué)習(xí)方面,物聯(lián)網(wǎng)發(fā)展的一個非常有趣的方面是人群感知的出現(xiàn)。群體感知存在兩種不同的形式:自愿,當(dāng)用戶自愿提供信息時,以及機會主義,當(dāng)沒有明確的用戶干預(yù)時自動收集數(shù)據(jù)。這是物聯(lián)網(wǎng)數(shù)據(jù)不僅可以為物聯(lián)網(wǎng)應(yīng)用的開發(fā)或改進(jìn)做出貢獻(xiàn)的一種方式,而且還可以用作其他非物聯(lián)網(wǎng)應(yīng)用的輸入。
物聯(lián)網(wǎng)實際上允許以前所未有的方式收集非常獨特的數(shù)據(jù)集。因為每個設(shè)備生成的數(shù)據(jù)通常是人為的,所以用戶可以標(biāo)記或驗證它。
模型開發(fā)
如今,人工智能取得令人矚目的進(jìn)步背后的主要因素之一是出現(xiàn)了更好的技術(shù),例如GPU,可以實現(xiàn)更快的數(shù)據(jù)處理。物聯(lián)網(wǎng)的機器學(xué)習(xí)帶來了一個有趣的難題:雖然最好的模型需要接受大量數(shù)據(jù)的培訓(xùn),但大多數(shù)物聯(lián)網(wǎng)設(shè)備仍然受限于存儲空間和處理能力。出于這個原因,安全有效地將大量數(shù)據(jù)從設(shè)備傳輸?shù)椒?wù)器或云,反之亦然,這是開發(fā)AI應(yīng)用程序的關(guān)鍵。在云計算時代,一種自然的解決方案是將數(shù)據(jù)導(dǎo)出到開發(fā)模型的云中,并在模型準(zhǔn)備好使用后將模型導(dǎo)出回設(shè)備。這特別有吸引力,特別是因為預(yù)計到2021年,所有生成的數(shù)據(jù)中有94%將在云中處理,這意味著它也可以利用其他數(shù)據(jù)源,無論是歷史數(shù)據(jù)還是源自其他物聯(lián)網(wǎng)設(shè)備。另一方面,在用于推理步驟的從設(shè)備向云上的模型發(fā)送數(shù)據(jù)的解決方案也可能是次優(yōu)的,尤其是在延遲需要非常低的情況下。將復(fù)雜模型存儲回存儲器受限的設(shè)備本身就是一個挑戰(zhàn),因為具有大量參數(shù)的復(fù)雜模型(例如深度學(xué)習(xí)模型)本身通常非常大。
另一個挑戰(zhàn)來自于物聯(lián)網(wǎng)設(shè)備可能無法連續(xù)連接到云,因此可能需要一些本地參考數(shù)據(jù)進(jìn)行離線處理,以及獨立運行的能力。這是邊緣計算架構(gòu)變得有趣的地方,因為它使數(shù)據(jù)能夠在邊緣設(shè)備級別進(jìn)行初始處理。當(dāng)需要增強安全性時,這種方法特別有吸引力; 這也是有利的,因為這種邊緣設(shè)備能夠過濾數(shù)據(jù),降低噪聲并提高現(xiàn)場數(shù)據(jù)質(zhì)量。
不出所料,人工智能工程師一直在努力實現(xiàn)兩全其美,最終開發(fā)出霧計算,這是一個分散的計算基礎(chǔ)設(shè)施。在這種方法中,數(shù)據(jù),計算能力,存儲和應(yīng)用程序以最合理的方式在設(shè)備和云之間分布,最終通過將它們更緊密地結(jié)合在一起來利用它們各自的優(yōu)勢。
轉(zhuǎn)移學(xué)習(xí)
我們已經(jīng)看到物聯(lián)網(wǎng)設(shè)備能夠生成大數(shù)據(jù),但在實踐中,使用外部歷史數(shù)據(jù)集開發(fā)物聯(lián)網(wǎng)智能應(yīng)用程序的情況并不少見。這意味著可以依賴于由多個IoT設(shè)備的集合(通常是跨多個用戶的相同類型的設(shè)備)生成的數(shù)據(jù),或者依賴于完全不同的數(shù)據(jù)源。應(yīng)用程序越具體和獨特,現(xiàn)有數(shù)據(jù)集可用的可能性就越小 - 例如,當(dāng)設(shè)備捕獲與開源圖像數(shù)據(jù)集沒有相似性的非常特定類型的圖像時就是這種情況比如Imagenet?。話雖如此,物聯(lián)網(wǎng)應(yīng)用實際上是幾種現(xiàn)有現(xiàn)有模型的巧妙融合,這是很常見的。這使得轉(zhuǎn)移學(xué)習(xí)很好地適應(yīng)了物聯(lián)網(wǎng)環(huán)境中智能應(yīng)用的發(fā)展。
轉(zhuǎn)移學(xué)習(xí)范例包括在數(shù)據(jù)集上訓(xùn)練模型(通常是金標(biāo)準(zhǔn)模型)并使用它來對另一個數(shù)據(jù)集進(jìn)行推斷?;蛘撸梢允褂迷谏纱四P推陂g計算的參數(shù)作為在實際數(shù)據(jù)集上訓(xùn)練模型的起點,而不是將模型初始化為隨機值。在這種情況下,我們將原始模型稱為“預(yù)訓(xùn)練”模型,我們對特定于應(yīng)用程序的數(shù)據(jù)進(jìn)行微調(diào)。這種方法可以將訓(xùn)練階段加速幾個數(shù)量級。使用相同的范例,可以使用由最終用戶直接生成的數(shù)據(jù)來訓(xùn)練一般模型,然后根據(jù)具體情況對其進(jìn)行細(xì)化和優(yōu)化。
安全和隱私問題
由于互聯(lián)網(wǎng)連接設(shè)備技術(shù)通過提供物理和網(wǎng)絡(luò)世界之間的連接來擴展當(dāng)前的互聯(lián)網(wǎng),因此它生成的數(shù)據(jù)非常通用,但也是導(dǎo)致嚴(yán)重隱私問題的原因。事實上,參與物聯(lián)網(wǎng)的大約50%的組織認(rèn)為安全是物聯(lián)網(wǎng)部署的最大障礙??紤]到大約三分之二的物聯(lián)網(wǎng)設(shè)備在消費者領(lǐng)域,以及個人的一些共享數(shù)據(jù)是如何,很容易理解為什么。這些問題加上與頻繁數(shù)據(jù)傳輸?shù)皆粕系念A(yù)期風(fēng)險相結(jié)合,解釋了用戶為何要求保護(hù)其數(shù)據(jù)的保證。
然而,當(dāng)這些物聯(lián)網(wǎng)應(yīng)用程序由“聯(lián)合”數(shù)據(jù)(即多個用戶生成的數(shù)據(jù))提供支持時,事情變得更加陰險:用戶數(shù)據(jù)不僅可以直接泄露,還可以通過旁道攻擊間接暴露,當(dāng)惡意代理反向工程機器學(xué)習(xí)算法的輸出以推斷私人信息。由于這些原因,數(shù)據(jù)保護(hù)法明顯有必要與技術(shù)和應(yīng)用程序本身一起發(fā)展。
物聯(lián)網(wǎng)機器學(xué)習(xí)是以人為本的機器學(xué)習(xí)
由于物聯(lián)網(wǎng)設(shè)備使互聯(lián)網(wǎng)更貼近用戶并觸及人類生活的各個方面,因此它們通常允許收集高度上下文和個人數(shù)據(jù)。物聯(lián)網(wǎng)數(shù)據(jù)敘述其用戶生活的故事,并使其比以往更容易理解用戶的需求,愿望,歷史和偏好。這使得物聯(lián)網(wǎng)數(shù)據(jù)成為構(gòu)建根據(jù)用戶個性量身定制的個性化應(yīng)用程序的完美數(shù)據(jù)。
-
物聯(lián)網(wǎng)
+關(guān)注
關(guān)注
2912文章
44882瀏覽量
375730 -
機器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8437瀏覽量
132894
原文標(biāo)題:物聯(lián)網(wǎng)中機器學(xué)習(xí)的挑戰(zhàn)和機遇
文章出處:【微信號:Imgtec,微信公眾號:Imagination Tech】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論