我自己是做算法出身,喜歡思考問題的本質(zhì)。比如,AI對于我們整個工業(yè)視覺的本質(zhì)到底是什么。今天我把這個不僅是我的思考,也是阿丘科技整個公司的思考分享給大家,供大家參考。但這也是一個比較初級的思考,要在以后的實(shí)踐中深化。
今天我講的內(nèi)容包含三個主題,第一個是講AI對于工業(yè)視覺到底意味著什么;第二個是我們從整個技術(shù)發(fā)展周期的角度,看一看工業(yè)AI視覺發(fā)展的一個大的路線圖;第三個,也是必不可少的,要談一談我們對未來的一個趨勢和觀點(diǎn)的一些理解。
01
AI重構(gòu)工業(yè)視覺
Part.1
算法
首先我們來看第一個主題,AI對于工業(yè)視覺算法到底有什么價(jià)值?
傳統(tǒng)算法,我用兩個關(guān)鍵詞來定義它,就是定量分析和特征工程。特征工程就是算不同的特征。后面做判斷的時候,一堆的if···else···是傳統(tǒng)算法的一個特點(diǎn)。那AI這塊的話大家已經(jīng)很了解了,基于樣本來做學(xué)習(xí)。我認(rèn)為這是很本質(zhì)的一個東西。
從功能角度出發(fā),工業(yè)視覺算法可分為圖像處理、定位、檢測、測量、識別;從算法實(shí)現(xiàn)技術(shù)角度就是分類、識別、測量三大類。本質(zhì)上,工業(yè)視覺算法將會或正在被AI全部重構(gòu),當(dāng)然如果涉及到測量技術(shù),即定量分析技術(shù),傳統(tǒng)算法依然不可或缺。
AI重構(gòu)工業(yè)視覺算法的價(jià)值體現(xiàn)在以下 3 個方面:
a.
升維
AI通過升維來解決我們的一些復(fù)雜的分類和識別問題。包括復(fù)雜的背景、低對比度、柔性電子、一些強(qiáng)干擾。這些東西原來傳統(tǒng)方法是沒問題的,但是用AI的話,我覺得能更加好。這個點(diǎn)大家是能夠肉眼可見的。后面第二點(diǎn)和第三點(diǎn)可能未必肉眼可見,但實(shí)際上是更關(guān)鍵的。
b.
簡化、通用化
AI的一大優(yōu)勢是可以對算法問題做極度的抽象,抽象之后較為復(fù)雜的工業(yè)視覺問題就會變得比較簡單,還有一個就是通用化。很多工業(yè)視覺里面比較復(fù)雜的算法問題,后面實(shí)際上用兩到三個比較通用的算法模塊去訓(xùn)練數(shù)據(jù),結(jié)果就出來了,并且這個指標(biāo)還非常優(yōu)秀。
c.
降本
大家聽到這個東西好像有點(diǎn)反直覺,覺得AI對算力有要求,怎么還能降本?
我們舉一個所有做傳統(tǒng)算法的人都能夠理解的一個例子。比如幾何形狀匹配,這個屬于是整個機(jī)器視覺里面,傳統(tǒng)算法繞不過的這樣的一個算法,它需要設(shè)置非常多的參數(shù)。如果要用好,工程師需要理解幾何匹配算法的基本原理、參數(shù)的物理含義,這需要較為專業(yè)的圖像處理背景知識,門檻要求高。如果你理解不到位,可能定位的結(jié)果不是你想要的,或者達(dá)不到一個非常精準(zhǔn)的效果。要做到這一點(diǎn)的話,是需要有圖像處理算法背景的。所以說我原來做傳統(tǒng)圖像,就是我在原來東家的時候,我們帶著底下的應(yīng)用工程師都是碩士,這個成本是非常高的。
而我們用 AI 來做,比如說我們只是訓(xùn)練三、五個樣本,甚至是一個樣本,后面整個定位的精度跟效率都能夠達(dá)到,甚至超過傳統(tǒng)算法的精度。當(dāng)然,整個魯棒性肯定也比傳統(tǒng)算法要好。那這樣使用的成本就可以降到非常低。
Part.2
解決方案
這個解決方案的范疇是什么?可以說是視覺系統(tǒng)范疇,也可以說是視覺檢測設(shè)備范疇。叫解決方案,就是基于算法疊加的一個完整方案。我們內(nèi)部的觀點(diǎn)是,AI不僅僅是一個技術(shù)模塊,它是一種新的認(rèn)知框架,本質(zhì)上是基于數(shù)據(jù)和標(biāo)準(zhǔn)驅(qū)動的。首先我們要有這么一個認(rèn)知框架,再往下看我們的視覺解決方案,核心包括哪些部分?對這些部分意味著是什么?
我抽取了里面三個核心部分:
成像模組
成像模組就是整個機(jī)器視覺里面成像的所有器件跟方案,它背后的基本原理是什么?是基于傳統(tǒng)算法,而傳統(tǒng)算法基于定量分析。所以說我們基于傳統(tǒng)算法來做的成像方案,它的底層要求是“定量、高對比度”。
這個會導(dǎo)致什么樣的后果?比如說我們要檢測一個表面很多不同類型的缺陷。為了要達(dá)到高對比度的定量,可能我需要打若干場光。可能每場光對應(yīng)兩種缺陷,后面才能把這些缺陷完整的呈現(xiàn)出來,成像的效率非常低。
而我們進(jìn)入AI時代以后,我們對成像的要求變了,只要是目視可見即可。當(dāng)前基于傳統(tǒng)算法構(gòu)建的成像方案,本質(zhì)上還只是一個“光電轉(zhuǎn)換器”。只是把一個關(guān)鍵信號轉(zhuǎn)換成圖像,距離我們所說的眼睛差的太遠(yuǎn)了。當(dāng)然,我們也不可能一步躍成眼睛,那至少階段性的目標(biāo)我們是不是可以達(dá)到攝影水準(zhǔn)。這個做到了有什么好處呢?一方面是能夠提高我們整個成像的空間效率,更重要的是它簡化了、通用化了、成本低了。這是很重要的一個根本變化。
算法模組
客觀來說,當(dāng)前落地的各種項(xiàng)目,成本還是比較高的。根源在于大部分只是把AI作為一個算法模塊,把它疊加到原來的體系里面,就比較低效。后續(xù)算法方案一定要以AI為中心,打通和優(yōu)化整個計(jì)算流和數(shù)據(jù)流,這個才是最優(yōu)的方式,能夠提高訓(xùn)練推理效率、降低部署維護(hù)成本。
自動化模組
在傳統(tǒng)算法時代,由于成像有很多約束,自動化能發(fā)揮的作用非常受限。AI其實(shí)是打破了算法的束縛,本質(zhì)上也打破了我們成像的束縛??梢宰詣踊瘞臀覀兣膱D,各種“凹姿勢”“擺造型”。只要能將缺陷拍清楚就可以,并不需要那么明亮的成像。如果這么來做的話,極大地降低了自動化復(fù)雜度,提高了自動化通用性。并且能夠比較簡單高效地解決產(chǎn)品異形、多型號小批量等成像難題。
從大的維度來看,工業(yè)視覺解決方案會按兩個方向演進(jìn):
輕量級場景:更強(qiáng)調(diào)一體化,極致的簡單易用,可能需要線上訓(xùn)練。
復(fù)雜場景:更強(qiáng)調(diào)通用化解決方案,包括:通用成像模組、通用大模型、通用自動化模組,降低全鏈路綜合成本。
02
工業(yè)AI視覺進(jìn)化論
任何技術(shù)導(dǎo)入都有它的一個生命周期,每個階段有不同的特點(diǎn)?;诼涞囟鄠€項(xiàng)目的思考,我們將AI工業(yè)視覺發(fā)展路徑劃分為三個階段:早期市場時期(2019)、保齡球道時期(2024)、龍卷風(fēng)時期(2029)。
2019年是AI工業(yè)視覺元年,意味著有相關(guān)的AI項(xiàng)目落地,即早期市場。阿丘也是在這一年開始逐步項(xiàng)目落地,我們的第一個落地項(xiàng)目是3C行業(yè)的模組外觀檢測。
自 2021年開始,AI逐步在各細(xì)分市場成為標(biāo)配,該趨勢將延續(xù)到2024年,即所謂的保齡球道時期。阿丘從2021年開始在結(jié)構(gòu)件、模組、包裝等眾多細(xì)分市場批量落地。
預(yù)計(jì)在 2029年, AI 將在全域市場普及,即龍卷風(fēng)時期。
這是一個大概的判斷,時間周期有可能會早或晚,僅供大家參考。
2019
早期市場時期:技術(shù)創(chuàng)新
我們首先來看一下早期市場有什么特點(diǎn)?
核心還屬于是技術(shù)創(chuàng)新的一個時期。換句話說,AI這個東西在工業(yè)視覺里面到底能不能用,比較專業(yè)的說法就叫技術(shù)創(chuàng)新導(dǎo)向。
那么工業(yè)AI算法跟我們自然場景(比如人臉識別、自動駕駛)的技術(shù)到底有什么差別?一是小樣本,大家知道缺陷是由非受控因素產(chǎn)生的,獲取成本很高,所以需要小樣本;二是高精度,包括尺寸小、對比度低、過檢率和漏檢率指標(biāo)嚴(yán)格,特別是關(guān)鍵缺陷要達(dá)到零漏殺;三是低算力,本質(zhì)上是由于工業(yè)產(chǎn)品對成本有約束。
正是基于這些洞察,我們構(gòu)建了自主底層算法框架、上層算法工具,即大家耳熟能詳?shù)墓I(yè) AI 視覺軟件平臺AIDI。
在推AIDI的過程中,有兩個比較有意思的點(diǎn),在這里與大家分享下:
設(shè)備廠商甚至集成商大部分都有自研基礎(chǔ)AI算法的沖動,基本都無疾而終。甚至這個公司可能只有五六個人,他也安排一個人來自研。核心原因就兩個:一是有很多開源的框架;二是確實(shí)把這些數(shù)據(jù)拉到框架里充分跑一跑能看到不錯的指標(biāo)。但是真正上線時會受三個約束,即小樣本、高精度、低算力。所以很多人可能做到后面無法突破這三個約束,慢慢地就悄無聲息了。
通過和客戶的交流和我個人的思考,我認(rèn)為其實(shí)它是一個經(jīng)濟(jì)學(xué)問題,不是一個技術(shù)問題。我們在傳統(tǒng)算法時代,用OpenCV去做項(xiàng)目也能做一部分,但是大部分的系統(tǒng)和設(shè)備,還是一定要用專業(yè)的平臺軟件來做。在AI這個時代我認(rèn)為也是一樣的。能不能自研AI算法呢?我認(rèn)為是比自研傳統(tǒng)算法更難的。主要是三個方面:第一個方面,自然場景跟工業(yè)場景的問題特性有非常大的差別;第二個方面是AI算法的參數(shù)維度更多;第三個,要達(dá)到低算力,需要對算法做高性能優(yōu)化,優(yōu)化復(fù)雜度是非常高的。如果一個公司真的要自研AI算法,投入的強(qiáng)度要很高,要有很多工程師,所以我覺得最終它實(shí)際上是一個經(jīng)濟(jì)學(xué)問題。
總的來說,如果大家投入資源的強(qiáng)度足夠,我認(rèn)為也能夠做一個至少能用的東西,但如果要做到更好,就看你有沒有天花板足夠高的團(tuán)隊(duì)。
有些人問我,做傳統(tǒng)算法的視覺廠商來做AI算法是更容易還是更難?針對這個問題我還真是進(jìn)行了深度的思考,這也是我想給大家分享的第二個點(diǎn)。其實(shí)我認(rèn)為是更難,可能比一個完全初創(chuàng)的公司還更難。為什么?本質(zhì)上AI算法和傳統(tǒng)算法的架構(gòu)和迭代范式完全不同,研發(fā)理念也是天壤之別。要從傳統(tǒng)算法的方式切換到AI,我不是說沒有可能,只是概率較小。
阿丘落地的第一個項(xiàng)目是3C模組外觀檢測,這個項(xiàng)目是有一定復(fù)雜度的。其中涉及注塑件、金屬件等多種材料組合,產(chǎn)品異形,缺陷種類多達(dá)70余種、形態(tài)多變。?檢測要求漏檢率低于0.1%,過檢率3%左右,以傳統(tǒng)算法視角看來該項(xiàng)目基本無解。我們從方案到樣機(jī)上線花了超過6個月的時間,在項(xiàng)目進(jìn)行過程中,我們發(fā)現(xiàn) POC指標(biāo)和上線指標(biāo)之間存在巨大鴻溝。為什么會有這個鴻溝?我認(rèn)為主要有四個方面:
第一個就是對AI的認(rèn)知。它到底能解決什么問題?不能解決什么問題?所謂AI是不論復(fù)雜度的,只要學(xué)習(xí)過的,再復(fù)雜也可以解決,沒學(xué)習(xí)過的再簡單也無法解決。
第二個是對需求邊界的認(rèn)知,AI本身無法分辨正確與錯誤,這意味著你給它錯誤的樣本,它也會學(xué)習(xí)。從這個角度,他對標(biāo)準(zhǔn)是有很嚴(yán)格的要求的。
第三個是對數(shù)據(jù)的管理。核心主要是兩個點(diǎn),如何把握標(biāo)注的標(biāo)準(zhǔn)以及如何篩選對迭代模型有信息量的數(shù)據(jù)。標(biāo)注標(biāo)準(zhǔn)太嚴(yán)苛,成本太高;不夠嚴(yán)苛,標(biāo)準(zhǔn)對AI來說又不明確。
最后一個是模型相關(guān)的問題。如何保證指標(biāo)的穩(wěn)定性和在產(chǎn)線間進(jìn)行復(fù)制。比如,不同的產(chǎn)品型號該如何做到兼容。
為了解決這些問題,我們基于項(xiàng)目經(jīng)驗(yàn),提煉出了AI落地方法論,比較成熟的方法,就會成為AIDI產(chǎn)品功能的一個組成部分。
該階段客戶的特征:擁抱新技術(shù)、有痛點(diǎn)、有一定支付能力。我認(rèn)為這三個特征缺一不可。這樣來看,早期我們項(xiàng)目落地在3C行業(yè)是有其必然性的,因?yàn)橐訟pple為主驅(qū)動的3C供應(yīng)鏈?zhǔn)亲钤鐡肀录夹g(shù)的行業(yè)之一。并且在3C供應(yīng)鏈中,自動化程度最低的就在質(zhì)檢環(huán)節(jié)。前幾年疫情引起的人員受限等問題更加推動了檢測自動化。由于檢測問題的復(fù)雜性,傳統(tǒng)算法時代實(shí)現(xiàn)檢測自動化可能性非常小。當(dāng)然也做了一些AOI,但實(shí)現(xiàn)的效果不太好,沒有一個真正的解決方案??赡苣闵狭艘慌_設(shè)備,但還需要更多的人來維護(hù)這臺設(shè)備。AI提供了全新的強(qiáng)力的技術(shù)手段,和更多的可能性!
2024
保齡球道時期:產(chǎn)品創(chuàng)新
早期市場階段,我認(rèn)為是找一些場景落地,后面到了保齡球道時期,一定是在細(xì)分市場。
這里面的一個焦點(diǎn)就是產(chǎn)品創(chuàng)新。從算法維度來看就是算法的標(biāo)準(zhǔn)化,包括工具鏈標(biāo)準(zhǔn)化。把前面說的那套落地方法論抽象成一套工具,集成到產(chǎn)品中,讓大家更方便地使用。從解決方案維度,核心點(diǎn)在于創(chuàng)新簡化。發(fā)掘AI特性,在提高檢測性能的同時,簡化成像、算法、自動化解決方案,縮短產(chǎn)品上市周期,降低產(chǎn)品生命周期綜合成本。
該階段客戶的特征:有痛點(diǎn)且關(guān)注性價(jià)比。我們認(rèn)為這個階段還需要延續(xù)兩到三年的時間。
2029
龍卷風(fēng)時期:行業(yè)價(jià)值鏈重構(gòu)
下一個時期就是龍卷風(fēng)時期,重點(diǎn)在于重構(gòu)行業(yè)價(jià)值鏈。
該時期的前置條件是殺手級產(chǎn)品的出現(xiàn),該殺手級產(chǎn)品把行業(yè)價(jià)值鏈卷一遍,在暴風(fēng)過后,將會呈現(xiàn)新的價(jià)值鏈格局。比如,移動互聯(lián)網(wǎng)時代的殺手級產(chǎn)品就是iPhone。視覺行業(yè)的殺手級產(chǎn)品是康耐視的VisionPro,有了這個產(chǎn)品才定義了我們現(xiàn)在提到的很多術(shù)語。那AI時代的殺手級產(chǎn)品是什么?這個還是需要由市場來選擇。
龍卷風(fēng)時期的重要特征:大量“偽AI公司出現(xiàn)”。特別是傳統(tǒng)視覺公司沒有涉及AI也紛紛披上AI的外衣,因?yàn)榇蠹叶几兄奖╋L(fēng)即將來臨,想跟上風(fēng)潮的同時又恐懼被暴風(fēng)卷走。
03
演進(jìn)趨勢觀點(diǎn)
談?wù)勎覀儗ξ磥?-5年的演進(jìn)趨勢的一些判斷。
? 第一個是算法方面,有三個趨勢:第一個是非監(jiān)督,這個主要針對輕量級場景;第二個是大模型,前面提到對于復(fù)雜場景,大模型是最佳機(jī)會;最后一個是輕量化,即低算力,低成本是工業(yè)視覺永恒的關(guān)鍵維度。
??第二個趨勢屬于解決方案。第一個核心還是簡化和通用化,前面提到的成像、算法自動化都是屬于簡化、通用化。還有一個是全鏈路的成本優(yōu)化。這是什么意思?一個行業(yè)要達(dá)到最大化普及,成本是很關(guān)鍵的一個因素。整個鏈條包括硬件、算力、開發(fā)成本、部署成本、維護(hù)成本,如何實(shí)現(xiàn)整體最低。
??第三個我認(rèn)為是整個行業(yè)大的趨勢。未來五年左右,一定會出現(xiàn)殺手級產(chǎn)品。這個產(chǎn)品的出現(xiàn)靠能力,也要靠點(diǎn)運(yùn)氣,最終它是由市場篩選出來。整個行業(yè)將會因?yàn)檫@個殺手級產(chǎn)品重新洗牌。這個殺手級產(chǎn)品的出現(xiàn)將影響什么?我分享一下我個人的觀點(diǎn):第一個就是不了解AI的工程師可能將被淘汰。還有一個就是傳統(tǒng)的視覺公司從業(yè)者能不能在大的圖景里面創(chuàng)造價(jià)值,否則也會被淘汰。這個我們可以用時間來檢驗(yàn)。
編輯:黃飛
評論
查看更多