0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
电子发烧友
开通电子发烧友VIP会员 尊享10大特权
海量资料免费下载
精品直播免费看
优质内容免费畅学
课程9折专享价
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

演講實(shí)錄丨阿丘科技李嘉悅:大模型驅(qū)動(dòng)的AI檢測(cè)范式變革——大模型、小模型、智能體的協(xié)同進(jìn)化

阿丘科技 ? 2025-04-02 16:21 ? 次閱讀

3月28日,由機(jī)器視覺(jué)產(chǎn)業(yè)聯(lián)盟(CMVU)主辦、慕尼黑展覽(上海)有限公司承辦的VisionChina2025(上海)機(jī)器視覺(jué)展在上海新國(guó)際博覽中心圓滿落幕。阿丘科技產(chǎn)品總監(jiān)李嘉悅在機(jī)器視覺(jué)及工業(yè)應(yīng)用研討會(huì)現(xiàn)場(chǎng),圍繞“大模型驅(qū)動(dòng)的AI檢測(cè)范式變革:大模型、小模型與智能體的協(xié)同進(jìn)化”的主題,發(fā)表了精彩演講。

72f1bad0-0f9b-11f0-9434-92fbcf53809c.png

尊敬的各位來(lái)賓,我是嘉悅,來(lái)自北京阿丘科技。今天,我將與大家分享《大模型驅(qū)動(dòng)的AI檢測(cè)范式變革:大模型、小模型與智能體的協(xié)同進(jìn)化》。

在探討大模型之前,讓我們簡(jiǎn)單回顧一下工業(yè)AI視覺(jué)的發(fā)展歷程。2019年被視為工業(yè)AI視覺(jué)的元年,當(dāng)時(shí)以CNN為主流的小模型路線開(kāi)始在早期客戶中落地。后續(xù)一直到2024年,工業(yè)AI視覺(jué)處于一個(gè)跨越鴻溝的階段,AI開(kāi)始逐漸在各個(gè)細(xì)分領(lǐng)域和市場(chǎng)中普及,從頭部客戶到腰部客戶,甚至在某些細(xì)分行業(yè)已經(jīng)成為標(biāo)配。到了2025年可以說(shuō),我們已經(jīng)基本跨越了這個(gè)鴻溝,表現(xiàn)為大部分客戶已經(jīng)認(rèn)可AI在工業(yè)領(lǐng)域的實(shí)用性,認(rèn)可AI在工業(yè)檢測(cè)中的落地能力。

然而這幾年雖然認(rèn)知是變化了,但AI檢測(cè)應(yīng)用的增長(zhǎng)速度并不算快,呈現(xiàn)出較為線性的增長(zhǎng)趨勢(shì),遠(yuǎn)未達(dá)到爆發(fā)狀態(tài),沒(méi)有形成質(zhì)變。原因在于小模型技術(shù)路線存在一些長(zhǎng)期困擾行業(yè)的問(wèn)題:樣本收集周期長(zhǎng)、模型迭代周期長(zhǎng)以及模型泛化能力差。

樣本收集方面,工業(yè)缺陷樣本稀缺,收集周期漫長(zhǎng)。模型迭代過(guò)程中,非專業(yè)工程師在調(diào)優(yōu)模型時(shí)常常面臨不收斂的問(wèn)題,導(dǎo)致AI落地周期延長(zhǎng)。此外,小模型的泛化能力不足,對(duì)于未見(jiàn)過(guò)的樣本,模型往往無(wú)法準(zhǔn)確識(shí)別,這又回到了樣本收集的難題上。這些問(wèn)題成為了制約AI檢測(cè)落地和增長(zhǎng)的關(guān)鍵因素。

為了解決這些問(wèn)題,阿丘科技這幾年一直在探索和嘗試。令人興奮的是,在去年AI領(lǐng)域出現(xiàn)了一個(gè)非常大的技術(shù)變量,通用大模型爆發(fā)式涌現(xiàn)了。從大家熟悉的OpenAI的ChatGPT,到后來(lái)的豆包、Kimi,再到春節(jié)期間爆火的DeepSeek,3月出現(xiàn)的Manus智能體,這些大模型引發(fā)了廣泛討論。我們可以看到,通用AI智能的能力水平正在以驚人的速度提升,可能已經(jīng)超越了許多普通人的智力和知識(shí)水平。雖然通用大模型不直接影響AI檢測(cè),但它標(biāo)志著AI技術(shù)已經(jīng)來(lái)到了一個(gè)突破點(diǎn),預(yù)示著即將迎來(lái)突破性的影響。

73210312-0f9b-11f0-9434-92fbcf53809c.png

回歸到工業(yè)檢測(cè)本身,大模型技術(shù)的變遷會(huì)產(chǎn)生哪些影響呢?對(duì)于大模型在工業(yè)檢測(cè)中的應(yīng)用,存在兩種不同的聲音。一種較為保守的觀點(diǎn)認(rèn)為,大模型與工業(yè)檢測(cè)無(wú)關(guān),它更像一個(gè)聊天機(jī)器人,可以輔助一些文書(shū)類工作,無(wú)法適應(yīng)工業(yè)場(chǎng)景的嚴(yán)格的準(zhǔn)確性要求。在工業(yè)檢測(cè)中無(wú)法發(fā)揮作用。另一種較為激進(jìn)的觀點(diǎn)則認(rèn)為,大模型的能力極其強(qiáng)大,很快就可以直接接入工廠,一步到位實(shí)現(xiàn)自動(dòng)化質(zhì)檢。

而阿丘科技,一直對(duì)大模型技術(shù)發(fā)展進(jìn)行了長(zhǎng)期關(guān)注,我們的觀點(diǎn)是,大模型確實(shí)會(huì)加速AI檢測(cè)范式的轉(zhuǎn)變,但它并不是一個(gè)非此即彼的替代關(guān)系,我們認(rèn)為,大模型將進(jìn)入工業(yè)檢測(cè)領(lǐng)域,并與小模型形成協(xié)同關(guān)系。


一、什么是大模型、小模型、智能體

接下來(lái),我想簡(jiǎn)單科普一下什么是大模型、小模型、智能體。

小模型通常指的是傳統(tǒng)的深度學(xué)習(xí)網(wǎng)絡(luò),如CNN等,其參數(shù)規(guī)模較小,通常在百萬(wàn)級(jí)。小模型在數(shù)據(jù)處理能力上存在一定限制,對(duì)數(shù)據(jù)量和數(shù)據(jù)多樣性要求較高,對(duì)數(shù)據(jù)質(zhì)量和一致性的要求也較為嚴(yán)格。這也就是為什么在工業(yè)檢測(cè)中,我們要求標(biāo)注必須準(zhǔn)確無(wú)誤,否則模型會(huì)產(chǎn)生混淆。小模型的知識(shí)模態(tài)通常是單模態(tài),要么是文本,要么是圖像、視頻等。其泛化性能相對(duì)較差,因?yàn)樗鼈冎粚W(xué)習(xí)了特定的、局部的知識(shí)。例如,一個(gè)用于車牌識(shí)別的小模型,只能進(jìn)行車牌識(shí)別,無(wú)法識(shí)別其他物體。

相比之下,大模型采用了Transformer等架構(gòu),解決了小模型在長(zhǎng)時(shí)間和遠(yuǎn)距離依賴問(wèn)題上的不足。這種架構(gòu)允許我們通過(guò)堆疊海量數(shù)據(jù)和參數(shù)來(lái)提升模型能力,參數(shù)規(guī)模通常達(dá)到數(shù)十億甚至上百億。大模型能夠接收批量規(guī)模的文本、圖像、音頻等多模態(tài)數(shù)據(jù),并對(duì)其進(jìn)行處理。它對(duì)數(shù)據(jù)中的噪聲和不一致性具有較強(qiáng)的魯棒性,即使數(shù)據(jù)中存在一些錯(cuò)誤,也不會(huì)對(duì)模型產(chǎn)生太大影響。大模型通常是多模態(tài)的,如視覺(jué)語(yǔ)言模型、聽(tīng)覺(jué)語(yǔ)言模型等,具有出色的泛化性能,能夠在未見(jiàn)過(guò)的數(shù)據(jù)和新任務(wù)上表現(xiàn)出較好的適應(yīng)性和舉一反三的能力。

智能體可以簡(jiǎn)單理解為大模型應(yīng)用的一種包裝形式,它可以自主完成一系列動(dòng)作以達(dá)成目標(biāo),類似于一個(gè)輔助人類的小助理。智能體并不是一個(gè)單獨(dú)的模型分類,而是大模型在特定應(yīng)用方式下的體現(xiàn)。

接下來(lái),我們簡(jiǎn)單了解一下這些模型是如何訓(xùn)練出來(lái)的,這有助于我們理解模型為何具有這樣的能力。

首先,無(wú)論是小模型還是大模型,都需要經(jīng)過(guò)預(yù)處理階段。在這個(gè)階段,所有的非數(shù)字類信息都會(huì)被轉(zhuǎn)化為數(shù)字信息,以便計(jì)算機(jī)進(jìn)行處理。

其次是訓(xùn)練過(guò)程。對(duì)于小模型來(lái)說(shuō),訓(xùn)練過(guò)程主要是對(duì)專業(yè)知識(shí)的學(xué)習(xí),可以采用監(jiān)督學(xué)習(xí)或非監(jiān)督學(xué)習(xí)的方式,在工業(yè)檢測(cè)領(lǐng)域,監(jiān)督學(xué)習(xí)的應(yīng)用較為廣泛。

而對(duì)于大模型,其訓(xùn)練過(guò)程則有所不同,通常分為兩個(gè)階段。首先是預(yù)訓(xùn)練階段。在這個(gè)階段,模型通過(guò)大量的互聯(lián)網(wǎng)信息,以自監(jiān)督的方式學(xué)習(xí)通用知識(shí)。這個(gè)過(guò)程通常需要消耗大量資金、算力和時(shí)間,因此,當(dāng)人們提到做大模型燒錢時(shí),通常指的是這個(gè)預(yù)訓(xùn)練階段。預(yù)訓(xùn)練之后,還有一個(gè)關(guān)鍵步驟叫做微調(diào)。由于互聯(lián)網(wǎng)數(shù)據(jù)可能存在信息不全或不準(zhǔn)確,需要通過(guò)微調(diào)來(lái)提升模型的專業(yè)度。微調(diào)的其中一種方式是人工標(biāo)注,類似于我們?cè)诠I(yè)檢測(cè)中對(duì)缺陷進(jìn)行標(biāo)注一樣,人工標(biāo)注會(huì)告訴模型正確答案,然后模型會(huì)根據(jù)這些標(biāo)注數(shù)據(jù)進(jìn)行學(xué)習(xí)。此外,還有一種新興的方式是強(qiáng)化學(xué)習(xí),即通過(guò)給模型的答案打分,讓模型不斷嘗試,直到達(dá)到較高的分?jǐn)?shù),從而確定最終答案。這兩種方法在實(shí)際應(yīng)用中都有所采用。

735038f8-0f9b-11f0-9434-92fbcf53809c.jpg

前面我們所討論的大模型概念,通常指的是我們?nèi)粘=佑|的一些應(yīng)用場(chǎng)景,然而,當(dāng)大模型真正應(yīng)用于企業(yè)時(shí),它可以細(xì)分為多個(gè)層次。

除了通用大模型,適用于多種任務(wù)和生活場(chǎng)景的模型之外,還有行業(yè)大模型,這類模型是為特定行業(yè)量身定制的,具備該行業(yè)的專業(yè)性。例如,在煤礦領(lǐng)域的大模型需要了解煤礦行業(yè)的各種專業(yè)知識(shí);在醫(yī)療領(lǐng)域,大模型可以作為醫(yī)生的助理,具備一定的專業(yè)輔助能力。

再往下細(xì)分,還有場(chǎng)景大模型,這類模型針對(duì)特定的應(yīng)用場(chǎng)景進(jìn)行設(shè)計(jì),具有更強(qiáng)的專業(yè)性。例如,用于磁材檢測(cè)的大模型、煙草檢測(cè)的大模型,或者針對(duì)某種工藝缺陷檢測(cè)的大模型等。

最后是場(chǎng)景小模型,這是我們目前應(yīng)用的主流。它專注于特定場(chǎng)景中的特定任務(wù),在該任務(wù)上具有很強(qiáng)的專業(yè)性。例如,專門用于檢測(cè)某一產(chǎn)品某一缺陷項(xiàng)的模型,它可能無(wú)法檢測(cè)其他產(chǎn)品或其他缺陷項(xiàng),這種場(chǎng)景小模型在日常應(yīng)用中非常普遍。另外,按技術(shù)類型劃分,還可以分為單模態(tài)和多模態(tài)模型。多模態(tài)模型結(jié)合了多種不同類型的數(shù)據(jù),如文本、圖像、視頻等,具有更強(qiáng)大的理解和生成能力。

在企業(yè)應(yīng)用大模型時(shí),一個(gè)關(guān)鍵點(diǎn)是要準(zhǔn)確匹配企業(yè)自己的實(shí)際問(wèn)題和需求,然后選擇合適的模型。我們不能僅僅憑借感覺(jué)或偏好來(lái)選擇模型,不同模型的效果和訓(xùn)練開(kāi)銷存在很大差異,我們要避免“殺雞用牛刀”或“殺牛用雞刀”的情況。


二、工業(yè)視覺(jué)如何運(yùn)用大小模型?

回到工業(yè)視覺(jué)領(lǐng)域,要探討如何合理運(yùn)用大小模型,我們可以來(lái)列舉和分析一下它們與工業(yè)檢測(cè)的匹配度。

首先,通用AI大模型是通過(guò)大量互聯(lián)網(wǎng)數(shù)據(jù)訓(xùn)練出來(lái)的,然而,工業(yè)數(shù)據(jù)在互聯(lián)網(wǎng)上相對(duì)較少,尤其是工業(yè)質(zhì)量數(shù)據(jù)。因此,這類通用大模型在工業(yè)檢測(cè)中的準(zhǔn)確度通常較差,直接應(yīng)用于工業(yè)檢測(cè)的效果并不理想。

相比之下,我們有機(jī)會(huì)構(gòu)建專門的工業(yè)檢測(cè)大模型,這類模型類似于行業(yè)大模型的層次。通過(guò)大量工業(yè)數(shù)據(jù)、文本和圖像進(jìn)行訓(xùn)練,能夠?qū)W習(xí)到各行各業(yè)、各種制造領(lǐng)域中不同產(chǎn)品的各種缺陷知識(shí),因此在工業(yè)檢測(cè)領(lǐng)域具有很強(qiáng)的泛化能力。然而,它的準(zhǔn)確度和精確度存在一定的上限,推理速度也相對(duì)較慢。工業(yè)檢測(cè)大模型類似于企業(yè)中的綜合性人才,對(duì)于常見(jiàn)的任務(wù)和稍微專業(yè)一些的工作,它可以勝任。例如,今天檢測(cè)一種產(chǎn)品,明天換到另一個(gè)車間檢測(cè)另一種產(chǎn)品,它都能很快適應(yīng)。這種模型適合于工業(yè)場(chǎng)景中典型的工藝,以及對(duì)檢測(cè)指標(biāo)和速度要求不是特別嚴(yán)格的場(chǎng)景,能夠?qū)崿F(xiàn)即插即用的效果。

737473e4-0f9b-11f0-9434-92fbcf53809c.png

接下來(lái)是場(chǎng)景大模型,這類模型學(xué)習(xí)了一定規(guī)模的特定范圍內(nèi)的知識(shí),因此在準(zhǔn)確度、處理速度和泛化能力方面表現(xiàn)出色。在特定場(chǎng)景內(nèi),它可以實(shí)現(xiàn)即插即用,應(yīng)用性非常好。就像直接聘請(qǐng)一位本領(lǐng)域的資深專家,他來(lái)了就能直接上手工作。這種模型適用于工藝具有一定代表性、積累了大量同場(chǎng)景不同產(chǎn)品數(shù)據(jù)的情況,同時(shí)待檢產(chǎn)品型號(hào)較多,需要一定的泛化能力。

然后是小模型,它專注于學(xué)習(xí)特定的知識(shí),優(yōu)勢(shì)在于準(zhǔn)確度高和推理速度快。由于它只專注于一個(gè)任務(wù),延展能力有限,類似于聘請(qǐng)了一位小學(xué)生,專門訓(xùn)練他完成一項(xiàng)任務(wù),他可以將這項(xiàng)任務(wù)完成得非常好,而且成本較低。小模型適用于工藝獨(dú)特、數(shù)據(jù)較少的場(chǎng)景,或者對(duì)檢測(cè)指標(biāo)要求較高的情況,以及產(chǎn)品品類有限、不追求泛化能力的場(chǎng)景。

最后是智能體,智能體在工業(yè)檢測(cè)領(lǐng)域可以作為一個(gè)自主模型訓(xùn)練的小助手。目前,許多員工在重復(fù)性的工作中投入了大量時(shí)間,而引入智能體可以大幅降低模型迭代的難度和時(shí)間成本。

綜合來(lái)看,工業(yè)市場(chǎng)是一個(gè)高度碎片化的市場(chǎng),各種場(chǎng)景、缺陷類型和指標(biāo)要求都存在。這意味著在工業(yè)檢測(cè)中,大小模型的協(xié)同是一個(gè)必然趨勢(shì),沒(méi)有哪一種模型能夠完全取代其他模型覆蓋所有場(chǎng)景。

同時(shí),協(xié)同并不意味著是一種固定的模式,相反,隨著技術(shù)的快速進(jìn)步,這一過(guò)程一定是動(dòng)態(tài)的。例如,在2024年,可能95%以上的應(yīng)用都是小模型,只有少數(shù)企業(yè)開(kāi)始落地場(chǎng)景大模型,并取得了不錯(cuò)的效果。到了今年,大模型的應(yīng)用正在快速增長(zhǎng),工業(yè)檢測(cè)大模型可能迎來(lái)其首個(gè)落地場(chǎng)景。預(yù)計(jì)在未來(lái)的2026、2027、2028年,大模型系統(tǒng)將處于快速增加的狀態(tài),但五年后可能會(huì)趨于平穩(wěn),三種模型的應(yīng)用場(chǎng)景分工將逐漸明確和固定下來(lái)。此外,模型訓(xùn)練智能體有望在未來(lái)一年左右時(shí)間內(nèi)出現(xiàn)在市場(chǎng)上。


三、阿丘科技AI模型產(chǎn)品布局

沿著這些思路,阿丘科技正在布局自己的AI產(chǎn)品序列。首先,我們?nèi)匀槐A粜∧P头较虻漠a(chǎn)品,因?yàn)樵谖磥?lái)幾年內(nèi),小模型仍將在應(yīng)用中占據(jù)較大比重。我們?yōu)檫@一領(lǐng)域的場(chǎng)景提供開(kāi)發(fā)工具套件,如大家熟悉的AIDI等軟件工具型產(chǎn)品,它們追求高精度、高準(zhǔn)確度和高速性能。

7381c0c6-0f9b-11f0-9434-92fbcf53809c.png

對(duì)于場(chǎng)景大模型類產(chǎn)品,我們直接提供面向特定場(chǎng)景的端到端即插即用模型。除了去年分享過(guò)的PCB領(lǐng)域的大模型應(yīng)用,今年我們還嘗試了在磁材、煙草、金屬和塑料表面等場(chǎng)景的模型落地,并取得了良好的效果,將落地周期從幾個(gè)月縮短到了一周左右。

工業(yè)檢測(cè)大模型產(chǎn)品也是我們今年研發(fā)的重點(diǎn)。我們稱之為AQ-VLM,即阿丘的視覺(jué)語(yǔ)言模型,它是基于我們之前積累的所有工業(yè)圖像數(shù)據(jù)資產(chǎn)構(gòu)建的一個(gè)智能的基座模型。這個(gè)大模型分為兩個(gè)部分,一個(gè)是用于缺陷檢測(cè)的工業(yè)視覺(jué)大模型,這個(gè)大模型能夠在一些常見(jiàn)的通用工業(yè)檢測(cè)場(chǎng)景中實(shí)現(xiàn)即插即用。同時(shí),我們還開(kāi)放了模型微調(diào)窗口,只需原來(lái)小模型所需數(shù)據(jù)量的1%左右,就可以快速微調(diào)模型,以適應(yīng)新的領(lǐng)域。

73a4add4-0f9b-11f0-9434-92fbcf53809c.png

另一個(gè)分支是通用缺陷生成模型,同樣基于我們積累的高質(zhì)量工業(yè)數(shù)據(jù)進(jìn)行訓(xùn)練,并支持提示和參考圖結(jié)合的方式進(jìn)行生成。由于工業(yè)圖像數(shù)據(jù)對(duì)質(zhì)量要求較高,我們通過(guò)文本編碼器和圖像編碼器相結(jié)合的方式進(jìn)行生成,以確保生成的數(shù)據(jù)能夠滿足模型訓(xùn)練的要求。

這是一個(gè)正在研發(fā)中的產(chǎn)品,我們制作了一個(gè)小型demo在展臺(tái)供大家分享。例如您可以導(dǎo)入任意一張圖片,然后給它一個(gè)指令,比如“請(qǐng)幫我檢測(cè)這張圖像中的臟污”,它能夠理解您的意思并框出缺陷的位置。同樣,對(duì)于缺陷生成模型,您可以輸入產(chǎn)品圖樣,并要求生成某種特定的缺陷,如“請(qǐng)幫我這張圖像的右下角生成一個(gè)凹陷”。

接下來(lái)是智能體的部分。智能體不會(huì)作為我們的一個(gè)單獨(dú)的產(chǎn)品品類存在,而是更多地集成到我們的模型訓(xùn)練開(kāi)發(fā)平臺(tái)中。它的使用模式是將原本許多人工重復(fù)性的工作,包括一些需要專業(yè)知識(shí)的重復(fù)性工作,轉(zhuǎn)變?yōu)橛芍悄荏w完成。我們的目標(biāo)是讓人工只需負(fù)責(zé)保障標(biāo)準(zhǔn)的正確性,其余工作都交由智能體處理。所以智能體可能嵌入在AIDI或阿丘的其他訓(xùn)練平臺(tái)中。我們相信,未來(lái)智能體將成為小模型和大模型訓(xùn)練過(guò)程中的核心“人員”。


四、實(shí)踐案例

最后,我想分享一個(gè)實(shí)踐案例,以幫助大家更好地理解大小模型協(xié)同的概念。

我們最近在幾個(gè)不同的客戶中在嘗試金屬結(jié)構(gòu)件檢測(cè)的場(chǎng)景。這些客戶都已經(jīng)非常認(rèn)可AI技術(shù),但仍被一些問(wèn)題所困擾,如周期過(guò)長(zhǎng)、模型不收斂等。于是,我們嘗試通過(guò)VLM和小模型協(xié)同的方案,看看是否能夠?qū)崿F(xiàn)模型的復(fù)用,從而解決這些問(wèn)題。

73d3da1e-0f9b-11f0-9434-92fbcf53809c.png

具體來(lái)說(shuō),我們針對(duì)不同的缺陷類型采取了不同的策略。對(duì)于明顯的缺陷,我們可以直接使用大模型進(jìn)行檢測(cè)。例如,金屬表面上的壓傷是一種非常典型的缺陷類型,大模型此前已經(jīng)經(jīng)過(guò)充分學(xué)習(xí),我們可以直接輸入指令,如“幫我檢測(cè)一下壓傷”,模型就能直接識(shí)別出壓傷,無(wú)需額外訓(xùn)練。

對(duì)于不那么明顯但相對(duì)常見(jiàn)的缺陷,如果我有一些樣本數(shù)據(jù),我們可以采用VLM加上微調(diào)的方法來(lái)實(shí)現(xiàn)檢測(cè)。例如,劃傷也是一種常見(jiàn)缺陷,但在某些場(chǎng)景中,劃傷可能很輕,看起來(lái)對(duì)比度很低,模型之前沒(méi)有學(xué)習(xí)過(guò)如此輕微的劃傷。我們可以通過(guò)微調(diào),將這些對(duì)比度很低的劃傷樣本數(shù)據(jù)額外輸入模型,使其能夠順利識(shí)別出這種劃傷。

第三種情況是缺陷既不明顯又較為罕見(jiàn),幾乎沒(méi)有通用性。針對(duì)這種情況,我們采用生成式AI結(jié)合小模型和智能體的方法來(lái)解決。我們可以給生成模型輸入一張良品圖,再結(jié)合真實(shí)的缺陷參考圖,然后輸入一個(gè)指令,如“幫我生成一個(gè)類似的缺陷”,模型會(huì)理解您的意思,并生成一個(gè)形態(tài)不同但看起來(lái)較為真實(shí)的缺陷圖像。然后,我們將這些真實(shí)圖和生成圖作為訓(xùn)練數(shù)據(jù)集輸入到AIDI中進(jìn)行訓(xùn)練,這個(gè)過(guò)程可以利用智能體來(lái)輔助。最終,我們可以在場(chǎng)景中實(shí)現(xiàn)實(shí)現(xiàn)對(duì)缺陷的良好識(shí)別。

總結(jié)來(lái)說(shuō),對(duì)于明顯的缺陷,我們?nèi)渴褂么竽P蚔LM解決;對(duì)于不明顯但常見(jiàn)的缺陷,我們使用VLM加微調(diào)的方法;對(duì)于不明顯且罕見(jiàn)的缺陷,我們采用生成大模型+小模型+智能體的方式。當(dāng)然,這些模型的能力邊界是動(dòng)態(tài)變化的,因此,我們的方案也保持一定的開(kāi)放性,例如也許對(duì)明顯且長(zhǎng)尾的缺陷可以采用非監(jiān)督小模型,這些都有很多可能性,這些也是我們會(huì)持續(xù)關(guān)注的方向。

最后總結(jié)一下,去年展會(huì)演講時(shí),我們老板說(shuō)過(guò)一句話:“不會(huì)用AI的將會(huì)被用AI的淘汰。”今年,在這個(gè)快速變化的時(shí)代,我要補(bǔ)充一句:“AI工業(yè)視覺(jué)的格局正在加速變革,不會(huì)用大模型的將會(huì)被善用大模型的人淘汰?!?/span>

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    33475

    瀏覽量

    274042
  • 協(xié)同進(jìn)化
    +關(guān)注

    關(guān)注

    0

    文章

    3

    瀏覽量

    5594
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    2926

    瀏覽量

    3676
收藏 0人收藏

    評(píng)論

    相關(guān)推薦

    首創(chuàng)開(kāi)源架構(gòu),天璣AI開(kāi)發(fā)套件讓端側(cè)AI模型接入得心應(yīng)手

    科正將AI能力體系化并賦能終端生態(tài)。 大會(huì)上,聯(lián)發(fā)科定義了“智能化用戶體驗(yàn)”的五大特征:主動(dòng)及時(shí)、知你懂你、互動(dòng)協(xié)作、學(xué)習(xí)進(jìn)化和專屬隱私信息守護(hù)。這五大特征需要跨越從芯片、
    發(fā)表于 04-13 19:52

    展會(huì)預(yù)告科技攜前沿AI亮相VisionChina2025上海站

    科技將展示其在AI+產(chǎn)業(yè)領(lǐng)域的最新成果,通過(guò)前沿通用AI模型、高精度專用視覺(jué)小模型、軟硬一智能
    的頭像 發(fā)表于 03-20 15:48 ?299次閱讀
    展會(huì)預(yù)告<b class='flag-5'>丨</b><b class='flag-5'>阿</b><b class='flag-5'>丘</b>科技攜前沿<b class='flag-5'>AI</b>亮相VisionChina2025上海站

    AI眼鏡大模型激戰(zhàn):多大模型協(xié)同、交互時(shí)延低至1.3S

    電子發(fā)燒友網(wǎng)報(bào)道(文/莫婷婷)“百鏡大戰(zhàn)”開(kāi)始時(shí),也是AI模型智能眼鏡端加速落地的開(kāi)始,一場(chǎng)關(guān)于智能眼鏡的“百模大戰(zhàn)”也同步進(jìn)行。幾乎今年剛推出的
    的頭像 發(fā)表于 03-20 08:59 ?937次閱讀
    <b class='flag-5'>AI</b>眼鏡大<b class='flag-5'>模型</b>激戰(zhàn):多大<b class='flag-5'>模型</b><b class='flag-5'>協(xié)同</b>、交互時(shí)延低至1.3S

    模型原生操作系統(tǒng):機(jī)遇、挑戰(zhàn)與展望 CCCF精選

    與作者團(tuán)隊(duì)的相關(guān)初步探索。 以ChatGPT為代表的生成式人工智能(Generative AI)正在深刻變革人類社會(huì)。大模型憑借其卓越的語(yǔ)言理解、內(nèi)容生成與邏輯推理能力,已成為科技發(fā)展
    的頭像 發(fā)表于 03-14 17:46 ?335次閱讀
    <b class='flag-5'>模型</b>原生操作系統(tǒng):機(jī)遇、挑戰(zhàn)與展望  CCCF精選

    東軟睿馳車云協(xié)同平臺(tái)接入DeepSeek大模型

    近日,東軟睿馳車云協(xié)同平臺(tái)全面接入DeepSeek大模型,支持AI融合場(chǎng)景的自由擴(kuò)展和常用常新,加速汽車向“主動(dòng)感知需求、動(dòng)態(tài)進(jìn)化服務(wù)”的情感化智能
    的頭像 發(fā)表于 02-26 16:22 ?438次閱讀

    喜報(bào)科技榮登蘇州市人工智能模型與高質(zhì)量數(shù)據(jù)集雙項(xiàng)榜單

    近日,2025年蘇州市“人工智能+”創(chuàng)新發(fā)展推進(jìn)大會(huì)暨人工智能賦能新型工業(yè)化深度行(蘇州站)圓滿落幕,會(huì)上發(fā)布一批蘇州人工智能模型及創(chuàng)新要素。
    的頭像 發(fā)表于 02-21 11:18 ?518次閱讀
    喜報(bào)<b class='flag-5'>丨</b><b class='flag-5'>阿</b><b class='flag-5'>丘</b>科技榮登蘇州市人工<b class='flag-5'>智能</b>大<b class='flag-5'>模型</b>與高質(zhì)量數(shù)據(jù)集雙項(xiàng)榜單

    寧暢推出DeepSeek大模型機(jī)

    R1/V3滿血版模型和蒸餾版模型,通過(guò)軟硬件深度協(xié)同優(yōu)化,為企業(yè)提供從部署到場(chǎng)景定制的全棧交付能力,幫助制造、金融、醫(yī)療、科研等行業(yè)突破AI應(yīng)用瓶頸,邁向
    的頭像 發(fā)表于 02-15 14:51 ?1103次閱讀

    美格智能AIMO智能+DeepSeek-R1模型,AI應(yīng)用的iPhone時(shí)刻來(lái)了

    布的AIMO智能產(chǎn)品,正加速開(kāi)發(fā)DeepSeek-R1模型在端側(cè)落地應(yīng)用及端云結(jié)合整體方案,助力國(guó)產(chǎn)優(yōu)質(zhì)模型滲透千行百業(yè),共塑智能化未來(lái)。
    的頭像 發(fā)表于 01-28 15:50 ?2889次閱讀
    美格<b class='flag-5'>智能</b>AIMO<b class='flag-5'>智能</b><b class='flag-5'>體</b>+DeepSeek-R1<b class='flag-5'>模型</b>,<b class='flag-5'>AI</b>應(yīng)用的iPhone時(shí)刻來(lái)了

    【「大模型啟示錄」閱讀體驗(yàn)】對(duì)大模型更深入的認(rèn)知

    閱讀《大模型啟示錄》這本書(shū),我得說(shuō),它徹底顛覆了我對(duì)大模型的理解。作為一個(gè)經(jīng)常用KIMI和豆包這類AI工具來(lái)完成作業(yè)、整理資料的大學(xué)生,我原以為大模型就是這些工具背后的技術(shù)。但這本書(shū)讓
    發(fā)表于 12-20 15:46

    AI模型部署邊緣設(shè)備的奇妙之旅:目標(biāo)檢測(cè)模型

    景至關(guān)重要,比如: 自動(dòng)駕駛汽車需要準(zhǔn)確地識(shí)別并定位行人、其他車輛和交通標(biāo)志; 安防監(jiān)控系統(tǒng)依賴于實(shí)時(shí)檢測(cè)異?;顒?dòng)的具體位置; 而在零售環(huán)境中,智能貨架可以通過(guò)檢測(cè)商品來(lái)管理庫(kù)存; 隨著物聯(lián)網(wǎng)(IoT)的發(fā)展
    發(fā)表于 12-19 14:33

    展會(huì)回顧 | 科技亮相斯圖加特國(guó)際機(jī)器視覺(jué)展,并發(fā)表主題演講

    科技攜四大核心展品驚艷亮相:工業(yè)視覺(jué)大模型、非監(jiān)督學(xué)習(xí)技術(shù)、生成式AI技術(shù)以及電池行業(yè)檢測(cè)解決方案。這些展品全面展示了
    的頭像 發(fā)表于 10-16 08:07 ?612次閱讀
    展會(huì)回顧 | <b class='flag-5'>阿</b><b class='flag-5'>丘</b>科技亮相斯圖加特國(guó)際機(jī)器視覺(jué)展,并發(fā)表主題<b class='flag-5'>演講</b>

    科技2024新品發(fā)布會(huì),新一輪產(chǎn)品、性能、應(yīng)用全煥新

    科技2024新品發(fā)布會(huì)正式舉行,發(fā)布會(huì)現(xiàn)場(chǎng),科技CGO俊周、產(chǎn)品總監(jiān)
    的頭像 發(fā)表于 09-11 08:05 ?794次閱讀
    <b class='flag-5'>阿</b><b class='flag-5'>丘</b>科技2024新品發(fā)布會(huì),新一輪產(chǎn)品、性能、應(yīng)用全煥新

    速來(lái)圍觀!科技2024新品發(fā)布即將開(kāi)幕

    問(wèn)題如同攔路虎,阻礙著AI視覺(jué)檢測(cè)技術(shù)的廣泛應(yīng)用與深入發(fā)展。但,這一切即將迎來(lái)變革!科技作為工業(yè)AI
    的頭像 發(fā)表于 09-04 08:04 ?593次閱讀
    速來(lái)圍觀!<b class='flag-5'>阿</b><b class='flag-5'>丘</b>科技2024新品發(fā)布即將開(kāi)幕

    AI模型與小模型的優(yōu)缺點(diǎn)

    在人工智能AI)的廣闊領(lǐng)域中,模型作為算法與數(shù)據(jù)之間的橋梁,扮演著至關(guān)重要的角色。根據(jù)模型的大小和復(fù)雜度,我們可以將其大致分為AI
    的頭像 發(fā)表于 07-10 10:39 ?6157次閱讀

    科技:生成式AI與行業(yè)視覺(jué)大模型驅(qū)動(dòng)工業(yè)AI視覺(jué)2.0

    5月21日,科技CEO黃耀應(yīng)邀參加北京機(jī)器視覺(jué)助力智能制造創(chuàng)新發(fā)展大會(huì),并發(fā)表《AI+工業(yè)視覺(jué)探索與展望》主題演講,下文根據(jù)黃耀先生的主
    的頭像 發(fā)表于 05-25 08:25 ?981次閱讀
    <b class='flag-5'>阿</b><b class='flag-5'>丘</b>科技:生成式<b class='flag-5'>AI</b>與行業(yè)視覺(jué)大<b class='flag-5'>模型</b><b class='flag-5'>驅(qū)動(dòng)</b>工業(yè)<b class='flag-5'>AI</b>視覺(jué)2.0

    電子發(fā)燒友

    中國(guó)電子工程師最喜歡的網(wǎng)站

    • 2931785位工程師會(huì)員交流學(xué)習(xí)
    • 獲取您個(gè)性化的科技前沿技術(shù)信息
    • 參加活動(dòng)獲取豐厚的禮品