欧美激情中文字幕乱码免费,久久一区二区明星换脸

一句話總結

通過應用視覺專家進行工業(yè)異常檢測，以實現(xiàn)明確的異常檢測和高質(zhì)量的異常描述，還可進行多輪對話，性能表現(xiàn)出色！優(yōu)于AnomalyGPT等網(wǎng)絡，代碼即將開源！

Myriad

Myriad: Large Multimodal Model by Applying Vision Experts for Industrial Anomaly Detection

單位：哈工大(左旺孟團隊), 琶洲實驗室

論文：https://arxiv.org/abs/2310.19070

代碼：https://github.com/tzjtatata/Myriad

現(xiàn)有的工業(yè)異常檢測（IAD）方法可以預測異常檢測和定位的異常分數(shù)。然而，它們很難對異常區(qū)域進行多輪對話和詳細描述，例如工業(yè)異常的顏色、形狀和類別。

最近，大型多模態(tài)（即視覺和語言）模型（LMM）在圖像描述、視覺理解、視覺推理等多種視覺任務上表現(xiàn)出了卓越的感知能力，使其成為更易于理解的異常檢測的有競爭力的潛在選擇。然而，現(xiàn)有的通用 LMM 中缺乏有關異常檢測的知識，而訓練特定的 LMM 進行異常檢測需要大量的注釋數(shù)據(jù)和大量的計算資源。

本文提出了一種新穎的大型多模態(tài)模型，通過應用視覺專家進行工業(yè)異常檢測（稱為Myriad），從而實現(xiàn)明確的異常檢測和高質(zhì)量的異常描述。

具體來說，采用 MiniGPT-4 作為基礎 LMM，并設計一個專家感知模塊，將視覺專家的先驗知識嵌入到大型語言模型（LLM）可以理解的標記中。

為了彌補視覺專家的錯誤和困惑，引入了域適配器來彌合通用圖像和工業(yè)圖像之間的視覺表示差距。此外，提出了一個視覺專家講師，它使 Q-Former 能夠根據(jù)視覺專家先驗生成 IAD 領域視覺語言標記。

實驗結果

在MVTec-AD 和 VisA 基準上的大量實驗表明，本文提出的方法不僅在 1-class 和少樣本設置下比最先進的方法表現(xiàn)更好，而且還提供了明確的異常預測以及 IAD 中的詳細描述領域。

阅读全文

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

模型

模型

+關注

關注
1

文章
3444

瀏覽量
49693
視覺

視覺

+關注

關注
1

文章
152

瀏覽量
24213
大模型

大模型

+關注

關注
2

文章
2873

瀏覽量
3606

原文標題：工業(yè)異常檢測大模型來了！哈工大提出Myriad：利用視覺專家進行工業(yè)異常檢測的大型多模態(tài)模型

文章出處：【微信號：CVer，微信公眾號：CVer】歡迎添加關注！文章轉載請注明出處。

移遠通信智能模組全面接入多模態(tài)AI大模型，重塑智能交互新體驗

全系智能模組產(chǎn)品已全面接入火山引擎豆包VLM（視覺語言）多模態(tài)AI大模型。這一突破性進展表明，搭載移遠任意智能模組的終端設備，均可無縫融合多

發(fā)表于 03-21 14:12 ?159次閱讀

移遠通信智能模組全面接入<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>AI大<b class='flag-5'>模型</b>，重塑智能交互新體驗

移遠通信智能模組全面接入多模態(tài)AI大模型，重塑智能交互新體驗

智能模組產(chǎn)品已全面接入火山引擎豆包VLM（視覺語言）多模態(tài)AI大模型。這一突破性進展表明，搭載移遠任意智能模組的終端設備，均可無縫融合多

發(fā)表于 03-20 19:03 ?259次閱讀

?VLM（視覺語言模型）?詳細解析

視覺語言模型（Visual Language Model, VLM）是一種結合視覺（圖像/視頻）和語言（文本）處理能力的多模態(tài)人工智能

發(fā)表于 03-17 15:32 ?773次閱讀

?VLM（<b class='flag-5'>視覺</b>語言<b class='flag-5'>模型</b>）?詳細解析

使用OpenVINO? 2021.4在CPU和MYRIAD上進行自定義對象檢測，為什么結果差異巨大？

使用自定義訓練的模型執(zhí)行推理，以便在 2021.4 OpenVINO?中進行人員檢測。與 MYRIAD 相比，CPU 的輸出結果取得了巨大的差異

發(fā)表于 03-06 07:45

?？低暟l(fā)布多模態(tài)大模型文搜存儲系列產(chǎn)品

多模態(tài)大模型為安防行業(yè)帶來重大技術革新，基于觀瀾大模型技術體系，海康威視將大參數(shù)量、大樣本量的圖文多模態(tài)

發(fā)表于 02-18 10:33 ?364次閱讀

一文詳解視覺語言模型

視覺語言模型（VLM）是一種多模態(tài)、生成式 AI 模型，能夠理解和處理視頻、圖像和文本。

發(fā)表于 02-12 11:13 ?1006次閱讀

商湯日日新多模態(tài)大模型權威評測第一

剛剛，商湯科技日日新SenseNova多模態(tài)大模型，在權威綜合評測權威平臺OpenCompass的多模態(tài)評測中取得榜單第一。

發(fā)表于 12-20 10:39 ?611次閱讀

一文理解多模態(tài)大語言模型——下

/understanding-multimodal-llms ? 《一文理解多模態(tài)大語言模型 - 上》介紹了什么是多模態(tài)大語言

發(fā)表于 12-03 15:18 ?417次閱讀

利用OpenVINO部署Qwen2多模態(tài)模型

多模態(tài)大模型的核心思想是將不同媒體數(shù)據(jù)（如文本、圖像、音頻和視頻等）進行融合，通過學習不同模態(tài)之間的關聯(lián)，實現(xiàn)更加智能化的信息處理。簡單來說

發(fā)表于 10-18 09:39 ?841次閱讀

華工科技聯(lián)合哈工大實現(xiàn)國內(nèi)首臺激光智能除草機器人落地

華工科技黨委書記、董事長、總裁馬新強一行赴哈爾濱對哈爾濱工業(yè)大學機器人技術與系統(tǒng)全國重點實驗室（后簡稱哈工大機器人實驗室）、愛輝區(qū)智能激光除草機器人試點基地進行實地調(diào)研，代表華工科技中央研究院同

發(fā)表于 09-06 10:45 ?1083次閱讀

云知聲推出山海多模態(tài)大模型

在人工智能技術的浩瀚星海中，多模態(tài)交互技術正成為引領未來的新航標。繼OpenAI的GPT-4o掀起滔天巨浪后，云知聲以創(chuàng)新之姿，推出了其匠心獨運的山海多模態(tài)大

發(fā)表于 08-27 15:20 ?508次閱讀

聆思CSK6視覺語音大模型AI開發(fā)板入門資源合集（硬件資料、大模型語音/多模態(tài)交互/英語評測SDK合集）

豐富外設配件配套多模態(tài)應用示例，支持快速上手體驗大模型語音交互、智能視覺等 AI 應用板載 DAPLINK 調(diào)試器，外接一條USB 線即可實現(xiàn)燒錄、調(diào)試、串口日志查看板載網(wǎng)絡模組

發(fā)表于 06-18 17:33

智譜AI發(fā)布全新多模態(tài)開源模型GLM-4-9B

近日，智譜AI在人工智能領域取得重大突破，成功推出全新開源模型GLM-4-9B。這款模型以其卓越的多模態(tài)能力，再次刷新了業(yè)界對于大型語言

發(fā)表于 06-07 09:17 ?980次閱讀

商湯科技發(fā)布5.0多模態(tài)大模型，綜合能力全面對標GPT-4 Turbo

場景應用需求；升級“日日新SenseNova 5.0”大模型體系，綜合能力全面對標GPT-4 Turbo。此外對于文生視頻徐立也表示商湯科技很快就會發(fā)布相關的平臺產(chǎn)品。備受矚目的商湯科技“日日新SenseNova” 5.0多模態(tài)

發(fā)表于 04-24 16:49 ?1308次閱讀

李未可科技正式推出WAKE-AI多模態(tài)AI大模型

文本生成、語言理解、圖像識別及視頻生成等多模態(tài)交互能力。 ? 該大模型圍繞 GPS 軌跡+視覺+語音打造新一代 LLM-Based的自然交互，同時多

發(fā)表于 04-18 17:01 ?748次閱讀