哈工大提出Myriad:利用视觉专家进行工业异常检测的大型多模态模型

一句话总结
通过应用视觉专家进行工业异常检测,以实现明确的异常检测和高质量的异常描述,还可进行多轮对话,性能表现出色!优于anomalygpt等网络,代码即将开源!
myriad
myriad: large multimodal model by applying vision experts for industrial anomaly detection
单位:哈工大(左旺孟团队), 琶洲实验室
论文:https://arxiv.org/abs/2310.19070
代码:https://github.com/tzjtatata/myriad
现有的工业异常检测(iad)方法可以预测异常检测和定位的异常分数。然而,它们很难对异常区域进行多轮对话和详细描述,例如工业异常的颜色、形状和类别。
最近,大型多模态(即视觉和语言)模型(lmm)在图像描述、视觉理解、视觉推理等多种视觉任务上表现出了卓越的感知能力,使其成为更易于理解的异常检测的有竞争力的潜在选择。然而,现有的通用 lmm 中缺乏有关异常检测的知识,而训练特定的 lmm 进行异常检测需要大量的注释数据和大量的计算资源。
本文提出了一种新颖的大型多模态模型,通过应用视觉专家进行工业异常检测(称为myriad),从而实现明确的异常检测和高质量的异常描述。
具体来说,采用 minigpt-4 作为基础 lmm,并设计一个专家感知模块,将视觉专家的先验知识嵌入到大型语言模型(llm)可以理解的标记中。
为了弥补视觉专家的错误和困惑,引入了域适配器来弥合通用图像和工业图像之间的视觉表示差距。此外,提出了一个视觉专家讲师,它使 q-former 能够根据视觉专家先验生成 iad 领域视觉语言标记。
实验结果
在mvtec-ad 和 visa 基准上的大量实验表明,本文提出的方法不仅在 1-class 和少样本设置下比最先进的方法表现更好,而且还提供了明确的异常预测以及 iad 中的详细描述领域。

数读:工信部最新发布电子信息制造业年度数据
移动互联网时代,为什么还存在着固定电话
国民技术MCU正式入驻21ic中国电子技术论坛
在物联网的刺激下,32位MCU迅猛增长
导弹综合测试系统的程控电源设计
哈工大提出Myriad:利用视觉专家进行工业异常检测的大型多模态模型
继电器的技术要求
不得不知的关于软件定义存储(SDS)的5个工具
电动机绝缘电阻怎么测量
莱迪思推出全新低功耗中端Avant FPGA平台
智能汽车隐私泄漏问题凸显
AMD Radeon PRO工作站显卡能够带来哪些优势?
国家统计局日前正式向社会发布13个新职业信息
“算力+运力”扇动双翼,制造算力时代的蝴蝶效应
厦门大学OpenHarmony技术俱乐部正式揭牌成立
活体叶面积测定仪的用途以及功能特点的介绍
虚拟现实有多可用 科学家开发自动化过程找出答案
STM32L051上使用RT-Th (二、CubeMX配置)
熔焊的分类
工控机在高速公路气象信息采集系统的解决方案