进阶教程综合资讯

零样本异常检测泛化能力新标杆：AVA-DINO碾压主流

2026-06-04

阅读 0

热度 0

作者菜鸟AI编辑部

摘要

AVA-DINO零样本异常检测方法利用双分支适配器分别处理正常与异常特征，结合文本引导动态

在工业质量检测、医学图像分析这类高精度场景中，异常检测任务始终面临着几个棘手的问题。异常样本不仅稀缺——实际生产线上的缺陷类型千奇百怪，根本不可能全部收集并标注——而且目标域往往在训练时完全不可见。这要求模型必须具备零样本泛化能力，也就是见到从未训练过的类别时，照样能揪出异常。

现有的零样本异常检测方法大多采用统一的特征变换，对正常样本和异常样本一视同仁。但这两类样本的内在分布天差地别：正常样本分布紧凑、结构一致，而异常样本则多样、稀疏、边界不规则。这种不对称性要求模型能够区别对待，而不是用一个模子去套。

关键创新

1. 双分支异常感知适配器

设计两个独立的轻量级适配器模块，分别处理正常与异常的特征变换：

正常适配器（Normal Adapter）：学习强调结构一致性、纹理稳定的特征变换。
异常适配器（Anomaly Adapter）：学习放大偏差、突出缺陷边界的特征变换。

这两个适配器作用在冻结的 DINOv3 视觉特征之上，不更新主干网络。

2. 文本引导的动态路由机制

利用冻结的 CLIP 文本编码器生成正常提示（如“a photo of perfect hazelnut”）和异常提示（如“a photo of damaged hazelnut”）的嵌入。然后，将 DINOv3 的 CLS 令牌与投影后的文本嵌入计算余弦相似度，通过温度缩放的 Softmax 输出路由权重。

3. 路由正则化损失

训练阶段引入显式正则化损失，其中 y∈{0,1} 为异常标签。该损失强制正常样本主要激活正常适配器，异常样本激活异常适配器，从根源上防止路由退化。

4. 多层级特征融合

不同于只取最后一层特征的做法，模型利用了 DINOv3 的多层特征，融合细粒度与语义信息，显著提升了像素级定位能力。

模型架构

整体设计分为几步：

编码模块：冻结的 DINOv3 Vision Transformer 提取图像的多尺度 patch 特征和 CLS 全局特征。
双分支适配模块：patch 特征分别通过正常适配器和异常适配器。
文本引导路由模块：CLIP 文本嵌入与 CLS 特征计算路由权重。
加权融合模块：按权重组合两个分支的输出，并添加残差连接。

模型参数与细节选择

视觉编码器：DINOv3-ViT-L/16（冻结）
文本编码器：CLIP-ViT-L/14-336（冻结）
适配器参数：28M 可训练参数，瓶颈维度 256，4 层 LeakyReLU
优化器：AdamW，学习率 1e-4，batch size 64，20 轮
图像分辨率：512×512

实验数据与结论

工业数据集涵盖 MVTec-AD、ViSA、BTAD、KSDD2、MPDD、MVTec-AD2，医学数据集包括 Kvasir、CVC-ColonDB、CVC-ClinicDB。实验采用标准的零样本协议：训练集与测试集类别完全无重叠；医学数据集全部来自工业训练，专门用于测试跨域泛化能力。

消融实验进一步证明了上述各组件的有效性。

来源：互联网

上一篇 AI生成PLC程序实测：10万Tokens无果 下一篇 简易Agent框架发展史：从工具到智能体的进化

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。