当前位置：首页>林业>香港理工&南京林业大学提出CoEvo:通过测试时双模态代理协同进化,视觉-语言模型的零样本分布外检测性能显著提升

香港理工&南京林业大学提出CoEvo:通过测试时双模态代理协同进化,视觉-语言模型的零样本分布外检测性能显著提升

2026-02-10 03:20:37

标题：基于视觉 - 语言模型的跨模态代理协同进化分布外检测

导读

在开放世界场景中，视觉-语言模型的零样本分布外（OOD）检测至关重要，却受限于固定文本负样本带来的语义覆盖不足和跨模态错位问题。香港理工大学、南京林业大学等提出 CoEvo 框架，通过测试时双模态代理协同进化破解难题。该框架构建文本与视觉代理缓存，在视觉线索引导下动态挖掘上下文负样本，同时迭代精炼视觉代理，实现跨模态语义对齐与 OOD 区分边际放大。创新的分数进化策略动态平衡双模态权重，生成鲁棒 OOD 分数。实验表明，CoEvo 在 ImageNet-1K 上使 AUROC 提升 1.33%，FPR95 降低 45.98%，在 Near-OOD、Far-OOD 及数据不平衡场景中均表现优异，为无需训练和标注的零样本 OOD 检测提供了高效解决方案，推动开放世界识别技术的实用化。

预备知识

核心概念

分布外检测（OOD Detection）：识别模型训练过程中未见过的类别样本，避免模型对未知样本产生过度自信的错误预测，保障高风险场景（如医疗、自动驾驶）的安全性。

分布内（ID）：模型训练时接触到的已知类别集合，记为（K为ID类别数）。

零样本场景：无需额外训练样本或提示调优，仅依赖预训练模型和 ID 类别信息完成 OOD 检测。

视觉 - 语言模型（VLM）：如 CLIP，通过成对图像 - 文本数据预训练，将视觉和文本信息映射到共享特征空间，支持跨模态语义对齐。

关键指标

FPR95：ID 样本真阳性率（TPR）为 95% 时，OOD 样本的假阳性率（越低越好）。

AUROC：受试者工作特征曲线下面积，衡量 ID 与 OOD 样本的整体可分离性（越高越好）。

ID ACC：ID 样本的分类准确率（越高越好）。

研究动机

现有基于负标签的零样本 OOD 检测方法存在两大核心缺陷（对应文中分析）：

负语义空间覆盖不足：依赖全局固定的文本负样本集，难以充分覆盖 ID 类别之外的广阔语义空间，遗漏样本特异性的有效负样本。

跨模态错位：测试时视觉特征会因分布偏移而变化，但文本负样本保持固定，导致跨模态相似度计算失真，决策阈值不稳定。

尽管AdaNeg 等方法尝试动态调整视觉代理，但仍沿用固定文本负样本，仅实现单向适配，无法彻底解决跨模态错位问题。因此，论文提出需通过双向、样本条件的跨模态适配，让文本负样本和视觉代理协同进化，实现鲁棒的零样本 OOD 检测。

创新点

提出CoEvo 框架：首个在测试时构建语义对齐的 ID/OOD 双模态代理缓存，无需训练和标注，仅依赖测试样本动态适配。

设计代理对齐协同进化机制：实现文本和视觉代理的样本条件双向适配，缓解分布偏移下的跨模态错位（对应图 1）。

提出多模态分数进化策略：根据代理进化过程动态调整文本和视觉分数的权重，生成校准后的 OOD 决策分数，提升检测稳定性。

图 1 展示了 CoEvo 框架的核心 ——代理对齐协同进化机制，直观呈现文本与视觉代理的双向适配逻辑。左侧为测试样本，作为进化的触发依据；中间是四类核心代理：正 / 负文本代理（编码 ID/OOD 的语义信息）和正 / 负视觉代理（编码 ID/OOD 的视觉特征）。

对于每个测试样本，文本负代理会在视觉线索引导下动态挖掘：针对 OOD 样本补充语义相近的负样本，针对 ID 样本补充语义疏远的负样本，以此拓展并优化负语义空间；同时，视觉正 / 负代理会在线更新，吸收高置信度样本的视觉特征，精炼 ID/OOD 的视觉决策边界。

这种 “文本适配视觉、视觉反哺文本” 的闭环协同，能在分布偏移时维持跨模态语义对齐，放大局部 OOD 区分边际，为后续精准的 OOD 决策提供可靠支撑。

方法

CoEvo是一种测试时零样本 OOD 检测框架，核心包含双模态代理缓存、代理对齐协同进化机制和多模态分数融合三部分，整体流程如图 2 所示。

图2展示了CoEvo框架的完整工作流程，核心是通过双模态代理缓存的动态更新与协同进化，实现零样本OOD检测。整个流程以测试样本为驱动，串联文本与视觉模态的编码、代理进化、分数融合三大核心环节，形成闭环适配逻辑。流程起点为ID标签与外部词汇库：ID标签通过手工设计的提示模板（如“The nice cls”）输入文本编码器，生成固定的正文本代理队列（），作为稳定的ID语义锚点；词汇库则提供初始负文本代理（），为OOD语义建模奠定基础。同时，视觉编码器提取测试样本的视觉特征，与文本代理共同参与初始评分。中间核心是代理对齐协同进化：基于初始多模态分数（公式4）与自适应阈值，筛选高置信度ID/OOD样本。文本代理缓存通过视觉特征引导，动态挖掘上下文负样本（OOD样本补充近语义负样本，ID样本补充远语义负样本），在线更新；视觉代理缓存则吸收高置信样本特征，更新正/负视觉代理队列（、），且通过优先级策略保证代理代表性。最后是分数融合环节：进化后重新计算文本与视觉分数，通过动态权重翻转（公式11）融合为最终OOD分数——初始阶段侧重文本稳定性，进化后侧重视觉局部判别力，最终输出ID/OOD决策。整个流程无需训练与标注，仅在测试时完成自适应更新，实现跨模态对齐与鲁棒检测。

4.1. 问题定义

给定输入图像，通过视觉-语言模型提取特征，设计ID置信函数，当（为阈值）时判定为ID，否则为OOD，目标是让ID样本的置信分数显著高于OOD样本。

4.2. 双模态代理缓存

缓存分为文本代理缓存和视觉代理缓存，均包含正负两个队列，分别编码ID 和 OOD 的语义 / 视觉特征。

4.2.1 文本代理缓存

正文本代理队列（）：固定队列，将每个ID类别标签通过提示模板（如“The nice cls”）输入CLIP文本编码器，生成文本嵌入：（D为嵌入维度），队列形式为，提供稳定的ID语义锚点。

负文本代理队列（）：动态队列，初始从大规模词汇库中采样与ID类别无交集的M个负标签（ø），通过CLIP编码生成初始嵌入，测试时通过协同进化机制动态更新。

文本OOD分数计算（公式1）：其中为图像视觉嵌入，为余弦相似度，为温度系数。分数越高，表明图像与ID语义对齐越紧密，反之可能为OOD。

4.2.2 视觉代理缓存

正视觉代理队列（）：维度为（L为每个ID类别的视觉实例存储数，实验中L=10），初始时每个类别的首个位置填入对应的文本嵌入（），测试时将高置信度ID样本动态加入队列，丰富类别特异性视觉特征。

负视觉代理队列（）：维度为，与负文本代理队列对齐，将高置信度OOD样本动态加入，采用优先级队列策略剔除低相似度或过时样本，确保代理的代表性。

视觉OOD分数计算：

基于相似度注意力聚合每个类别的L个视觉实例（控制注意力锐度），得到类级视觉代理；

类比文本分数，对称定义视觉分数（公式3，文中未完整列出，核心逻辑与公式1一致），分数越高表示与ID视觉特征对齐越紧密。

4.2.3 初始多模态分数融合（公式 4）

融合文本和视觉的初始分数，平衡模态可靠性：

其中（实验中），初始阶段给予文本分数更高权重，利用其稳定的语义先验（视觉缓存初始稀疏）。

4.3. 代理对齐协同进化机制

核心是通过双向交互动态更新文本和视觉代理缓存，保持跨模态对齐，对应图 1 的协同进化逻辑，分为三个步骤：

4.3.1 自适应阈值与置信过滤

为避免低置信样本污染代理缓存，采用数据驱动的自适应阈值（附录A），通过最小化ID/OOD分数的类内方差确定最优阈值：

其中、分别为阈值下ID样本的数量和平均分数，、对应OOD样本。

引入置信边际过滤模糊样本：

高置信ID：

高置信OOD：

边际内样本：不参与代理更新

4.3.2 文本代理进化（公式 5-6、更新规则）

根据样本的初步分类结果，从词汇库中动态挖掘文本负样本，更新：

高置信OOD样本：挖掘语义相近的负样本（），收紧局部开放集边界：

高置信ID样本：挖掘语义疏远的负样本（），扩大负语义空间覆盖：其中（每次更新新增5个负样本），为词汇库，更新规则为：更新后重新计算文本分数（复用公式1，替换更新后的）。

4.3.3 视觉代理进化（公式 9）

基于更新后的文本代理，同步扩展和精炼视觉代理缓存：

扩展负视觉代理队列维度至，适配新增文本负样本；

计算视觉嵌入与现有视觉代理的软相似度，分配至最相关的代理类别：

基于熵值（）筛选高置信样本，插入对应正负队列（ID样本插入，OOD样本插入）；若队列满，则替换熵值最高（置信度最低）的样本。更新后重新计算视觉分数（复用视觉分数计算逻辑）。

4.4. 最终多模态分数融合（公式 11）

进化后视觉代理积累了丰富实例特征，调整权重分配为对称融合，突出视觉代理的局部判别力：

其中，最终通过与阈值比较，输出ID/OOD决策（算法1完整流程）。

算法1是CoEvo框架的核心执行流程，以“初始化-迭代适配-决策输出”的闭环逻辑，实现零样本OOD检测，全程无需训练和标注，仅依赖测试样本动态优化。流程始于初始化：先从ID标签集生成固定的正文本代理队列，从外部词汇库采样与ID无交集的负标签，构建初始负文本代理队列；再基于和初始化正/负视觉代理队列、，为后续进化奠定基础。核心迭代环节针对每个测试样本展开：首先通过公式（1）和（3）分别计算初始文本分数和视觉分数，按公式（4）融合为初步多模态分数；接着计算自适应阈值，结合置信边际筛选高置信样本——分数高于判定为ID，低于判定为OOD，边际内样本跳过更新；随后ID样本挖掘远语义负文本（公式6）更新，并将视觉特征插入对应队列，OOD样本挖掘近语义负文本（公式5）更新，插入队列。最后，重新计算进化后的文本和视觉分数，按公式（11）融合为最终分数，输出ID/OOD决策。整个流程通过“分数计算-样本筛选-代理更新-分数重算”的循环，实现双模态代理的动态协同进化，保障检测鲁棒性。

实验

5.1. 实验设置

5.1.1 数据集

ID 数据集：ImageNet-1K（1000 个类别）。

OOD 数据集：

标准基准：iNaturalist、SUN、Places、Textures；

OpenOOD 基准：Near-OOD（SSB-hard、NINCO）、Far-OOD（iNaturalist、Textures、OpenImage-O）；

不平衡场景：ID 与 OOD 样本比例为 1:100、1:10、1:1、10:1、100:1。

5.1.2 实现细节

骨干网络：CLIP ViT-B/16（视觉编码器）；

超参数：视觉队列长度 L=10，温度系数 τ=0.01，融合权重 λ=0.8，新增负样本数 N=5，注意力锐度 β=5.5；

硬件：单 NVIDIA RTX 3090 GPU，批次大小 128。

5.2. 主要结果

5.2.1 ImageNet-1K 基准（表 1）

CoEvoNegLabel 平均 FPR95=10.22%，AUROC=97.95%，较最优基线 FPR95 降低 45.98%，AUROC 提升 1.33%；

在 4 个 OOD 数据集上均实现最优性能，如 iNaturalist 的 AUROC 达 99.81%，FPR95 仅 0.53%。

5.2.2 OpenOOD 基准（表 2）

Near-OOD 场景：CoEvoCSP 的 FPR95=66.88%，AUROC=74.65%，略低于 AdaNeg 但保持竞争力；

Far-OOD 场景：FPR95=14.47%，AUROC=96.70%，显著优于所有基线；

ID ACC=67.36%，超越所有无训练基线。

5.3. 消融实验与分析

5.3.1 代理进化的贡献（表 3）

仅文本进化：FPR95=21.77%，AUROC=95.38%；

仅视觉进化：FPR95=17.41%，AUROC=96.99%；

双模态协同进化：FPR95=10.22%，AUROC=97.95%，验证双向适配的必要性。

5.3.2 超参数敏感性（图 3-4、表 5）

融合权重λ：在 0.8 时性能最优，平衡视觉适应性与文本稳定性；

新增负样本数 N：N=5 时性能饱和，过大易引入冗余噪声；

队列长度 L：L=10 时最优，过长导致样本过时，过短缺乏多样性。

5.3.3 鲁棒性验证（表 4、7）

数据不平衡：所有比例下 FPR95 均低于基线，极端比例（100:1）时仍保持 14.77%（CoEvoNegLabel）；

测试集大小：仅 90 个样本时 FPR95=4.00%，随样本量增加性能持续提升，验证动态适配的 scalability。

5.3.4 效率分析（表 6）

CoEvoNegLabel 的 FPS=408，虽低于 NegLabel（962）和 CSP（967），但显著优于 AdaNeg（504），且性能提升远超效率损失；

无额外可学习参数，部署友好。

总结

论文针对视觉-语言模型零样本OOD检测中固定文本负样本的缺陷，提出跨模态代理协同进化框架CoEvo。核心创新在于测试时动态构建语义对齐的双模态代理缓存，通过代理对齐协同进化机制，实现文本与视觉代理的双向适配：文本负样本依据测试图像视觉特征动态挖掘，视觉代理则吸收高置信样本迭代精炼。同时，设计分数进化策略，初始侧重文本语义稳定性，进化后侧重视觉局部判别力，动态融合双模态分数。实验以 ImageNet-1K 为 ID 数据集，在 iNaturalist、SUN 等 OOD 数据集及 OpenOOD 基准中验证，CoEvo 显著超越现有负标签方法，AUROC 提升 1.33%，FPR95 大幅降低，且在数据不平衡、不同测试集规模下表现稳健。该方法无需额外训练和标注，兼顾性能与部署效率，为开放世界 OOD 检测提供了新的有效思路。

--- END ---

编辑|阿超

*本文为论文学习收获分享，受限于知识能力，本文对原文的理解可能存在偏差，最终内容以原论文为准。*本文信息旨在传播和学术交流，若您认为文章内容或图片涉及侵权，请公众号私信或菜单栏点击【联系小编】与我们联系，我们会第一时间进行处理。

点击上方“AI启智汇”，关注我们

持续获取分享