REN:基于图像块编码器的快速高效区域编码
我们介绍了一种快速有效的基于区域的图像表示生成模型——区域编码器网络 (REN),该模型使用点提示。最近的方法将与类别无关的分割器(例如,SAM)与基于patch的图像编码器(例如,DINO)结合起来,以生成紧凑且有效的区域表示,但由于分割步骤导致计算成本很高。REN 使用轻量级模块直接生成区域token,从而使token生成速度提高 60 倍,内存减少 35 倍,同时还提高了token质量。它使用一些交叉注意力块,将点提示作为查询,并将来自基于patch的图像编码器的特征作为键和值,以生成对应于提示对象的区域token。我们使用三个流行的编码器——DINO、DINOv2 和 OpenCLIP——训练 REN,并表明它可以扩展到其他编码器而无需专门的训练。我们在语义分割和检索任务上评估了 REN,结果表明,它在性能和紧凑性方面始终优于原始编码器,并且在速度上显著快于基于 SAM 的区域方法,甚至达到或超过了它们。值得注意的是,REN 在具有挑战性的 Ego4D VQ2D 基准测试中取得了最先进的结果,并在 Visual Haystacks 的单针挑战中优于专有的 LMM。代码和模型可在以下网址获得:https://github.com/savya08/REN。