英伟达在5月29日正式推出了LocateAnything模型,此项技术是与香港理工大学、南京大学等科研团队共同努力的成果,其核心优势在于对物体进行快速而准确的识别与定位。
LocateAnything模型的作用是在照片或屏幕截图中精确地找到指定物体,并用检测框清晰地将其位置标记出来。这项技术特别注重满足机器人感知系统和计算机自动操作等场景中对目标快速定位的迫切需求。
英伟达指出,对于机器人和人工智能代理而言,仅仅具备“看”的能力是不足够的,更关键的是能够迅捷地确认目标具体位置。为此,LocateAnything对传统的检测框预测机制进行了重新设计,使其视觉语言检测功能能够更好地适应各类实时交互任务。
LocateAnything引入了“并行框解码”(Parallel Box Decoding)的技术理念,将边界框或点视为固定长度的基本单元,从而能够在单一步骤内同时预测出x1、y1、x2、y2这四个坐标值。
该框架提供了三种运行模式:快速模式(Fast Mode)、慢速模式(Slow Mode)和混合模式(Hybrid Mode)。
其中,快速模式主要为终端设备机器人和具身智能设计,强调处理吞吐量;慢速模式则更侧重于离线标注作业及高精度评估需求;而混合模式则默认进行快速输出,只在遇到格式异常或空间含糊不清的情况下自动切换回自回归解码方式。
研发团队还构建了一个庞大的配套数据集——LocateAnything-Data,其中包含1200万张独立图像、1.38亿条语言查询以及7.85亿个边界框。该数据集覆盖了通用检测、图形用户界面元素定位、指代表达理解、光学字符识别文本定位、版面分析以及点定位等多种应用情境,极大地拓宽了模型的训练范围。
在单张英伟达H100 GPU的测试环境下,LocateAnything在默认的混合模式下,每秒能够处理12.7个边界框(BPS),这一性能显著超越了Qwen3-VL的1.1 BPS和Rex-Omni的5.0 BPS。
在高精度任务的测试中,LocateAnything在LVIS数据集的IoU=0.95标准下取得了31.1的得分,领先于Rex-Omni的20.7。在ScreenSpot-Pro测试中,其平均F1得分达到60.3。同时,在DocLayNet和M6Doc数据集上,LocateAnything分别获得了76.8和70.1的优秀表现。
