5月29日,英伟达宣布与香港理工大学、南京大学合作,推出了一款名为LocateAnything的模型。该模型能够从照片或截图中高速、高精度地检测并标记出指定对象,主要服务于机器人感知和电脑自动操作等需要快速定位的场景。
LocateAnything模型通过ParallelBoxDecoding技术,将边界框或点作为固定长度的原子单元,在一步内预测出x1、y1、x2、y2等坐标值。模型提供了三种模式:FastMode、SlowMode和HybridMode,分别适用于不同的应用场景,如端侧机器人、离线标注和高精度评测等。此外,团队还构建了LocateAnything-Data数据集,包含12M独立图像、138M语言查询和785M边界框,覆盖了多种训练场景。
在性能方面,LocateAnything在单张NVIDIA H100 GPU上,默认HybridMode下达到12.7 Boxes Per Second,超过了Qwen3-VL和Rex-Omni的性能。在高精度任务中,LocateAnything在LVIS的IoU=0.95下得分31.1,高于Rex-Omni的20.7;在ScreenSpot-Pro中平均F1达到60.3;在DocLayNet和M6Doc中分别达到76.8与70.1,显示出其在不同任务中的优越性能。



来源:一电快讯
返回第一电动网首页 >
以上内容由AI创作,如有问题请联系admin#d1ev.com(#替换成@)沟通,AI创作内容并不代表第一电动网(www.d1ev.com)立场。
文中图片源自互联网或AI创作,如有侵权请联系邮件删除。