BigDetection:改进目标检测器预训练的大规模基准之论文阅读

news/2025/7/8 16:50:51

摘要

近年来,多个数据集和开放挑战已被引入用于目标检测研究。为了构建更通用且强大 的目标检测系统,本文提出了一个新的大规模基准数据集,称为 BigDetection。我们的目标是 整合现有数据集(LVIS、OpenImages 和 Object365)的训练数据,并遵循精心设计的原则,构建一个更大规模的数据集,以 提升检测器的预训练效果。具体而言,我们重新定义了一个新的类别体系,统一了来自不同数据源的异构标签空间。BigDetection 数据集包含 600 个物体类别,超过 340 万张训练图像,标注有 3600 万个边界框,在多个维度上都远超现有的目标检测基准数据集,既提供了 机遇,也带来了 挑战。大量实验表明,BigDetection 作为目标检测方法的评测基准具有较高的有效性,同时作为预训练数据集也展现出了显著的提升效果。代码与模型开源地址:https://github.com/amazonresearch/bigdetection。

1. 引言

回顾 2014 年,Microsoft COCO 数据集 [33] 曾是极具挑战性的目标检测基准,当时的最佳检测方法在80类物体上的 平均精度(AP) 甚至 低于20。如今,最先进的检测器 [10, 62] 已能在 COCO test-dev 上达到 60+ AP。作为目标检测的黄金标准,COCO 数据集催生了众多流行的目标检测算法。

为了构建 更鲁棒、更通用的目标检测系统,近年来发布了多个 大规模目标检测数据集,例如 OpenImages [26]、Objects365 [44] 和 LVIS [24]。然而,每个数据集 都有其局限性和挑战:
在这里插入图片描述

OpenImages 约 10% 的边界框标注由机器生成,可能导致标签错误或边界框重叠(图 1 顶部)。
LVIS 旨在覆盖 1200+ 类密集标注类别,但存在 无效标注、严重的长尾分布 等问题(图 1 底部)。
Objects365 词汇量相对较小,可能遗漏某些常见类别(如昆虫)。

BigDetection 数据集
为解决上述问题,我们提出了一个 新的大规模目标检测基准数据集,称为 BigDetection。
我们的目标是整合现有数据集(LVIS、OpenImages 和 Objects365),遵循精心设计的标注原则,构建一个更适合 目标检测器预训练 的大规模数据集。

与现有的 多数据集训练 方法 [59, 67, 70] 不同,我们使用语言模型构建初始的统一标签空间,并手动验证 以 获得最终的类别体系。
BigDetection 数据集 具有 600 个物体类别,包含 340 万张训练图像,3600 万个边界框。表 1 对比了 BigDetection 与其他数据集的统计信息。
在这里插入图片描述

此外,我们进行了 多种实验,以验证 BigDetection 作为新基准的有效性,以及其作为预训练数据集的提升效果。

特别地,如表 3 所示,使用 Swin-Base 作为主干网络的 CBNetV2 [31],在 BigDetection 预训练后,在 COCO test-dev 上达到 59.8 AP。令人惊讶的是,这一性能甚至可以媲美未在 BigDetection 预训练的 Swin-Large(Swin-Large 的计算量是 Swin-Base 的 2 倍)。此外,在 COCO 部分标注数据设置 [48] 下,BigDetection 预训练展现了极高的数据效率,例如,在仅使用 1% 的 COCO 训练数据 时,即可在 COCO 验证集 上达到 25.3 AP。
在这里插入图片描述

主要贡献
我们的贡献可总结如下:

提出了一个新的目标检测数据集 BigDetection,其规模在多个维度上远超现有基准,可作为更具挑战性的 目标检测评测基准。
验证了 BigDetection 作为预训练数据集的有效性,在 COCO 验证集和 test-dev 集 上取得了 最先进的检测结果,同时在 数据效率设定下 也表现出色。
进行了广泛的消融实验,提供了在大规模数据集上训练目标检测器的最佳实践。

相关工作

数据集在目标检测中的作用
大规模、高质量标注的数据集对于推动更优秀的计算机视觉模型至关重要。在目标检测领域,PASCAL VOC [16] 是早期的基准数据集之一,包含 20 个类别、约 1.7 万张图像。尽管与当今的数据集相比规模较小,PASCAL VOC 却培养了许多经典的目标检测器 [18, 60] 和基于深度学习的检测器 [22, 23, 25]。随后,微软在 2014 年推出了 Microsoft COCO [33],至今已成为最广泛使用的目标检测基准。COCO 包含 11.8 万张图像、86 万个实例标注,覆盖 80 个类别。得益于其大规模和高标注质量,COCO 与深度学习一起彻底改变了计算机视觉的格局。最近,随着大量高质量标注工作的推进,更大规模的数据集如 LVIS [24]、OpenImages [26] 和 Objects365 [44] 相继问世,拥有数百万级的实例标注。它们不仅使我们能够学习更多样化、细粒度的物体概念,还为新场景上的少样本/零样本学习提供了可能。此外,还有许多针对特定领域的目标检测数据集(如 [9, 20, 40, 45, 49, 54]),以支持各种实际应用。

多数据集检测器训练
由于完全依赖人工标注的方式无法扩展到超大规模数据集,近期有研究开始探索多数据集联合训练策略,目标是在现有数据集上利用更多标注数据来学习更好的特征表示。
早期的一项工作 [59] 提出在多个数据集上训


https://dhexx.cn/news/show-5542203.html

相关文章

Profinet转EtherCAT网关转换与禾川的协同配置分析

在工业自动化当前技术领域,通信协议的多样性与设备间的互操作性成为至关重要的因素。EtherCAT凭借其高速度和高效的实时性能,在众多工业应用场合中得到了广泛的应用。与此同时,Profinet也因其独特优势,在工业网络领域中占据了不可…

Vue.js第二节

计算属性、事件绑定、条件判断、遍历循环 计算属性&#xff1a; <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0">…

筑牢安全防线:电子文件元数据驱动的 AI 知识库可控管理方案

如何构建一个安全可控的 AI 知识库 在人工智能深度融入企业运营与社会发展的当下&#xff0c;AI 知识库作为存储海量模型参数、训练数据与算法知识的核心载体&#xff0c;其安全性与可控性成为企业与机构关注的焦点。数据泄露、模型被篡改、权限管理混乱等问题&#xff0c;不仅…

12.8Java Swing 中的MVC

在 Java Swing 中&#xff0c;MVC 模式被广泛应用。例如&#xff0c;JTable、JList 等组件都采用了这种模式。通常&#xff1a; 模型&#xff1a;实现特定的 Swing 模型接口&#xff08;如 TableModel、ListModel&#xff09;。视图&#xff1a;是 Swing 组件本身&#xff08;…

EndNote中批量导文献的摘要信息等

在科研过程中&#xff0c;我们往往需要阅读大量文献&#xff0c;但对每篇文章进行精读显然并不现实。实际上&#xff0c;文献中的摘要部分通常已包含丰富的信息&#xff0c;如研究背景、研究意义、研究方法以及主要结论等&#xff0c;这些内容足以帮助我们对论文的核心内容有一…

Flask视频和图片上传

视频&#xff1a; pip install Flask-WTF Flask-Uploads from flask import Flask from flask_uploads import UploadSet, configure_uploads, patch_request_class from flask_wtf import FlaskForm from wtforms import FileField, SubmitField from werkzeug.utils import s…

基于多模态文档解析与RAG的行业知识库构建技术指南

1. 技术背景 随着企业非结构化数据&#xff08;扫描件、PDF、图像等&#xff09;占比超过80%&#xff0c;传统关键词检索已无法满足精准问答需求。本文提出融合**计算机视觉&#xff08;CV&#xff09;与大语言模型&#xff08;LLM&#xff09;**的解决方案&#xff0c;关键技…

springboot使用nacos注册中心、配置中心的例子

1、环境 名称版本nacos3.0.1spring.boot.version3.4.1spring-boot-admin.version3.2.1spring.cloud.version2024.0.0<spring.cloud.alibaba.version2023.0.3.2java.version17netty.version4.1.108.Finalelasticsearch.version7.17.26 2、部署nacos3.0.1三节点环境&#xf…

如何用一台服务器用dify私有部署通用的大模型应用?

dify是什么&#xff1f;如何用一台服务器用dify私有部署通用的大模型应用&#xff1f; Dify 是一款开源的大语言模型(LLM) 应用开发平台。它融合了后端即服务&#xff08;Backend as Service&#xff09;和LLMOps的理念&#xff0c;使开发者可以快速搭建生产级的生成式 AI 应用…

相机Camera日志实例分析之四:相机Camx【专业模式开启直方图切换主摄/广角/长焦镜头拍照】单帧流程日志详解

【关注我&#xff0c;后续持续新增专题博文&#xff0c;谢谢&#xff01;&#xff01;&#xff01;】 上一篇我们讲了&#xff1a; 这一篇我们开始讲&#xff1a; 目录 一、场景操作步骤 二、日志基础关键字分级如下 三、场景日志如下&#xff1a; 一、场景操作步骤 操作步…