电话:020-66888888
YOLO曾经静静来到v12,首个以Attention为中心的YOL
作者:[db:作者] 发布时间:2025-02-25 08:33
AIxiv专栏是呆板之心宣布学术、技巧内容的栏目。从前数年,呆板之心AIxiv专栏接受报道了2000多篇内容,笼罩寰球各年夜高校与企业的顶级试验室,无效增进了学术交换与传布。假如你有优良的任务想要分享,欢送投稿或许接洽报道。投稿邮箱:[email protected][email protected]本文由纽约州破年夜学布法罗分校的田运杰,David Doermann跟中国迷信院年夜学的叶齐祥配合实现。田运杰是布法罗年夜学博士后,David Doermann是布法罗年夜学教学、IEEE Fellow, 叶齐祥是中国迷信院年夜学教学。三位作者临时从事盘算机视觉、呆板感知等偏向的研讨。YOLO 系列模子的构造翻新始终缭绕 CNN 开展,而让 transformer 存在统治上风的 attention 机制始终不是 YOLO 系列收集构造改良的重点。这重要的起因是 attention 机制的速率无奈满意 YOLO 及时性的请求。本周三放出的 YOLOv12 出力转变这一近况并获得存在上风的机能。论文题目:YOLOv12: Attention-Centric Real-Time Object Detectors论文地点:https://arxiv.org/pdf/2502.12524代码地点:https://github.com/sunsmarterjie/yolov12先容形成 attention(留神力机制)不克不及作为中心模块用于 yolo 框架的重要起因在于其自身的低效性,这重要源于两个要素:(1)attention 的盘算庞杂度呈二次增加;(2)attention 的内存拜访操纵低效(后者是 FlashAttention 重要处理的成绩)。在雷同的盘算估算下,基于 CNN 的架构比基于 attention 的架构快约 2-3 倍,这极年夜限度了 attention 在 YOLO 体系中的利用,因为 YOLO 系统高度依附高推理速率。起首,作者提出了一种简略而高效的地区留神力模块(area attention, A2),该模块在坚持年夜感触野的同时,以最简略直接的方法下降了 attention 的盘算庞杂度,从而晋升了盘算速率。其次,作者引入了残差高效层聚合收集(R-ELAN),以处理 attention(重要是年夜范围模子)带来的优化困难。R-ELAN 在原始的基本长进行了两项改良:1)block 级残差计划,联合缩放技巧以优化梯度活动;2)从新计划的特点聚合方式,以晋升模子的优化效力。最后,作者针对 YOLO 系统对 attention 停止了一系列架构改良,优化了传统的 attention 主导架构,包含:1)引入 FlashAttention 以处理留神力机制的显存拜访成绩;2)移除地位编码等计划,使模子愈加高效简练;3)调剂 MLP ratio(从 4 降至 1.2),以均衡留神力机制跟前馈收集的盘算开支,从而晋升团体机能;4)增加重叠块的深度,以简化优化进程等。Area Attention起首先容 area attention 机制,其目标在于下降传统 attention 的盘算价值,同时战胜线性留神力跟部分留神力在全局依附性、稳固性及感触野方面的范围性。为此,作者提出了一种简略高效的地区留神力(A2)模块。差别于部分留神力的显式窗口分别,A2 采取最简略的方法将特点图分别为纵向或横向的地区(每个地区巨细为,这仅需简略的 reshape 操纵,防止了额定的庞杂盘算带来的开支,从而晋升盘算效力。或在试验中,作者将默许宰割数设为 4,使感触野缩小至本来的下降至 。只管仍坚持二次庞杂度,但在 token 数目 n 不是特殊年夜的情形下(如 YOLO:640x640),此优化计划在现实利用中仍充足高效,满意了及时推理的需要。终极,试验标明,A2 仅对机能发生稍微影响,但明显晋升了盘算速率,为 YOLO 等对速率请求极高的义务供给了一种更优的留神力机制替换计划。,仍能笼罩充足的信息范畴。在盘算庞杂度方面,A2 将留神力机制的盘算量从 R-ELANR-ELAN 的重要念头是优化 ELAN 构造,以晋升特点聚合效力并处理其带来的优化不稳固性成绩,尤其是在引入留神力机制后,参数目较年夜的模子(如 YOLOv12-L 跟 YOLOv12-X)轻易产生梯度梗阻或收敛艰苦。为此,作者提出了残差高效层聚合收集(R-ELAN)。与原始 ELAN 差别,R-ELAN 在全部 block 内引入从输入到输出的残差衔接,并联合缩放因子(默许 0.01),以稳固练习并优化梯度活动。别的,作者从新计划了特点聚合方法,使其采取瓶颈构造(如上图所示),经由过程调剂通道维度并简化盘算流程,以增加盘算本钱跟显存占用,同时坚持高效的特点融会才能。终极,R-ELAN 明显晋升了模子的优化稳固性跟盘算效力,使 YOLOv12 的年夜范围模子可能更好地收敛,并在保障机能的同时晋升推理速率。构造改良别的,作者还提出一些优化技巧,使留神力机制更顺应及时目的检测义务,同时下降盘算开支并晋升优化稳固性。起首,作者保存了 YOLO 骨干收集的分层计划,差别于良多基于 attention 的架构采取的平铺构造的视觉 Transformer。别的,作者增加了骨干收集(Backbone)最后阶段的重叠的 block 数目,仅保存单个 R-ELAN block,以增加盘算量并优化练习收敛性。骨干收集的前两阶段继续自 YOLOv11,未应用 R-ELAN,以坚持轻量级计划。同时,作者对基本留神力机制停止了一系列优化,包含:调剂 MLP ratio(从 4 降至 1.2 或 2)以更公道地调配盘算资本,用 Conv2d+BN 调换 Linear+LN 以充足应用卷积算子的盘算效力,移除地位编码并引入 7x7 可分别卷积(Position Perceiver) 以辅助地区留神力感知地位信息。终极,这些改良晋升了模子的优化稳固性跟盘算效力,使其更实用于 YOLO 体系,同时坚持存在竞争力的机能。试验成果YOLOv12 在 COCO 上获得的后果如下表所示:N-scale 模子:YOLOv12-N 比 YOLOv6-3.0-N、YOLOv8-N、YOLOv10-N 跟 YOLOv11-N 分辨晋升 3.6%、3.3%、2.1%、1.2%,同时盘算量跟参数范围邻近或更少,推理速率到达存在竞争力的 1.64 ms / 图像。S-scale 模子:YOLOv12-S 在 21.4G FLOPs 跟 9.3M 参数的情形下,实现 48.0% mAP,比 YOLOv8-S、YOLOv9-S、YOLOv10-S 跟 YOLOv11-S 分辨晋升 3.0%、1.2%、1.7%、1.1%,盘算量邻近或更少,而且在推理速率、盘算开支跟参数目方面显明优于 RT-DETR-R18 / RT-DETRv2-R18。M-scale 模子:YOLOv12-M 在 67.5G FLOPs 跟 20.2M 参数的情形下,实现 52.5 mAP,推理速率 4.86 ms / 图像,在各项指标上均优于 Gold-YOLO-M、YOLOv8-M、YOLOv9-M、YOLOv10-M、YOLOv11-M 以及 RT-DETR-R34 / RT-DETRv2-R34。L-scale 模子:YOLOv12-L 相较于 YOLOv10-L,增加了 31.4G FLOPs 的盘算量,同时 mAP 仍优于 YOLOv11-L 达 0.4%,盘算量跟参数目邻近。别的,YOLOv12-L 在推理速率、FLOPs(增加 34.6%)跟参数目(增加 37.1%)方面均优于 RT-DETR-R50 / RT-DETRv2-R50。X-scale 模子:YOLOv12-X 比 YOLOv10-X 跟 YOLOv11-X 分辨晋升 0.8% 跟 0.6%,盘算量跟参数目邻近,推理速率基础持平。同时,比拟 RT-DETR-R101 / RT-DETRv2-R101,YOLOv12-X 盘算量增加 23.4%,参数目增加 22.2%,且推理速率更快。可视化剖析参数目 / CPU 速率 - 精度的 Trade-offs 比拟:YOLOv12 在参数目跟 CPU 推理速率方面上均实现了冲破。如上图所示,试验成果表现,YOLOv12 在正确率 - 参数目均衡方面优于现无方法,乃至超出了参数目更少的 YOLOv10,证实了其高效性。别的,在 CPU(Intel Core i7-10700K @ 3.80GHz)上的推理速率测试中,YOLOv12 在差别 YOLO 版本中展示出最佳的盘算效力。YOLOv12 热力求剖析:上图展现了 YOLOv12 与以后开始进的 YOLOv10 跟 YOLOv11 的热力求对照。这些热力求来自 X-scale 模子骨干收集的第三阶段,表现了模子激活的地区,从而反应其目的感知才能。成果标明,相较于 YOLOv10 跟 YOLOv11,YOLOv12 可能天生更清楚的目的表面跟更准确的远景激活,阐明其目的感知才能失掉了晋升。这一改良重要归因于地区留神力机制(Area Attention),该机制比拟卷积收集存在更年夜的感触野,因而在捕获全局高低文信息方面更具上风,从而实现了更精准的远景激活。作者以为,这一特征使 YOLOv12 在检测机能上盘踞上风。最后,咱们等待 YOLO 社区能持续提出更强盛的检测器,为及时目的检测义务供给更多抉择。
电话
020-66888888