ViT(Vision Transformer)笔记1. 摘要 Transformer 已经是 NLP(自然语言处理)领域的"标配"(如 BERT, GPT 系列), 但在 CV 中长期以"局部改造"的方式出现: 要么与 CNN 组合, 要么在 CNN 中以注意力替换部分卷积, 整体框架仍以2025-11-11 计算机视觉图像分类 ViT Transformer
DETR(Detection Transformer)笔记DETR (Detection Transformer) 1. 摘要 把目标检测的任务看成集合预测的问题.DETR 提出了新的目标函数,通过二分图匹配的方式,强制模型输出一组独一无二的预测,理想状态只输出一个框,进一步移除候选框生成与启发2025-11-10 计算机视觉目标检测 DETR