分类: 计算机视觉

Stay hungry, stay foolish
文章分类
                            
                            ViT(Vision Transformer)笔记
                        
                                1. 摘要
Transformer 已经是 NLP(自然语言处理)领域的"标配"(如 BERT, GPT 系列), 但在 CV 中长期以"局部改造"的方式出现: 要么与 CNN 组合, 要么在 CNN 中以注意力替换部分卷积, 整体框架仍以
                            
                                2025-11-11
                            
                                    计算机视觉
                                
                            图像分类
                        
                            ViT
                        
                            Transformer
                        
                            DETR(Detection Transformer)笔记
                        
                                DETR (Detection Transformer)

1. 摘要
把目标检测的任务看成集合预测的问题.DETR 提出了新的目标函数,通过二分图匹配的方式,强制模型输出一组独一无二的预测,理想状态只输出一个框,进一步移除候选框生成与启发
                            
                                2025-11-10
                            
                                    计算机视觉
                                
                            目标检测
                        
                            DETR
                        
                            SMPL基础
                        
                                简介
SMPL,全称 Skinned Multi-Person Linear Model,是一套优雅而实用的三维人体参数化模型.
更白话一点:给它一份"骨架的姿态"(pose)和"一纸身形的刻度"(shape),它便能织出一张细腻的人体网格
                            
                                2025-09-19
                            
                                    计算机视觉
                                
                            SMPL
                        
                            3D视觉