人工智能视觉论文精选
图像识别与分类
-
Vision Transformer: 基于注意力机制的图像识别新范式本文提出了一种完全基于注意力机制的视觉Transformer架构,在多个图像分类基准测试中达到了最先进的性能,突破了传统CNN的局限性。
-
EfficientNet: 模型缩放方法的系统研究通过系统化地平衡网络深度、宽度和分辨率,EfficientNet在参数效率和准确率方面都达到了新的水平,为移动端视觉应用提供了新思路。
目标检测与分割
-
Mask R-CNN:实例分割的统一框架在Faster R-CNN的基础上添加了一个用于预测对象掩码的分支,实现了目标检测和实例分割的统一框架,在COCO挑战赛中取得了优异成绩。
-
YOLOv5:实时目标检测的最新进展通过改进网络架构和训练策略,YOLOv5在保持实时推理速度的同时,显著提升了检测精度,成为工业界应用最广泛的目标检测模型之一。
生成模型与图像合成
-
Stable Diffusion:潜在扩散模型的高质量图像生成结合潜在空间和扩散过程,实现了高质量、多样化的图像生成,大幅降低了计算成本,推动了文本到图像生成技术的普及。
-
DALL-E 3:理解细微差别的文本到图像生成通过改进的视觉语言对齐技术,DALL-E 3能够更准确地理解文本描述中的细微差别,生成更符合用户意图的高质量图像。