人工智能视觉论文精选

图像识别与分类

  • Vision Transformer: 基于注意力机制的图像识别新范式
    本文提出了一种完全基于注意力机制的视觉Transformer架构,在多个图像分类基准测试中达到了最先进的性能,突破了传统CNN的局限性。
    作者: Alexey Dosovitskiy 等 发表年份: 2023
  • EfficientNet: 模型缩放方法的系统研究
    通过系统化地平衡网络深度、宽度和分辨率,EfficientNet在参数效率和准确率方面都达到了新的水平,为移动端视觉应用提供了新思路。
    作者: Mingxing Tan 等 发表年份: 2022

目标检测与分割

  • Mask R-CNN:实例分割的统一框架
    在Faster R-CNN的基础上添加了一个用于预测对象掩码的分支,实现了目标检测和实例分割的统一框架,在COCO挑战赛中取得了优异成绩。
    作者: Kaiming He 等 发表年份: 2021
  • YOLOv5:实时目标检测的最新进展
    通过改进网络架构和训练策略,YOLOv5在保持实时推理速度的同时,显著提升了检测精度,成为工业界应用最广泛的目标检测模型之一。
    作者: Glenn Jocher 等 发表年份: 2022

生成模型与图像合成

  • Stable Diffusion:潜在扩散模型的高质量图像生成
    结合潜在空间和扩散过程,实现了高质量、多样化的图像生成,大幅降低了计算成本,推动了文本到图像生成技术的普及。
    作者: Robin Rombach 等 发表年份: 2023
  • DALL-E 3:理解细微差别的文本到图像生成
    通过改进的视觉语言对齐技术,DALL-E 3能够更准确地理解文本描述中的细微差别,生成更符合用户意图的高质量图像。
    作者: OpenAI团队 发表年份: 2024