图像字幕

7.5 图像字幕

用视觉注意力制作图像字幕！

创建日期: 2025-04-25

给定如下例所示的图像，我们的目标是生成注入 “冲浪者在海浪上冲浪”之类的标题。

这里使用的模型架构灵感来自于论文 Show, Attend and Tell: Neural Image Caption Generation with Visual Attention ，但是更新为使用 2 层的 Transformer 解码器。要充分利用本教程，我们应该对有一定的经验。

本教程中构建的模型架构如下所示，从图像中提取特征，并传递到 Transformer-解码器的交叉注意力层。