7.5 图像字幕

用视觉注意力制作图像字幕!

创建日期: 2025-04-25

给定如下例所示的图像,我们的目标是生成注入 “冲浪者在海浪上冲浪”之类的标题。

这里使用的模型架构灵感来自于论文 Show, Attend and Tell: Neural Image Caption Generation with Visual Attention ,但是更新为使用 2 层的 Transformer 解码器。要充分利用本教程,我们应该对 有一定的经验。

本教程中构建的模型架构如下所示,从图像中提取特征,并传递到 Transformer-解码器的交叉注意力层。