PyTorch 详解

AlexNet 是一种深度卷积神经网络（CNN）架构，由 Alex Krizhevsky、Ilya Sutskever 和 Geoffrey Hinton 设计，并且在 2012 年的 ImageNet 大规模视觉识别挑战赛（ILSVRC）中获胜，极大推动了深度学习在计算机视觉领域的应用和发展。架构如下：

1. 输入层：输入为 224x224 像素的 RGB 彩色图像。
2. 卷积层：AlexNet 包含 5 个卷积层，每个卷积层后都有 ReLU 激活函数。
3. 最大池化层：在某些卷积层后使用最大池化层来减少特征图的空间维度。
4. 全连接层：卷积层后接 3 个全连接层，用于进行分类预测。最后的输出层有 1000 个神经元，对应 ImageNet 数据集中的 1000 类。
5. 归一化层：AlexNet 使用了局部响应归一化（LRN），尽管现代网络架构通常使用批量归一化（Batch Normalization）来代替。

3.3 ResNet

来自论文 Deep Residual Learning for Image Recognition

ResNet（残差网络）是由 Kaiming He 等人在 2015 年提出的一种深度卷积神经网络（CNN）架构，最初用于解决 ImageNet 的图像分类任务，并且在 ILSVRC 2015 大赛中取得了显著的成绩。

ResNet 的核心创新是引入了 残差连接 (Residual Connections)，有效地解决了深层网络训练中的梯度消失和梯度爆炸问题，使得网络能够更深、更高效地进行训练。

3.4 U-net

来自论文 U-Net: Convolutional Networks for Biomedical Image Segmentation

提出了一种网络和训练策略，它依赖于大量使用数据增强来更有效地使用可用的带注释样本。该架构由一条用于捕获上下文的收缩路径和一条用于实现精确定位的对称扩展路径组成。

3.5 花卉分类

参考 ConvMLP: Hierarchical Convolutional MLPs for Vision

04 循环网络

循环神经网络 (RNN) 是一种用于处理序列数据的神经网络。它通过将上一时刻的输出作为当前时刻的输入，能够记住前面时间步的信息，适用于文本、语音等具有时间依赖关系的数据。

1. 简单实现：介绍如何用 PyTorch 实现简单的文本分类和生成任务，帮助理解 RNN 在实际中的应用。

2. 长短期记忆 (LSTM)：LSTM 是一种改进的 RNN，能够解决传统 RNN 在处理长期依赖时的问题。通过遗忘门、输入门和输出门，LSTM 可以有效地记住重要信息并丢弃不相关的部分，广泛应用于文本和语音处理。

3. GRU：GRU 是 LSTM 的简化版本，计算效率更高，但在效果上与 LSTM 类似，适用于机器翻译等任务。

4. Seq2Seq：Seq2Seq 是一种基于 RNN 的模型，它通过编码器将输入序列转为一个固定向量，再通过解码器生成输出序列，常用于机器翻译等任务。

5. word2vec：word2vec 是一种用于学习单词向量的技术，能够将词语转换为向量，捕捉词语之间的语义关系，常用于文本数据处理。

总结来说，这一章讲解了 RNN 及其改进版本（如 LSTM 和 GRU）的基础，重点介绍了它们如何处理序列数据，特别是在自然语言处理中的应用。

4.1 简单实现

在教程《深度学习综合指南》中，我们使用 RNN 手动实现过文本分类和文本生成，感兴趣的读者可以前往阅读。本教程在介绍完基本的原理之后，将使用 PyTorch 实现简单地两个类似的功能。

4.2 长短期记忆

来自论文 Long Short-term Memory

LSTM 是一种改进的循环神经网络，能有效解决长期依赖问题。它通过遗忘门、输入门和输出门控制信息流动，保留有用记忆、忘记无关内容，从而在处理序列数据如文本、语音时表现优异，广泛应用于自然语言处理等任务。

4.3 GRU

来自论文 Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation

4.4 Seq2Seq

来自论文 Sequence to Sequence Learning with Neural Networks

提出了一种通用的端到端序列学习方法，该方法对序列结构做出最少的假设。使用多层长短期记忆 (LSTM) 将输入序列映射到固定维数的向量，然后使用另一个深度 LSTM 从向量解码目标序列。

4.5 word2vec

来自论文 Efficient Estimation of Word Representations in Vector Space

Distributed Representations of Words and Phrases and their Compositionality

论文提出两种新颖的模型架构，用于从非常大的数据集中计算连续向量表示。这些表示的质量在单词相似性任务中测量，并将结果与以前基于不同类型神经网络的最佳表现进行比较，观察到准确率大幅提高，计算成本却低很多。

翻译教程 word2vec

05 Transformer

深入讨论了基于注意力机制的几种重要模型，尤其是 Transformer 架构以及其在自然语言处理 (NLP) 和计算机视觉方面的应用。

1. 注意力：从宏观角度介绍了注意力的基本概念，并总结了各种类型的注意力，如自注意力、全局注意力和局部注意力等，这些概念为理解Transformer架构的核心思想奠定了基础。

2. 经典的编码器-解码器架构：使用 PyTorch 重新实现论文 Attention is All You Need 中德语-英语翻译。

3. nanoGPT：使用 Transformer 的解码器部分，完成文字生成任务。

4. BERT 分类实现：使用 Transformer 的编码器部分，进行预训练。

5. ViT：Transformer 在视觉方面的应用，对于图像分类方面也可以表现的非常好。

总的来说，Transformer 架构不仅在自然语言处理领域取得了突破性的进展，而且其强大的灵活性和适应性使其在计算机视觉和其他领域也取得了显著的成功。

5.1 注意力概述

翻译文章 Attention? Attention!

在阅读这篇教程前，如果不知道 得分函数 (Score Function) ，最好提前阅读文章注意力机制，它是从更基础的角度解释注意力是什么。

5.2 nn.Transformer

来自论文 Attention Is All You Need

论文提出了一种新的简单网络架构 Transformer ，它完全基于注意力机制，完全省去了循环和卷积。在两个机器翻译任务上的实验表明，这些模型质量更优越，同时并行化更好，并且需要的训练时间明显减少。

使用 PyTorch 实现论文中德语-英语的翻译，核心是使用 nn.Transformer 接口。

5.3 Transformer 注释

翻译文章 The Annotated Transformer

1. Transformer 模型架构，包括编码器和解码器。
2. 模型训练，定义每个训练步骤。
3. 真实的例子，英语到德语的翻译。

5.4 nanoGPT

参考 nanoGPT，最简单、最快速训练/微调中等规模大小的 GPT 库。

1. 快速预览，用莎士比亚的作品训练一个字符级的 GPT。

5.5 BERT 分类实现

来自论文 BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

引入一种叫做 BERT 的语言表示模型，英文为 Bidirectional Encoder Representations from Transformers 。与最近的语言表示模型不同，BERT 旨在通过联合调节所有层的左上下文和右上下文来预训练来自未标记文本的深度双向表示。因此，只需一个额外的输出层即可对预训练的 BERT 模型进行微调，以创建用于各种任务（例如问答和语言推理）的最先进的模型，而无需对特定于任务的架构进行大量修改。

5.6 ViT

来自论文 An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale

直接应用于图像块序列的纯 Transformer 可以在图像分类任务中表现得非常好。当对大量数据进行预训练并转移到多个中型或小型图像识别基准（ImageNet、CIFAR-100、VTAB 等）时，与最先进的卷积网络相比，Vision Transformer (ViT) 取得了出色的结果，同时需要更少的计算资源来训练。