搞不懂ChatGPT相关概念（ChatGPT是什么）

搞不懂 ChatGPT 相关概念（ChatGPT是什么）

ChatGPT横空出世后，伴随而来的是大量AI概念，这些概念互相之间既有联系也有区别，让人一脸懵逼，近期大鱼做了GPT相关概念的辨析，特此分享给你。

1）Transformer

2）GPT

3）InstructGPT

4）ChatGPT（GPT3.5/GPT4.0）

5）大模型

6）AIGC（人工智能生成内容）

7）AGI（通用人工智能）

8）LLM（大型语言模型）

9）羊驼（Alpaca）

10）Fine-tuning（微调）

11）自监督学习（Self-Supervised Learning）

12）自注意力机制（Self-Attention Mechanism）

13）零样本学习（Zero-Shot Learning)

14）AI Alignment （AI对齐）

15）词嵌入（Word Embeddings）

16）位置编码（Positional Encoding）

17）中文LangChain

1、Transformer

Transformer 是一种基于自注意力机制（self-attention mechanism）的深度学习模型，最初是为了处理序列到序列（sequence-to-sequence）的任务，比如机器翻译。由于其优秀的性能和灵活性，它现在被广泛应用于各种自然语言处理（NLP）任务。Transformer模型最初由Vaswani等人在2017年的论文”Attention is All You Need”中提出。

Transformer模型主要由以下几部分组成：

（1）自注意力机制（Self-Attention Mechanism）

自注意力机制是Transformer模型的核心。它允许模型在处理一个序列的时候，考虑序列中的所有单词，并根据它们的重要性给予不同的权重。这种机制使得模型能够捕获到一个序列中的长距离依赖关系。

（2）位置编码（Positional Encoding）

由于Transformer模型没有明确的处理序列顺序的机制，所以需要添加位置编码来提供序列中单词的位置信息。位置编码是一个向量，与输入单词的嵌入向量相加，然后输入到模型中。

（3）编码器和解码器（Encoder and Decoder）

Transformer模型由多层的编码器和解码器堆叠而成。编码器用于处理输入序列，解码器用于生成输出序列。编码器和解码器都由自注意力机制和前馈神经网络（Feed-Forward Neural Network）组成。

（4）多头注意力（Multi-Head Attention）

在处理自注意力时，Transformer模型并不只满足于一个注意力分布，而是产生多个注意力分布，这就是所谓的多头注意力。多头注意力可以让模型在多个不同的表示空间中学习输入序列的表示。

（5）前馈神经网络（Feed-Forward Neural Network）

在自注意力之后，Transformer模型会通过一个前馈神经网络来进一步处理序列。这个网络由两层全连接层和一个ReLU激活函数组成。

（6）残差连接和层归一化（Residual Connection and Layer Normalization）

Transformer模型中的每一个子层（自注意力和前馈神经网络）都有一个残差连接，并且其输出会通过层归一化。这有助于模型处理深度网络中常见的梯度消失和梯度爆炸问题。

下图示例了架构图。

搞不懂ChatGPT相关概念（ChatGPT是什么）

左侧为 Encoder block，右侧为 Decoder block。红色圈中的部分为 Multi-Head Attention，是由多个 Self-Attention组成的，可以看到 Encoder block 包含一个 Multi-Head Attention，而 Decoder block 包含两个 Multi-Head Attention (其中有一个用到 Masked)。Multi-Head Attention 上方还包括一个 Add & Norm 层，Add 表示残差连接 (Residual Connection) 用于防止网络退化，Norm 表示 Layer Normalization，用于对每一层的激活值进行归一化。

Transformer模型的优点在于，它能够并行处理序列中的所有单词，这使得它在处理长序列时比循环神经网络（RNN）更高效。另外，自注意力机制使得模型能够捕获到序列中长距离的依赖关系，这是RNN难以做到的。

2、GPT

GPT，全称为Generative Pre-training Transformer，是OpenAI开发的一种基于Transformer的大规模自然语言生成模型。GPT模型采用了自监督学习的方式，首先在大量的无标签文本数据上进行预训练，然后在特定任务的数据上进行微调。

GPT模型的主要结构是一个多层的Transformer解码器，但是它只使用了Transformer解码器的部分，没有使用编码器-解码器的结构。此外，为了保证生成的文本在语法和语义上的连贯性，GPT模型采用了因果掩码（causal mask）或者叫自回归掩码（auto-regressive mask），这使得每个单词只能看到其前面的单词，而不能看到后面的单词。

在预训练（Pre-training）阶段，GPT模型使用了一个被称为”Masked Language Model”（MLM）的任务，也就是预测一个句子中被遮盖住的部分。预训练的目标是最大化句子中每个位置的单词的条件概率，这个概率由模型生成的分布和真实单词的分布之间的交叉熵来计算。

在微调（fine-tuning）阶段，GPT模型在特定任务的数据上进行训练，例如情感分类、问答等。微调的目标是最小化特定任务的损失函数，例如分类任务的交叉熵损失函数。

GPT模型的优点在于，由于其预训练-微调的训练策略，它可以有效地利用大量的无标签数据进行学习，并且可以轻松地适应各种不同的任务。此外，由于其基于Transformer的结构，它可以并行处理输入序列中的所有单词，比基于循环神经网络的模型更高效。

GPT演进了三个版本：

（1）GPT-1用的是自监督预训练+有监督微调，5G文档，1亿参数，这种两段式的语言模型，其能力还是比较单一，即翻译模型只能翻译，填空模型只能填空，摘要模型只能摘要等等，要在实际任务中使用，需要各自在各自的数据上做微调训练，这显然很不智能。

（2）GPT-2用的是纯自监督预训练，相对于GPT-1，它可以无监督学习，即可以从大量未标记的文本中学习语言模式，而无需人工标记的训练数据。这使得GPT-2在训练时更加灵活和高效。它引入了更多的任务进行预训练，40G文档，15亿参数，能在没有针对下游任务进行训练的条件下，就在下游任务上有很好的表现。

（3）GPT-3沿用了GPT-2的纯自监督预训练，但是数据大了好几个量级，570G文档，模型参数量为 1750 亿，GPT-3表现出了强大的零样本（zero-shot）和少样本（few-shot）学习能力。这意味着它可以在没有或只有极少示例的情况下，理解并完成新的任务，它能生成更连贯、自然和人性化的文本，理解文本、获取常识以及理解复杂概念等方面也比GPT-2表现得更好。

3、InstructGPT

GPT-3 虽然在各大 NLP 任务以及文本生成的能力上令人惊艳，但模型在实际应用中时长会暴露以下缺陷，很多时候，他并不按人类喜欢的表达方式去说话：

（1）提供无效回答：没有遵循用户的明确指示，答非所问。

（2）内容胡编乱造：纯粹根据文字概率分布虚构出不合理的内容。

（3）缺乏可解释性：人们很难理解模型是如何得出特定决策的，难以确信回答的准确性。

（4）内容偏见有害：模型从数据中获取偏见，导致不公平或不准确的预测。

（5）连续交互能力弱：长文本生成较弱，上下文无法做到连续。

在这个背景下，OpenAI 提出了一个概念“Alignment”，意思是模型输出与人类真实意图对齐，符合人类偏好。因此，为了让模型输出与用户意图更加 “align”，就有了 InstructGPT 这个工作。

InstructGPT相对于GPT的改进主要是使用了来自人类反馈的强化学习方案—— RLHF（ Reinforcement Learning with human feedback）来微调 GPT-3，这种技术将人类的偏好作为激励信号来微调模型。