Transformers — Architecture Overview

Core architecture

A transformer consists of stacked encoder and/or decoder blocks. Each block has two sub-layers:

Residual connections and layer normalization wrap each sub-layer.

Model	Type	Notes
BERT	Encoder-only	Pre-training via MLM + NSP
GPT	Decoder-only	Autoregressive language modelling
T5	Encoder-decoder	Text-to-text framing for all tasks
ViT	Encoder-only	Patches as tokens for vision

Efficient attention variants (Linformer, Performer, Flash Attention).
How positional encodings differ across models (learned vs. sinusoidal vs. RoPE).