El modelo recibe texto, por ejemplo: “How to predict”.
Cada palabra se convierte en un token numérico (2437, 284, 4331).
Esto es necesario porque la red neuronal no entiende texto directamente, solo números.
Cada token se transforma en un vector denso mediante una token embedding.
Además, se añade un positional embedding para que el modelo entienda el orden de las palabras.
Cada token embebido pasa por varias capas (transformers), y dentro de cada una ocurren tres pasos clave:
Layer Norm → normaliza los valores para estabilizar el aprendizaje.
Self-Attention (multi-head, causal)
Cada palabra "mira" a las demás y decide cuáles son relevantes para predecir la siguiente.
“Causal” significa que el modelo solo puede ver palabras pasadas, no futuras, porque está generando secuencias.
Feed Forward Network → combina la información y la procesa con una red más tradicional.
Residuos (skip connections + ⊕) → se suman entradas y salidas para evitar pérdida de información.
Este bloque se repite muchas veces (decenas o cientos de capas, según el tamaño del modelo).
Al final, hay una capa lineal que transforma los vectores en una distribución sobre todo el vocabulario (miles de tokens posibles).
Luego se aplica Softmax → convierte los valores en probabilidades (ejemplo: “word” 0.32, “text” 0.25, “token” 0.21, etc.).
El modelo elige el token más probable como la siguiente palabra.
El token elegido se convierte de nuevo a texto.
El proceso se repite de manera iterativa: el nuevo token se agrega a la secuencia y el modelo vuelve a predecir el siguiente.
Así, palabra por palabra, se genera un texto completo.
✅ En resumen:
El diagrama describe el flujo de un LLM:
Texto → Tokens → Embeddings → Transformer (Self-Attention + Feed Forward) → Proyección → Softmax → Predicción de la siguiente palabra.