Skip to main content
Completion requirements

1. Entrada: Texto → Tokens

  • El modelo recibe texto, por ejemplo: “How to predict”.

  • Cada palabra se convierte en un token numérico (2437, 284, 4331).

  • Esto es necesario porque la red neuronal no entiende texto directamente, solo números.


2. Embeddings

  • Cada token se transforma en un vector denso mediante una token embedding.

  • Además, se añade un positional embedding para que el modelo entienda el orden de las palabras.


3. Bloques del Transformer

Cada token embebido pasa por varias capas (transformers), y dentro de cada una ocurren tres pasos clave:

  1. Layer Norm → normaliza los valores para estabilizar el aprendizaje.

  2. Self-Attention (multi-head, causal)

    • Cada palabra "mira" a las demás y decide cuáles son relevantes para predecir la siguiente.

    • “Causal” significa que el modelo solo puede ver palabras pasadas, no futuras, porque está generando secuencias.

  3. Feed Forward Network → combina la información y la procesa con una red más tradicional.

  4. Residuos (skip connections + ⊕) → se suman entradas y salidas para evitar pérdida de información.

Este bloque se repite muchas veces (decenas o cientos de capas, según el tamaño del modelo).


4. Salida: Proyección y Softmax

  • Al final, hay una capa lineal que transforma los vectores en una distribución sobre todo el vocabulario (miles de tokens posibles).

  • Luego se aplica Softmax → convierte los valores en probabilidades (ejemplo: “word” 0.32, “text” 0.25, “token” 0.21, etc.).

  • El modelo elige el token más probable como la siguiente palabra.


5. Predicción Final

  • El token elegido se convierte de nuevo a texto.

  • El proceso se repite de manera iterativa: el nuevo token se agrega a la secuencia y el modelo vuelve a predecir el siguiente.

  • Así, palabra por palabra, se genera un texto completo.


✅ En resumen:
El diagrama describe el flujo de un LLM:
Texto → Tokens → Embeddings → Transformer (Self-Attention + Feed Forward) → Proyección → Softmax → Predicción de la siguiente palabra.

Click on LLM Visualization to open the resource.
loader image