Apuntes sobre Inteligencia Artificial

Lo difícil no es contestar, sino tener razón.

1. Introducción general

Los modelos de lenguaje de gran tamaño (Large Language Models, LLMs) son el núcleo de lo que hoy se conoce como IA generativa. El nombre puede resultar engañoso: estos sistemas no piensan ni crean de manera consciente, sino que predicen el siguiente fragmento de texto (token) en función del contexto previo.

Un token no equivale necesariamente a una palabra completa: puede ser una sílaba, un signo de puntuación o incluso un espacio. El modelo trabaja con secuencias de tokens y, a partir de patrones estadísticos, calcula la probabilidad de cada uno. Escalado a gran volumen, este mecanismo produce textos que parecen razonados, creativos o inteligentes, aunque en realidad son fruto de la estadística.

1.1 IA generativa: aclaración necesaria

Conviene disipar algunos malentendidos desde el principio. Lo que hace un LLM es encadenar predicciones hasta formar textos coherentes: puede redactar un resumen, mantener un diálogo o generar un fragmento de código. Lo que no hace es pensar de manera autónoma, razonar como un humano o acceder a información en tiempo real (a menos que se le conecte a herramientas externas).

1.2 Modelos base y modelos instruidos

En sus primeras versiones, los modelos base eran entrenados con colecciones inmensas de texto, sin afinación posterior. Sabían predecir tokens, pero en la práctica divagaban, mezclaban voces o inventaban datos.

La llegada de los modelos instruidos (también llamados chat o instruct) supuso un salto cualitativo: se ajustan con datos de instrucciones y retroalimentación humana, lo que les permite seguir con mayor precisión lo que se les pide. GPT-4, LLaMA 2 Chat o Mistral Instruct son ejemplos de esta segunda categoría.

1.3 Versiones y evolución

La evolución de un modelo puede medirse en varios aspectos. Por un lado, está el número de parámetros, que refleja la capacidad para reconocer patrones complejos. También influye la longitud de contexto, es decir, cuántos tokens puede manejar en memoria en una sesión. Por último, la alineación con instrucciones determina en qué medida es capaz de realizar tareas complejas o de varios pasos.

Parámetros: capacidad de aprendizaje. Cada parámetro es un valor matemático que se ajusta en el entrenamiento.
Tokens: memoria de trabajo en la conversación. El contexto máximo en tokens indica cuánta información puede manejar “a la vez” en una interacción.
Tamaño en disco (en caso de ejecución local): depende de la representación numérica (16, 8 o 4 bits) y de la compresión, no del número de parámetros.

Ejemplos ayudan a ilustrar esta diversidad: GPT-3, con 175.000 millones de parámetros, solo podía manejar unos pocos miles de tokens en contexto. Claude 2.1, en cambio, con menos parámetros, ya ofrecía ventanas de 200.000 tokens. Y TinyLLaMA, con apenas 1.000 millones, se ejecuta en equipos modestos pero con muchas limitaciones.

1.4 La importancia de la plataforma

Un mismo modelo puede ofrecer experiencias radicalmente distintas según la plataforma. Los límites de tokens, la persistencia de la memoria, el acceso a herramientas o las políticas de moderación hacen que por ejemplo no sea lo mismo utilizar Llama 3.1 en Ollama o a través de Cloudflare Workers AI, aunque el modelo subyacente sea idéntico.

Debemos diferenciar claramente entre el modelo de lenguaje y las distintas plataformas o implementaciones a traves de las cuales puedes interactuar con él. Por ejemplo, Gémini (de Google) es la denominación genérica de varios modelos de lenguaje, y podemos utilizarlo vía navegador (conversación); también en el navegador modo gems (especialización en una tarea o rol específico, por ejemplo revisión de textos), o implementado como IA Overviews (en el buscador de Google, ofreciendo resumen instantáneo de información y respuestas directas a consultas de búsqueda). Se trata de la misma familia de modelos (pues las distintas plataformas utilizarán según los casos Gémini Pro, Advanced o Flash) pero con implementaciones diferentes.

La plataforma, en definitiva, condiciona la experiencia tanto o más que el modelo subyacente.

1.5 Parámetros de configuración

Aunque en muchas plataformas comerciales permanecen ocultos, los LLM permiten ajustar variables internas que influyen en cómo generan texto. La más conocida es la temperatura: valores bajos producen respuestas más previsibles, mientras que valores altos generan más creatividad y riesgo de incoherencias. Otro parámetro importante es el top-p, que limita las opciones de predicción a las más probables.

En ejecución local o vía API existen además las secuencias de parada (stop sequences): cadenas que, si aparecen en la salida, obligan al modelo a detenerse. Son útiles, por ejemplo, para evitar que invente turnos de diálogo (User:, Assistant:) o para cortar salidas demasiado largas.

En servicios web como ChatGPT o Claude este control no suele estar disponible para el usuario.

1.6 Capacidades y limitaciones

Los modelos actuales pueden mantener conversaciones coherentes durante miles de tokens, explicar conceptos, redactar código o adoptar distintos estilos de escritura. Pero tienen también límites claros: no garantizan precisión factual, no acceden a información posterior a su fecha de entrenamiento y no recuerdan entre sesiones.
En ámbitos críticos, no sustituyen la revisión humana.

1.7 Agentes y herramientas externas

Nota sobre agentes: Las limitaciones anteriores corresponden a modelos “puros”. Cuando se integran en **agentes con acceso a herramientas externas** (como navegación web, ejecución de código o consulta de bases de datos), esas restricciones se atenúan y el modelo puede realizar tareas prácticas de forma más completa.

Un ejemplo sencillo: recuperar la cotización actual del IBEX-35, analizarla y presentar un informe. El modelo por sí solo no podría hacerlo, pero un agente que combine el LLM con acceso a la web sí.

1.8 Arquitectura técnica común

Casi todos los modelos actuales comparten la arquitectura Transformer. La arquitectura Transformer fue introducida en un artículo de investigación firmado por varios ingenieros de Google, bajo el título "Attention Is All You Need" (La atención es todo lo que necesitas), publicado en junio de 2017, que revolucionó el campo del Procesamiento del Lenguaje Natural (PLN).

Este diseño prescinde de la lectura recurrente o lineal y permite procesar el texto mediante operaciones en paralelo, prestando “atención” a diferentes partes del contexto de forma simultánea, lo que explica la coherencia de sus respuestas.

Las diferencias reales entre los modelos más conocidos —como GPT, Claude, LLaMA o Mistral— residen sobre todo en los datos de entrenamiento y en las técnicas de ajuste, más que en la arquitectura de base, que en todos ellos es la misma.

Nota: Existen proyectos alternativos (como RWKV o aproximaciones neurosimbólicas), pero a fecha de 2025 ninguno ha desplazado al Transformer como estándar dominante.

1.9 Modelos multimodales

Aunque este manual se centra en modelos de lenguaje de texto, existen hoy modelos multimodales capaces de procesar y generar información en otros formatos: imágenes, audio o vídeo. Comparten la misma arquitectura básica (Transformer), pero incorporan capas de entrada y salida especializadas para cada tipo de dato.
La idea subyacente no cambia: predecir el siguiente elemento probable —ya sea un token, un píxel o un fragmento de sonido— a partir del contexto anterior.

Modelos como GPT-4o, Gemini 2.5 Pro o Claude 3.5 Sonnet integran texto e imagen de forma nativa, y experimentos como Sora (OpenAI) extienden ese principio a la generación de vídeo. La tendencia apunta hacia arquitecturas unificadas capaces de comprender y producir información en múltiples modalidades dentro de un mismo entorno.

1.10 Un ecosistema en evolución

El panorama cambia con rapidez: aparecen modelos más grandes, ventanas de contexto cada vez más amplias y funciones nuevas en las plataformas que los alojan.
Más que perseguir cada novedad, conviene retener los principios esenciales: los LLM generan texto por predicción estadística, son propensos a alucinaciones y necesitan verificación humana, sobre todo en aplicaciones sensibles.

TOP