Apuntes sobre Inteligencia Artificial

Lo difícil no es contestar, sino tener razón.

Apéndice V - Glosario del Manual de IA

Este glosario explica los términos más frecuentes del manual. Los anglicismos consolidados (token, prompt, embedding...) se conservan en inglés porque su uso en castellano es técnicamente minoritario y puede dificultar búsquedas o lecturas cruzadas con documentación original.

Término Significado
Fundamentos y arquitectura
Token La unidad mínima en que un modelo divide el texto antes de procesarlo. No equivale a una palabra: puede ser una sílaba, un fragmento o un símbolo de puntuación. El coste de uso de los modelos se mide habitualmente en tokens, no en palabras ni caracteres.
Tokenización
Tokenization
El proceso por el que el modelo convierte el texto de entrada en una secuencia de tokens antes de procesarlo. Cada modelo usa su propio vocabulario de tokens, lo que explica que una misma frase ocupe distinto número de tokens según el modelo.
Ventana de contexto
Context window
El número máximo de tokens que un modelo puede procesar en una sola interacción, incluyendo tanto lo que el usuario escribe como lo que el modelo ha generado. Una ventana de 200.000 tokens equivale aproximadamente a 150.000 palabras o un libro de tamaño medio. Todo lo que queda fuera de esa ventana es invisible para el modelo.
Embedding Representación numérica de un fragmento de texto en forma de vector de cientos o miles de dimensiones. El modelo traduce palabras y frases a posiciones en ese espacio matemático, donde conceptos similares quedan geográficamente próximos. Esta geometría del significado es la base de la búsqueda semántica y de las capacidades de analogía de los modelos.
Pesos del modelo
Model weights
Los millones o miles de millones de valores numéricos que el modelo aprende durante el entrenamiento. Son la "memoria" del modelo: codifican todo lo que ha aprendido sobre el lenguaje, los hechos y los patrones del mundo. Una vez entrenado, los pesos no cambian durante la inferencia.
Parámetro
Parameter
En la práctica, "número de parámetros" se usa como indicador del tamaño del modelo: un modelo de 70.000 millones de parámetros es mayor y generalmente más capaz que uno de 7.000 millones. El tamaño, sin embargo, no garantiza calidad en todas las tareas ni eficiencia energética.
Cuantización
Quantization
Técnica que reduce la precisión numérica de los pesos de un modelo para disminuir su tamaño y los requisitos de memoria. Un modelo de 70B parámetros puede pasar de ocupar 140 GB en precisión completa a unos 40 GB con cuantización Q4. La penalización es una ligera pérdida de precisión en las respuestas.
GGUF Formato de archivo estándar para distribuir modelos cuantizados localmente. Es el formato que usan Ollama, LM Studio y otras herramientas de ejecución local. Un archivo .gguf contiene los pesos del modelo comprimidos y listos para ejecutar sin infraestructura adicional.
LLM / SLM Large Language Model y Small Language Model: modelos de lenguaje de gran tamaño (GPT-5, Claude Opus, Gemini 2.5 Pro) y modelos pequeños diseñados para ejecutarse en hardware limitado sin depender de la nube (Phi-4 mini, Gemma 3, Phi Silica). Los SLM son muy eficaces en tareas específicas y son la base de las funciones de IA integradas en los sistemas operativos modernos.
Verosimilitud
Verisimilitude
La tendencia de los modelos de lenguaje a generar texto que suena verdadero y convincente, independientemente de si lo es. Un modelo no "sabe" si algo es cierto: predice qué texto es estadísticamente plausible. Esta característica es la raíz de las alucinaciones: el modelo puede inventar datos con total confianza aparente.
Entrenamiento y alineación
Preentrenamiento
Pre-training
Primera fase del desarrollo de un modelo, donde aprende patrones del lenguaje procesando cantidades masivas de texto (libros, páginas web, código). El modelo no aprende "hechos": aprende a predecir qué texto sigue a qué texto. Esta fase determina la mayor parte del conocimiento del modelo y requiere infraestructura de supercomputación.
Ajuste fino
Fine-tuning
Segunda fase, donde el modelo preentrenado se especializa para una tarea concreta o se alinea con comportamientos deseados. Requiere mucho menos datos y cómputo que el preentrenamiento. El ajuste fino es lo que convierte un modelo de lenguaje general en un asistente útil y seguro.
RLHF Reinforcement Learning from Human Feedback - aprendizaje por refuerzo con retroalimentación humana. Técnica de alineación donde evaluadores humanos puntúan las respuestas del modelo, y esas puntuaciones se usan para entrenarlo a generar respuestas más valoradas. Es el método principal que han usado OpenAI, Anthropic y Google para hacer que sus modelos sean útiles, seguros y honestos.
Alineación
Alignment
El proceso de ajustar un modelo para que sus respuestas sean útiles, seguras y coherentes con los valores humanos. Un modelo sin alineación puede generar contenido dañino, sesgado o simplemente inútil. La alineación es uno de los problemas de investigación más activos en IA.
Sobreajuste
Overfitting
Error de entrenamiento en el que el modelo memoriza los datos de entrenamiento en lugar de aprender patrones generalizables. Un modelo sobreajustado funciona bien en los datos con que se entrenó pero falla ante datos nuevos o situaciones ligeramente distintas.
Interacción y prompting
Prompt El texto que el usuario introduce como entrada para el modelo. Puede ser una pregunta, una instrucción, un contexto o una combinación de todo. La forma en que se redacta el prompt tiene un impacto directo en la calidad de la respuesta.
System prompt
(instrucción del sistema)
Texto que configura el comportamiento del modelo antes de que el usuario empiece a interactuar. Define el rol, el tono, las reglas y las restricciones del modelo para toda la sesión. El usuario normalmente no lo ve, pero determina cómo se comporta el modelo: es la diferencia entre un asistente genérico y uno especializado en una tarea concreta.
Prompt engineering
(ingeniería de prompts)
El conjunto de técnicas para redactar prompts que obtengan mejores respuestas del modelo. Incluye estrategias como dar contexto explícito, pedir razonamiento paso a paso, especificar el formato de respuesta o usar ejemplos. Una habilidad práctica que no requiere programar.
Chain-of-thought
(cadena de razonamiento, CoT)
Técnica en la que se pide al modelo que razone paso a paso antes de dar una respuesta final. Mejora significativamente el rendimiento en tareas de lógica, matemáticas y planificación. Puede activarse con una instrucción explícita ("piensa paso a paso") o estar incorporado en el propio modelo, como en los modelos de razonamiento extendido.
Few-shot / Zero-shot Formas de proporcionar contexto al modelo en el prompt. Zero-shot: solo instrucción, sin ejemplos. Few-shot: se incluyen 1-5 ejemplos del resultado esperado antes de la pregunta real. Los ejemplos ayudan al modelo a entender el formato y el estilo deseados sin necesidad de reentrenamiento.
Artifact
(Claude)
Ventana separada dentro de la interfaz de Claude que muestra código React, HTML o contenido estructurado ejecutable en tiempo real. Permite crear dashboards, aplicaciones interactivas y documentos sin necesidad de infraestructura adicional. Es una de las capacidades más distintivas de la plataforma de Anthropic.
Inferencia y memoria
Inferencia
Inference
El proceso de usar un modelo ya entrenado para generar una respuesta a partir de una entrada. Es lo que ocurre cada vez que envías un mensaje a ChatGPT o Claude. Se distingue del entrenamiento: la inferencia no modifica los pesos del modelo.
Sin estado
Stateless
Propiedad de los modelos de lenguaje por la que cada interacción empieza desde cero, sin memoria de conversaciones anteriores. La "memoria" que experimentas en una conversación larga no es inherente al modelo: es el historial de mensajes que la plataforma incluye en la ventana de contexto de cada petición.
Razonamiento extendido
Extended thinking
Modo de operación en el que el modelo dedica tiempo adicional a "pensar" antes de responder, explorando múltiples caminos de razonamiento internamente. Los modelos de razonamiento (o1, o3, DeepSeek R1, Claude con Extended Thinking) usan esta técnica para resolver problemas complejos de matemáticas, lógica o planificación con mayor precisión. El usuario ve la respuesta final, no el proceso interno.
KV Cache Mecanismo interno que permite al modelo reutilizar cálculos ya realizados sobre el contexto, en lugar de reprocesar toda la conversación en cada turno. Reduce drásticamente la latencia y el coste computacional en conversaciones largas. Algunos proveedores ofrecen KV Cache persistente entre sesiones como característica de pago.
Auto-condensación
Auto-condensation
Mecanismo por el que la plataforma resume automáticamente el historial de conversación cuando se acerca al límite de la ventana de contexto, preservando lo más relevante. Permite mantener conversaciones largas sin perder todo el contexto, aunque con posible pérdida de detalles secundarios.
Memoria contextual
Contextual memory
La información que el modelo retiene dentro de una sola conversación, gracias a que el historial de mensajes se incluye en la ventana de contexto. No persiste entre sesiones: cuando cierras la conversación, el modelo olvida todo lo hablado.
Memoria persistente
Persistent memory
Información guardada por la plataforma entre sesiones y recuperada automáticamente en conversaciones futuras. Puede ser gestionada por la plataforma (ChatGPT Memory, Claude Projects) o por el usuario. Permite que el modelo recuerde preferencias, proyectos en curso o contexto personal.
RAG Retrieval-Augmented Generation - generación aumentada por recuperación. Técnica que combina un modelo de lenguaje con una búsqueda en una base de datos de documentos. Ante una pregunta, el sistema recupera primero los fragmentos más relevantes y los incluye en el contexto del modelo, que los usa para responder. Permite que el modelo responda con información actualizada o privada sin necesidad de reentrenarlo.
Anclaje
Grounding
Proceso de vincular las respuestas del modelo a fuentes verificables externas (documentos, búsquedas web, bases de datos). Un modelo con grounding puede citar de dónde viene cada afirmación, reduciendo el riesgo de alucinaciones. Perplexity AI es el ejemplo más conocido de interfaz con grounding por defecto.
Temperatura
Temperature
Parámetro que controla la aleatoriedad de las respuestas del modelo. Temperatura 0 produce respuestas deterministas y conservadoras; temperatura alta produce respuestas más creativas pero menos predecibles. Para análisis o código se recomienda temperatura baja; para escritura creativa, más alta.
Agentes
Agente
Agent
Sistema de IA que no solo genera respuestas sino que planifica y ejecuta acciones para alcanzar un objetivo. Un agente puede consultar webs, leer y escribir archivos, enviar mensajes o invocar APIs, de forma autónoma o con supervisión del usuario. Es el paradigma central de la IA en 2025-2026.
Computer Use Capacidad de un agente de IA para controlar directamente la interfaz gráfica de un ordenador: ver la pantalla, hacer clic, escribir en formularios y navegar por aplicaciones como lo haría un humano. Disponible en GPT-5.4, Claude Cowork y Project Mariner de Google. Representa un salto cualitativo respecto a los agentes que solo operan via API.
MCP Model Context Protocol - protocolo de contexto de modelo. Estándar abierto desarrollado por Anthropic para conectar modelos de IA con herramientas, bases de datos y servicios externos de forma estandarizada. Permite que un agente use cualquier herramienta compatible sin necesidad de integraciones personalizadas. Está ganando adopción como protocolo de facto en el ecosistema de agentes.
Skill
(en agentes)
Extensión o plugin que amplía las capacidades de un agente, permitiéndole interactuar con un sistema específico: correo, calendario, navegador, API. El término lo popularizó OpenClaw, cuyo repositorio ClawHub cuenta con más de 13.000 skills en abril de 2026. En otras plataformas se denominan "tools" o "acciones".
Arquitectura multi-agente
Multi-agent
Sistema en el que varios agentes de IA colaboran bajo un agente orquestador que divide una tarea compleja en subtareas y las delega a agentes especializados que trabajan en paralelo. Permite abordar problemas que superan la capacidad de un solo agente. Implementada por OpenAI (Frontier), Anthropic (Claude Code) y OpenClaw.
Hardware y entorno
NPU Neural Processing Unit - unidad de procesamiento neuronal. Chip especializado en ejecutar las operaciones matemáticas de los modelos de IA con alta eficiencia energética. A diferencia de la GPU, no sirve para tareas generales ni para modelos grandes: está optimizada para inferencia continua de modelos pequeños en el dispositivo. Presente en todos los SoC modernos.
SoC System on a Chip - sistema en un chip. Chip único que integra CPU, GPU, NPU y controlador de memoria en un solo sustrato de silicio. La integración elimina la latencia de comunicación entre componentes y permite la memoria unificada. Apple Silicon (M1-M5), AMD Ryzen AI 300 e Intel Core Ultra son los principales ejemplos en 2026.
TOPS Tera Operations per Second - billones de operaciones por segundo. Unidad de medida del rendimiento de una NPU. El estándar Copilot+ PC de Microsoft requiere al menos 40 TOPS. Un valor alto de TOPS indica mayor capacidad para ejecutar modelos de IA de forma eficiente, aunque no es el único factor determinante del rendimiento real.
Copilot+ PC Estándar definido por Microsoft para equipos con Windows 11 que cumplen los requisitos mínimos de hardware para ejecutar funciones de IA locales: NPU de 40+ TOPS, 16 GB de RAM y 256 GB de SSD. Los equipos certificados tienen acceso exclusivo a funciones como Recall, Windows Studio Effects, subtítulos offline y generación de imágenes en Paint.
IA en el dispositivo
On-device AI
Modelo híbrido en el que parte del procesamiento de IA se realiza localmente en el chip del dispositivo, sin enviar datos a la nube. Mejora la privacidad y reduce la latencia para tareas predefinidas, pero no sustituye a la nube para modelos grandes o razonamiento complejo.
Multimodal Capacidad de un modelo para procesar y generar distintos tipos de información: texto, imágenes, audio, vídeo y código. Los modelos multimodales actuales (GPT-5, Gemini 2.5, Claude Opus 4.6) pueden analizar una foto, transcribir audio o describir un vídeo dentro de la misma conversación.
Evaluación y comportamiento
Alucinación
Hallucination
Respuesta inventada que el modelo presenta con aparente confianza. El modelo no "miente": simplemente genera el texto estadísticamente más plausible, aunque ese texto no corresponda a ningún hecho real. Las alucinaciones son más frecuentes en temas poco representados en los datos de entrenamiento o en preguntas que requieren precisión factual.
Sesgo
Bias
Tendencia sistemática del modelo a favorecer ciertos tipos de respuesta, perspectivas o grupos por encima de otros, como resultado de los sesgos presentes en los datos de entrenamiento o en el proceso de alineación. No siempre es evidente ni intencional.
Benchmarks Pruebas estandarizadas para medir y comparar el rendimiento de distintos modelos en tareas concretas (razonamiento, matemáticas, código, comprensión lectora). Los benchmarks son útiles como referencia, pero no siempre reflejan el rendimiento en uso real: algunos modelos se optimizan específicamente para superarlos.
System Card Documento técnico que los laboratorios de IA publican junto a cada modelo importante, describiendo sus capacidades, limitaciones conocidas, riesgos identificados y las pruebas de seguridad realizadas antes del lanzamiento (red-teaming, evaluaciones de daño).

Revisado: abril 2026

TOP