Fundamentos de la interacción | Apuntes de IA

2. Fundamentos de interacción

Antes de sumergirse en el uso práctico de los LLM, es fundamental entender cómo "piensan" realmente estos sistemas. Las expectativas erróneas son la principal fuente de frustración al trabajar con IA generativa. Esta lección desmitifica tres aspectos clave que todo usuario debería comprender.

2.1 Verdad vs. verosimilitud: el objetivo real de los LLM

2.1.1 Por qué los LLM no buscan la verdad

Los humanos esperamos que las máquinas sean exactas como las calculadoras: si preguntas "¿cuánto es 2+2?", esperas "4". Sin embargo, los LLM no están diseñados para ser precisos, sino para ser convincentes.

Durante el entrenamiento, un LLM aprende a predecir qué texto es más probable que aparezca después de una secuencia dada. No aprende ni conoce "hechos" en el sentido tradicional, sino patrones estadísticos sobre cómo se combinan las palabras en textos creíbles.

2.1.2 Qué significa "verosimilitud"

La verosimilitud es la cualidad de parecer verdadero o creíble, independientemente de si lo es realmente. Los LLM se entrenan en millones de textos donde aparecen tanto información correcta como "París es la capital de Francia", información incorrecta en artículos de opinión, datos ficticios en novelas, errores tipográficos y teorías obsoletas.

El modelo aprende que todas estas construcciones son "válidas" como texto humano. No distingue entre un manual técnico y una obra de ficción.

2.1.3 Consecuencias prácticas

Los LLM pueden generar bibliografías de libros inexistentes pero con títulos plausibles, inventar estadísticas coherentes con el tema pero no verificables, mezclar hechos reales con extrapolaciones lógicas pero incorrectas y mantener coherencia interna en respuestas erróneas sin contradecirse.

Ejemplo sencillo:

Usuario: "¿Cuántos habitantes tiene el municipio de Villa del Prado?"
LLM: "Villa del Prado, en Madrid, tiene aproximadamente 6.200 habitantes según el último censo municipal."

La respuesta suena convincente, pero puede ser inventada.

Ejemplo real de alucinación: En 2025, durante pruebas con Claude en un entorno jurídico, las respuestas fueron razonadas y coherentes, pero al pedirle citas jurisprudenciales que avalasen sus argumentos, el modelo inventó referencias que no existían. Las presentó con formato y número realistas, lo que podría inducir a error incluso a juristas experimentados. Este caso ilustra el riesgo de confiar ciegamente en respuestas “verosímiles”.

2.2 Tokenización: cómo procesan realmente el texto

2.2.1 Más allá de las palabras

Un LLM no procesa palabras completas: descompone el texto en tokens.

Ejemplo:

"Hola, ¿como estás?"
→ ["Hola", ",", " ¿", "cómo", " estás", "?"] → 6 tokens

Un ejemplo algo mas complejo nos muestra la posible fragmentación:

"Los LLM buscan equilibrio entre generalidad y eficiencia."
→ ["Los", "L", "LM", "buscan", "equilibrio", "entre", "general", "idad", "y", "eficiencia", "."] → 11 tokens

La segmentación no respeta límites semánticos; sigue criterios estadísticos de frecuencia. Esto explica varios comportamientos característicos.

2.2.2 Cómo funciona la tokenización

Los algoritmos como BPE (Byte Pair Encoding) o SentencePiece buscan equilibrio entre generalidad y eficiencia. En la práctica, esto se traduce en un proceso de segmentación flexible donde:

Palabras frecuentes → se mantienen enteras como tokens únicos (ej. "el", "de").
Palabras raras → se fragmentan en partes más comunes (ej. "descentralización" → "des" + "central" + "ización").
Símbolos, números y puntuación → suelen ser tokens aislados.

Esto permite al modelo recombinar fragmentos y reconocer términos nuevos aunque nunca los haya visto.

Paso final: De sub-palabras a números. Cada token (sub-palabra) se asigna a un ID numérico único de un vocabulario compartido de ~50.000 entradas. Por ejemplo:

text

"programador" → ["pro", "gram", "ador"] → [1234, 5678, 9012]

El modelo procesa secuencias de números, no texto. Las frecuencias históricas del dataset determinan qué número sigue a cuál (ej. [1234, 5678] → [9012] en 85% de casos).

Multilingüismo unificado. Un solo vocabulario maneja todos los idiomas: "programmer" (inglés) y "programador" (español) comparten tokens como "pro" + "gram", pero divergen en el final. Resultado: 81% inglés + 10% español = predicciones mixtas, adaptadas por contexto.

2.2.3 Resiliencia a errores tipográficos

Esta fragmentación explica por qué los LLM son tolerantes a errores:

Input: "Explícame qeu es la fotosíntesis"
                 ^^^ (error tipográfico)
Tokenización posible: ["Explíc", "ame", " qeu", " es", " la", " foto", "sínt", "esis"]

El contexto circundante compensa el error, permitiendo inferir la intención.

2.2.4 Comportamientos derivados

Conteo inexacto de letras: el modelo no analiza caracteres individuales.
Sensibilidad posicional: la misma palabra puede tokenizarse distinto al inicio o en mayúsculas.
Idiomas poco frecuentes: sufren fragmentación excesiva.
Nombres propios y tecnicismos: tienden a dividirse, perdiendo precisión.

2.2.5 Implicaciones prácticas

Los errores menores en el prompt rara vez afectan la comprensión.
Conviene repetir palabras clave en distintas formas para reforzar reconocimiento.
La longitud del contexto (tokens disponibles) limita la memoria efectiva del modelo.

Existen diversos recursos para conocer en la práctica como se realiza la tokenización, por ejemplo openai tokenizer

2.2.6 Multimodales

En los modelos multimodales, las imágenes también se tokenizan, aunque no en palabras sino en parches o embeddings visuales. Un codificador (por ejemplo, CLIP ViT) divide la imagen en pequeñas regiones —como mosaicos de 14×14 píxeles— y convierte cada una en un vector numérico. Estos “tokens visuales” se proyectan al mismo espacio de representación que los tokens lingüísticos, de modo que el modelo puede aplicar atención cruzada entre texto e imagen (“la taza roja está a la izquierda del plato”).

Para aprender esa correspondencia, el entrenamiento requiere datasets emparejados texto-imagen o texto-audio (como LAION-5B o COCO Captions), distintos de los corpus puramente lingüísticos usados en modelos multilingües. Así, el modelo alinea diferentes modalidades dentro de un espacio semántico común, permitiéndole “ver” y “hablar” en un mismo proceso de inferencia.

2.3 Ventanas de contexto: más grande no siempre es mejor

La ventana de contexto es, en esencia, la cantidad de unidades (tokens) que el modelo puede mantener "presentes" simultáneamente para generar un razonamiento o continuar una conversación coherente.

Idealmente, su objetivo es abarcar la totalidad de la conversación acumulada (todos los turnos: usuario y asistente), no solo la entrada de un turno aislado. Es importante destacar que, cada vez que el LLM genera una respuesta, reprocesa desde cero toda la historia de la conversación que se incluya en su ventana de contexto. Si la conversación crece demasiado, se "pierden" los turnos más antiguos. Esto es clave para entender la memoria, los costos y el comportamiento en chats largos.

Uno de los números más promocionados en los LLM modernos es el tamaño de la ventana de contexto. Gemini 2.0 Flash anuncia —a la fecha de revisión de este manual— 1 millón de tokens, Claude Sonnet 4.5 ofrece 200.000 tokens, y ChatGPT-4 maneja 128.000 tokens. Aunque podría parecer que más es intrínsecamente mejor, la realidad es más matizada.

2.3.1 Contexto disponible vs. contexto útil

Tener acceso a 1 millón de tokens no significa mantener la misma calidad de atención sobre todo ese rango. Existe un fenómeno llamado lost in the middle (“perdido en el medio”): los modelos recuerdan bien el inicio y el final de la conversación, pero pierden precisión en la zona intermedia. Aunque los modelos más recientes han mejorado sustancialmente la gestión de contextos largos mediante técnicas de atención optimizada, el fenómeno de degradación gradual persiste en conversaciones extremadamente largas."

2.3.2 Consecuencias prácticas

Velocidad: procesar contextos enormes aumenta el tiempo de respuesta. Coste: en APIs pagas por cada token procesado, no solo por los generados. Utilidad real: 200.000 tokens (~300-400 páginas) bastan para la mayoría de usos profesionales.

2.3.3 Calidad vs. cantidad

Un modelo con menos tokens pero coherencia sostenida es más útil que uno que maneje un millón y pierda precisión. Claude, por ejemplo, ha destacado tradicionalmente por mantener coherencia en documentos largos, lo que demuestra que la gestión del contexto es tan importante como su tamaño.

2.4 El arte del prompting

Un prompt no es solo una pregunta: es todo el contexto que el modelo usa para generar una respuesta. Incluye instrucciones, ejemplos previos y el tono implícito de la interacción.

2.4.1 Principios básicos

Claridad sobre brevedad Un prompt claro y específico funciona mejor que uno genérico. Ejemplo: “Explica las ventajas de Python para análisis de datos frente a R, centrándote en pandas y scikit-learn.”

Contexto y ejemplos Los modelos detectan patrones. Mostrar ejemplos del formato deseado es más eficaz que describirlo.

Instrucciones paso a paso Descomponer tareas complejas en pasos mejora los resultados.

Control de temperatura La temperatura regula creatividad vs. previsibilidad. Baja (0.1-0.3): respuestas consistentes. Alta (0.7-1.0): más originales pero menos fiables.

Nota: Gestión de conversaciones largas Recapitular cada cierto tiempo (“Hasta ahora hemos establecido que…”) ayuda a mantener coherencia. Divide proyectos grandes en sesiones temáticas.
Economía de tokens y tono La cortesía excesiva (“por favor”, “si no es molestia…”) añade ruido y resta precisión. La cortesía añade tokens que "diluyen" la instrucción real. Los LLM no tienen emociones: prioriza la instrucción clara sobre el tono cordial. No se trata de eliminar la cortesía, sino de equilibrarla con la claridad funcional.
Directividad efectiva El modelo imita el registro que recibe. Un tono formal produce respuestas más precisas; uno coloquial tiende a dispersar el contenido.
Manejo de incertidumbre Pedir explícitamente grados de confianza (“Si no tienes datos recientes, indica las fuentes probables…”) mejora la transparencia y no propicia alucinaciones.

Nota: Cuando trabajas con plataformas comerciales (ChatGPT, Claude, Gemini, Copilot, etc.), tus mensajes y las respuestas generadas pasan por sistemas de filtrado externos al modelo.
Estos filtros —implementados por razones legales y de seguridad— detectan expresiones potencialmente peligrosas o sensibles (violencia, autolesión, discriminación, etc.) y pueden modificar o acompañar la respuesta con mensajes preventivos.

Es importante entender que estos mecanismos no forman parte del modelo de lenguaje: operan en una capa superior, en la infraestructura que lo rodea. Su objetivo es proteger a los usuarios, pero pueden generar falsos positivos y respuestas aparentemente incoherentes cuando detectan ironía, humor o expresiones figuradas.

En ejecución local estos filtros no existen: el usuario asume la responsabilidad completa sobre lo que genera y comparte el modelo.

2.4.2 El equilibrio entre eficiencia y naturalidad

No es necesario sonar como un robot, pero sí ser funcionalmente directo: "Necesito ayuda con una consulta SQL compleja. Tengo estas tres tablas [detalle de tablas] y quiero extraer [objetivo específico]. ¿Puedes mostrarme la consulta optimizada y explicar por qué elegiste ese enfoque?"

Esto funciona porque tiene contexto mínimo pero suficiente, petición específica y accionable, tono natural sin excesos de cortesía, y estructura clara de lo que necesitas.

2.4.3 Una perspectiva empresarial interesante

Sam Altman, CEO de OpenAI, ha mencionado públicamente que la empresa procesa enormes cantidades de tokens de cortesía como "hola", "por favor" y "gracias". Su posición sobre el coste es reveladora: considera estos tokens de cortesía una inversión social valiosa, incluso cuando técnicamente reducen la eficiencia del sistema.

Esta perspectiva ilustra una paradoja interesante: desde la eficiencia técnica pura, esos tokens son ruido estadístico. Desde la perspectiva empresarial y social, mantener los patrones humanos naturales puede ser más valioso que optimizar cada interacción aislada.

2.4.4 Técnicas avanzadas

Role-playing: “Actúa como un revisor de código sénior. Sé constructivo pero señala problemas importantes.” Chain-of-thought: “Resuelve el problema paso a paso mostrando tu razonamiento.” Few-shot learning: dar ejemplos concretos de formato deseado antes de pedir la tarea. Verificación interna: “Redacta un email y luego sugiere dos mejoras.”

2.5 Síntesis: construyendo una mentalidad efectiva

2.5.1 Tres pilares conceptuales

Verosimilitud antes que exactitud: los LLM optimizan para sonar convincentes.
Procesamiento fragmentado: trabajan con tokens, no con palabras completas.
Programación conversacional: un prompt es una especificación, no una pregunta casual.

2.5.2 Expectativas realistas

Fortalezas: borradores rápidos, explicaciones claras, refactorización de código, brainstorming. Limitaciones: precisión factual, cálculos complejos, información crítica o sensible.

2.5.3 Hacia la práctica

El éxito no depende de un “prompt perfecto”, sino de un proceso iterativo: dar contexto, verificar, refinar y repetir.

La interacción efectiva con IA es más un diálogo progresivo que una orden: cuanto mejor aprendes a dirigirlo, más útil y predecible se vuelve.

Nota: Comprender estas limitaciones y estrategias de interacción prepara el terreno para la siguiente lección, dedicada a cómo los modelos gestionan la memoria y qué implicaciones tiene para el usuario.

Apuntes sobre Inteligencia Artificial