7. Uso productivo de plataformas comerciales: trabajar con cajas negras
Después de experimentar con Ollama y comprender las limitaciones de la ejecución local, este capítulo se centra en el extremo opuesto del espectro: los servicios comerciales como ChatGPT, Claude, Gemini, Perplexity o Copilot. Aquí, el usuario interactúa con una caja negra, un sistema donde se conocen las entradas y salidas, pero no los procesos internos. A diferencia de los entornos locales, el usuario no puede modificar parámetros ni elegir libremente el modelo: el control técnico se sustituye por una interfaz optimizada para la productividad.
Sin embargo, la falta de control no significa falta de estrategia. Conociendo sus límites y aplicando buenas prácticas, es posible trabajar con eficiencia real en estas plataformas.
7.1 Qué significa “caja negra”
Una caja negra es un sistema cuyo funcionamiento interno es invisible para el usuario. En el caso de la IA comercial, esto implica que:
- El modelo exacto puede variar. “GPT-4” o “Claude” pueden referirse a versiones distintas o incluso modelos diferentes, según la carga del sistema o la configuración interna.
- Los parámetros técnicos están bloqueados. Variables como temperature o top_p son gestionadas por el proveedor.
- El procesamiento interno es opaco. No sabemos qué filtros, pesos o heurísticas intervienen.
- Las interfaces cambian con frecuencia. Un mismo prompt puede producir resultados diferentes tras una actualización silenciosa.
Esta opacidad es deliberada y busca simplificar la experiencia, además de proteger la propiedad intelectual del modelo. El precio de esa simplicidad es la pérdida de control técnico.
7.2 Cómo estructurar prompts eficaces
Sin acceso a parámetros internos, el prompt se convierte en el principal instrumento de control. La diferencia entre una respuesta útil y una mediocre depende en gran medida de cómo se formula la solicitud.
Principios fundamentales:
- Contexto antes que instrucciones: Los modelos comerciales funcionan mejor cuando entienden el marco completo antes de recibir la tarea específica. Introduce quién eres y qué necesitas antes de dar la orden concreta.
Ejemplo: “Soy gerente de proyectos en una empresa de software. Necesito comunicar un retraso de forma profesional, pero tranquilizadora.” - Definir el formato de salida: Instrucciones como "Responde en tres puntos numerados" o "limita la respuesta a un párrafo" son respetadas por los modelos.
- Identificar la audiencia: Indicar quién leerá el texto (ej. "Explica esto para un estudiante de secundaria" o "para un ejecutivo con poco tiempo").
Técnicas complementarias
- Prompting por ejemplos: Mostrar el formato deseado es más eficaz que describirlo.
- Prompting secuencial: Dividir tareas complejas en pasos revisables.
- Verificación interna: Pedir al modelo que evalúe su propia respuesta.
7.3 Gestión del contexto en conversaciones largas
Las plataformas comerciales gestionan automáticamente el contexto, pero conocer sus límites mejora el control.
- Ventanas de contexto variables: Los límites teóricos (p. ej., 32K tokens) no siempre se alcanzan en la práctica.
- Degradación gradual: Los modelos recuerdan mejor lo reciente que lo antiguo.
- Contaminación del contexto: Errores tempranos pueden influir en respuestas posteriores.
Estrategias útiles:
- Recapitular cada 15-20 mensajes.
- Repetir información clave en distintas formas (anchoring).
- Dividir conversaciones extensas en sesiones temáticas.
- Reiniciar explicando brevemente el estado anterior cuando se pierda coherencia.
Nota: Antes de cerrar un chat, puedes pedirle al modelo que genere un prompt con los detalles necesarios para continuar la sesión en un nuevo chat.
| Plataforma | Rasgo percibido | Realidad actual | Mejor enfoque de uso |
|---|---|---|---|
| ChatGPT (GPT-5) | Creatividad y conversación natural | Puede razonar y estructurar texto con la misma precisión que Claude, si se le guía bien. | Ideal para redacción general y prototipado rápido. |
| Claude Sonnet 4.5 | Profundidad y razonamiento “lógico” | Excelente en textos largos, pero a veces demasiado prudente o difuso. | Útil para análisis extensos y revisión argumental. |
| Gemini 2.5 / Gems | Integración con el ecosistema Google | Gran rapidez y buen formato, aunque la verificación factual es irregular. | Adecuado para tareas breves y uso conectado. |
| Perplexity | Búsqueda verificable | Cita fuentes reales, pero no siempre relevantes ni exhaustivas. | Recomendable para contrastar información puntual. |
| Copilot+ | Ofimática inteligente | Se limita a funciones de productividad dentro de Microsoft 365. | Eficaz como asistente integrado, no como modelo independiente. |
Nota: Nota Técnica sobre las Gems de Gemini Las Gems son plantillas afinadas del modelo principal para tareas específicas, como revisión o resumen. En pruebas recientes, la Gem de revisión ofrece correcciones precisas y un tono natural, aunque está optimizada para textos breves (correos o párrafos). Este enfoque modular anticipa cómo las plataformas tenderán a ofrecer “IA por tareas” más que un modelo único para todo.
7.4 Plataformas y uso real: accesibilidad, coste y especialización
Aun siendo relativamente reciente la explosión de modelos LLM conversacionales, el marketing ya ha generado diversos estereotipos: ChatGPT ofrece creatividad y conversación natural; Claude Sonnet 4.5 es excelente en textos largos y tiene un enfoque ético; Gemini, integrado en el ecosistema Google; Perplexity, búsqueda verificable; Copilot+, ofimática inteligente; DeepSeek, bueno en matemáticas y flojo en creatividad; Grok, interactúa con Twitter y es informal.
No obstante, la realidad es que los modelos generalistas muestran unas competencias razonablemente avanzadas. Las diferencias más apreciables vienen dadas por las capacidades y servicios que ofrece la plataforma que sirve cada modelo.
En la práctica, la mayoría de usuarios —tanto ocasionales como profesionales— no se suscribirán a todas las plataformas comerciales. La elección de una u otra suele responder a una combinación de disponibilidad, integración y formato de trabajo, más que a supuestas diferencias de “personalidad” entre modelos.
💬 Observación del Usuario (Desarrollo Web)
En el desarrollo web (PHP, HTML, CSS), la elección de modelo se basó en factores pragmáticos:
- Disponibilidad y límites: Claude ofrecía excelente calidad, pero un uso diario muy restringido. Copilot permitía un uso intensivo sin límites visibles y se integraba bien en VS Code, sugiriendo y corrigiendo código con notable precisión.
- Formatos de salida: La opción de descargar el texto generado directamente en Markdown u otros formatos fue decisiva al trabajar con textos extensos con bloques de código.
- Otros modelos (como Grok): Útiles para borradores rápidos, pero menos estables en formato y coherencia.
- Optar por modelos que ofrecieran una visión centralizada (como Proyectos de GPT o Claude) resultó imprescindible cuando se requirió una visión global sobre un trabajo extenso.
En conjunto, la plataforma más productiva fue la que en cada momento se adaptó mejor al flujo de trabajo, o tenía la capacidad que se necesitaba en ese momento, aunque no fuese la más avanzada técnicamente o la que ofreciera mayor ventana de contexto.
Especialización sectorial: una promesa aún inmadura
En varios ámbitos profesionales comienzan a aparecer modelos “adaptados” —por ejemplo, asistentes jurídicos, médicos o financieros—. Sin embargo, en su estado actual, la mayoría de estos sistemas ofrecen resultados similares, si no inferiores, a los modelos generalistas. Esto sugiere que los modelos verticales aún dependen del progreso de los grandes modelos base, y no al revés.
Nos referimos a dos supuestos de desarrollo en España, con dos planteamientos distintos, y con la salvedad de que no siendo usuarios de estas herramientas, se trata de un análisis muy superficial, basado en la información disponible en la web.
Nota: ⚙️ Análisis Técnico: Maite.ai La web de Maite.ai presenta su versión 2 como “la revolución del copiloto legal”. El término parece aludir al concepto de asistente inteligente, pero también evoca —probablemente de forma intencionada— el ecosistema Copilot de Microsoft. Además, el hecho de ofrecer salida directa en formato .docx refuerza la impresión de que se apoya en infraestructura compatible con Microsoft 365, más que en una arquitectura independiente. Todo apunta a que Maite.ai es una aplicación jurídica vertical construida sobre un modelo generalista (GPT o Copilot), con valor añadido en su corpus legal y en la orquestación de consultas, pero sin control real sobre el motor de lenguaje subyacente. Este tipo de soluciones anticipa el rumbo del mercado: software de especialización sobre modelos cerrados, más que modelos especializados en sí mismos.
Nota: ⚖️ Nota sobre Maite.ai y las pruebas de acceso a la judicatura Algunos medios han señalado que Maite.ai “ha obtenido la mejor nota del mundo en el test de acceso a la judicatura, superando a otras IAs del mercado”. Aunque esta impactante información no ofrece muchos detalles, cabe suponer que se trata del primer ejercicio del proceso selectivo: un test escrito de opción múltiple basado en el reconocimiento literal de textos legales. Este formato evalúa memorización y recuperación de información, no razonamiento jurídico ni exposición oral. Por tanto, el logro de Maite.ai demuestra competencia en búsqueda y correlación normativa, pero no implica capacidad de argumentación jurídica ni sustitución del juicio humano en contextos profesionales.
📘 Caso de estudio: M47 AI Company
Naturaleza: M47 AI no ofrece un modelo de lenguaje propio, sino una plataforma de creación de datasets mediante anotación asistida, orientada a empresas que desean construir o refinar modelos verticales. Se sitúa así entre el proveedor de datos y el integrador de soluciones de IA, más que como LLM independiente.
Experiencia de usuario (según MT Consulting):
- Interfaz intuitiva que permite a equipos no técnicos anotar y clasificar datos con rapidez.
- Herramientas de ayuda automática, como sugerencias de anotación y control de calidad, que reducen tiempo y aumentan precisión.
- Módulo de análisis y reporting que monitoriza el avance y la calidad de los conjuntos de datos.
Limitaciones:
- Usuarios profesionales reclaman mayor acceso a catálogos de modelos, lo que sugiere que la plataforma está centrada en la preparación y curación de datos, no en la ejecución directa de modelos.
Conclusión: M47 AI ejemplifica un tipo distinto de modelo vertical: no especializado por sector, sino por función. En lugar de producir respuestas, produce datasets de entrenamiento estructurados que otros modelos emplearán. En cierto modo, constituye la “infraestructura invisible” detrás de las IAs corporativas, en contraste con plataformas visibles como Maite.ai, orientadas al usuario final.
7.5 Verificación y control de calidad
La facilidad de uso de LLM comerciales no elimina la necesidad de verificación. Al contrario: en entornos opacos, verificar es parte esencial del flujo de trabajo.
Señales de alerta:
- Cifras o fechas demasiado específicas sin fuentes.
- Lenguaje técnico aparentemente sólido, pero carente de contenido real.
- Coherencia superficial con errores conceptuales de fondo.
Técnicas de validación:
- Triangular fuentes: Contrastar con al menos dos fuentes externas.
- Reformular y preguntar de nuevo: Respuestas consistentes aumentan la fiabilidad.
- Consulta humana: Usar expertos cuando la precisión sea crítica.
- Pruebas de sentido común: Si algo suena demasiado conveniente o específico, requiere verificación adicional.
Gestión de la incertidumbre: Documenta qué modelo usaste, cuándo y cómo verificaste los datos.
7.6 Integración en flujos de trabajo reales
La IA comercial funciona mejor como acelerador que como decisor.
Principios de integración segura:
- Mantener revisión humana antes de publicar o enviar resultados.
- Conservar vías de trabajo alternativas en caso de fallo o indisponibilidad.
- Evitar depender totalmente de una única plataforma.
Casos de uso eficaces:
- Generación de borradores iniciales.
- Reformulación y mejora de claridad.
- Síntesis de información dispersa.
- Explicaciones preliminares de temas complejos.
7.7 Limitaciones inevitables
Algunas restricciones son estructurales y no pueden superarse:
- Conocimiento: Limitado por la fecha de entrenamiento y la cobertura temática.
- Razonamiento: Dificultad en cálculos precisos o procesos de varios pasos.
- Acción: Solo genera texto; no ejecuta tareas ni persiste entre sesiones (salvo memoria explícita).
Comprender estas limitaciones evita expectativas poco realistas y permite diseñar procesos más robustos.
7.8 Flujos híbridos: una ilusión de autonomía
La promesa de una productividad híbrida —combinar modelos locales con plataformas comerciales— sigue siendo más aspiracional que real. Los modelos locales son útiles como laboratorios de aprendizaje o entornos de prueba, pero su integración efectiva en flujos productivos es mínima.
Proyectos como NVIDIA Spark o los portátiles Copilot+ apuntan a un futuro donde parte de la inferencia se ejecuta localmente. Sin embargo, hoy son soluciones orientadas a desarrolladores o a ofimática avanzada, no a usuarios finales que busquen autonomía plena.
En la práctica, los servicios en la nube siguen siendo el entorno dominante para tareas de valor profesional.
7.9 Dependencia y soberanía digital
El uso intensivo de plataformas comerciales plantea una cuestión de fondo: ¿de quién es el control?
La comodidad tiene un coste en soberanía. Cada interacción deja trazas, cada mejora de modelo depende de servidores ajenos, y cada actualización puede alterar flujos críticos sin previo aviso. Por ello, la alfabetización digital y la diversificación de herramientas son la única defensa real contra la dependencia total.
7.10 Conclusión
Trabajar con modelos comerciales implica renunciar al control técnico, pero ganar en calidad, velocidad y consistencia. El éxito depende de aprovechar lo que sí puedes controlar: el contexto, la formulación del prompt y la verificación del resultado.
El uso productivo de estas herramientas no consiste en forzarlas a hacer lo imposible, sino en alinear sus capacidades reales con tus objetivos. La práctica deliberada, la verificación constante y la adaptación continua son las claves de un uso maduro y eficaz.