← Todos los posts

Ensayo · junio de 2026

Los 3 niveles de protección de un agente de IA — qué pasa si se equivoca

Un agente de IA está protegido por tres niveles independientes. Layer 1 — prompt rules con lista blanca de temas; el agente no sale de su competencia. Layer 2 — un LLM supervisor; un segundo modelo revisa campos críticos (precios, fechas, acuerdos). Layer 3 — human-in-the-loop para clientes VIP y casos atípicos.

Esta es la pregunta que los clientes hacen antes del lanzamiento en 9 de cada 10 casos: «¿Y si su IA le dice una barbaridad a un cliente?» La respuesta honesta — sin protección, lo hará. Con tres niveles de protección — prácticamente nunca. Así funciona técnicamente y esto es lo que garantizamos.

Layer 1 — Prompt rules y white-list scope

El primer nivel no es un «ajuste», es una restricción de arquitectura. El agente de IA de cualquier empresa recibe un system prompt del tipo: «Eres un asistente del área de ventas. Tu tarea es calificar la solicitud entrante y agendar una reunión.» Después vienen las prohibiciones estrictas — el agente NO tiene permitido:

  • indicar un precio concreto sin consultar el precio de la lista mediante API;
  • prometer plazos de entrega sin consultar el estado del inventario mediante API;
  • confirmar un descuento superior al 5% sin escalar a un gerente;
  • responder preguntas fuera del scope de ventas (reclamos, soporte técnico, asuntos legales) — escala.

Si la pregunta queda fuera del scope, la respuesta es: «Esta consulta la derivo a un colega.» Y crea una tarea en el CRM.

Qué te da esto: el 70-80% de los errores potenciales nunca ocurren, porque el agente se niega a responder si no hay confirmación del sistema. No inventa un precio — le pide a la API el precio real. No inventa una fecha — consulta el calendario. Esto funciona porque los LLM (Claude Opus 4.7, GPT-5) manejan bien el instruction-following cuando las restricciones están claramente definidas.

Layer 2 — LLM supervisor (un segundo modelo revisa al primero)

El segundo nivel es un modelo más pequeño y rápido que revisa la respuesta del primero antes de enviarla al cliente. En Grow2.ai, en términos de arquitectura, se ve así:

  • El Agent (Claude Opus 4.7 o GPT-5) genera un draft de respuesta.
  • El Supervisor (Claude Haiku 4.5 o GPT-5-mini) recibe la solicitud original + el draft + las reglas.
  • El Supervisor devuelve un JSON approve/reject con un reason.
  • Si approve=false, el draft se descarta y el agente regenera o escala.

Qué revisa el supervisor: números (precio contra la lista de precios), fechas (una fecha de reunión realista), tone (brand voice), promise (que el agente no prometió algo que la empresa no puede cumplir). Cost: el supervisor es un modelo más pequeño, suma ~$0.001-0.005 por solicitud. Con 10K solicitudes/mes son $10-50 adicionales. Infinitamente más barato que un solo incidente malo con un cliente VIP.

Layer 3 — Human-in-the-loop (escalación + audit)

El tercer nivel es un punto de control humano garantizado en dos escenarios.

  • Escenario A: la IA escala por sí misma. Si el confidence score está por debajo del umbral (normalmente 0.7) o el supervisor devolvió approve=false, el agente crea una tarea en el CRM con la etiqueta «se requiere manual review» y la pasa a un gerente con el contexto listo.
  • Escenario B: segmento VIP y critical fields. Los segmentos definidos de antemano siempre pasan por un humano. El agente prepara un draft de respuesta, el gerente la revisa en 30 segundos y la envía o la corrige.

Auditoría: cada respuesta del agente se guarda con un log completo — la solicitud original, el system prompt, la respuesta del supervisor, la decisión final y quién la confirmó y cómo. Si un cliente escribe «su bot me dijo 50%, ¿dónde está el descuento?», encontramos el trail completo en 30 segundos.

Qué pasa cuando aun así ocurre

Con honestidad: el agente atiende un 2-5% de las solicitudes de forma subóptima. No «inventa un precio» — eso lo bloquean los Layers 1-2 — sino que da una respuesta de plantilla donde el cliente esperaba personalización, o tarda demasiado en una solicitud poco habitual. Esto no es un «error» en el sentido de ingeniería — es una caída de calidad frente a tu mejor gerente. Qué hacemos al respecto: un weekly review durante los primeros dos meses, un customer feedback loop, A/B testing en los campos discutibles. Esto no es «configurar y olvidar» — es un proceso continuo.

Qué NO te da la protección

La parte anti-hype. Ninguno de los tres niveles de protección garantiza:

  • empatía ante una solicitud emocional («hoy falleció mi padre, no puedo ir a la inspección» — la IA entenderá el contexto y escalará, pero no es una respuesta humana);
  • flexibilidad ante una propuesta poco habitual («déjenme pagar 6 meses por adelantado con un 30% de descuento» — eso no está en el prompt, escala);
  • intuición ante señales «calientes» (cuando un cliente escribe con matices que un vendedor humano capta de inmediato y la IA pasa por alto).

Un agente de IA con tres niveles de protección es una safety net, no magia. Te da la certeza de que los errores básicos están bloqueados. La parte difícil sigue siendo el trabajo de tu equipo.

Preguntas frecuentes

¿Qué pasa si el agente de IA le da a un cliente un precio equivocado?

Técnicamente no debería ocurrir: el Layer 1 le prohíbe al agente inventar un precio — lo consulta en la API de precios mediante un function call. El supervisor del Layer 2 verifica el precio indicado contra la lista de precios antes de enviarlo. Si aun así ocurre (un bug de integración), tienes un audit log completo: cuándo llegó la solicitud, qué precio estaba vigente, qué precio dijo el agente, qué gerente estaba en línea. A partir de eso decides: respetar el precio indicado para el cliente, o explicar con referencia al correcto.

¿Con qué frecuencia se equivoca el agente de IA y cómo lo miden?

Métrica 1: Error rate — % de respuestas bloqueadas por el supervisor. Rango normal: 3-8%. Métrica 2: Escalation rate — % de solicitudes que el agente le pasa a un humano por sí mismo. Rango normal: 10-20%. Métrica 3: Customer feedback — cantidad de quejas de que «el bot dijo algo que no debía». Rango normal: menos del 0.5% de todas las solicitudes. En Grow2.ai monitoreamos las tres métricas en tiempo real y hacemos un weekly review durante los primeros 2 meses.

¿Se puede auditar cada respuesta del agente de IA?

Sí — es una parte obligatoria del setup. Cada respuesta se guarda con: el timestamp, la solicitud original del cliente, el system prompt activo en ese momento, la respuesta del agent (draft), la respuesta del supervisor (approve/reject + reason), el resultado final (sent/escalated) y qué gerente la tocó. El audit log se conserva 12+ meses y se exporta a JSON o CSV.

¿Qué pasa durante el downtime de un proveedor de LLM (OpenAI, Anthropic)?

En Grow2.ai el agente tiene multi-provider failover: si el primary (Anthropic Claude) no responde en más de 10 segundos, el agente cambia automáticamente a un secondary (OpenAI GPT-5) con el mismo prompt. Los SLA de Anthropic y OpenAI por separado son del 99.9%; juntos — 99.99%. Si ambos caen al mismo tiempo, el agente pasa a graceful degradation: todas las solicitudes entran en una cola con la etiqueta «manual response required» y los gerentes las atienden manualmente.