#58IT / DevOps

AI incident triage + runbook executor

AI incident triage + runbook executor automatiza el procesamiento inicial de incidentes y la ejecución de runbooks estándar en los departamentos de IT / DevOps / SRE, y logra una reducción del MTTM de 22 a 11 minutos (-50%). El agente de IA recibe señales de los sistemas de monitoreo, clasifica el incidente por severity y dominio, recopila contexto de logs y métricas, propone al responsable de guardia un runbook listo y ejecuta sus pasos por comando, con confirmaciones de receipt explícitas. Como resultado, se reduce el número de alertas duplicadas (-38% por incidente), desaparecen los errores de rollback (todas las acciones pasan por receipt), y la satisfacción del equipo SRE crece de 3.2 a 4.4/5. La solución es adecuada para SaaS/Tech y escenarios horizontales universales, donde el conocimiento sobre el sistema está disperso entre personas y los responsables de guardia cambian de contexto decenas de veces por turno. El agente no toma decisiones irreversibles por sí solo: prepara el terreno para el ingeniero y documenta cada paso.

Efecto esperado
50%· MTTM
Complejidad
Mes (2-4 semanas)
Tipo de herramienta
Framework de agentes
ROI
Riesgo reducido
Industrias
SaaS / Tech, Otro / Universal
Integraciones
Observability / monitoring, Communications
Patterns
Orquestación multipaso, Monitoreo y alertas, Clasificación y enrutamiento

Que hace

El agente reduce el tiempo desde el disparo de la alerta hasta la primera acción significativa — el propio MTTM (Mean Time To Mitigate), que determina cuánto sufren realmente los clientes a causa de un incidente. Funciona como una combinación de monitoreo, orquestación de runbooks y comunicaciones con los responsables de guardia, convirtiendo señales dispersas en un único proceso gestionado.

Qué hace el agente paso a paso

  1. Recibe señales brutas de los sistemas de observability — métricas, logs, trazas, health-checks, alertmanager — y agrupa los duplicados en un único incidente mediante claves de correlación.
  2. Clasifica el incidente por severity (SEV1-SEV4) y dominio (BD, API, red, deploy, proveedor externo) en función de patrones históricos y reglas predefinidas.
  3. Recopila el contexto: últimos deploys, cambios de feature flags, incidentes similares del pasado, lista de responsables del componente, SLO/SLA del servicio.
  4. Enruta la alerta al canal de comunicación correcto — uno, y no cinco. El responsable de guardia recibe un briefing compacto en Slack o PagerDuty en lugar de una decena de alertas idénticas.
  5. Selecciona el runbook adecuado de la biblioteca y propone su ejecución con una evaluación de los riesgos de cada paso.
  6. A petición del responsable de guardia, ejecuta los pasos del runbook con confirmaciones receipt intermedias — antes de cada acción mutadora muestra exactamente qué se realizará y qué consecuencias se esperan.
  7. Documenta la línea de tiempo del incidente: quién hizo qué, cuándo y con qué efecto. Prepara un borrador de postmortem con hechos, no suposiciones.

Qué no hace el agente

  1. No toma decisiones de rollback, failover o drain sin la confirmación explícita del ingeniero de guardia — cada acción irreversible requiere receipt, por lo que en el piloto se registraron cero rollbacks erróneos.
  2. No reemplaza la rotación on-call ni elimina la responsabilidad del equipo — acelera al ingeniero, no lo sustituye.
  3. No adivina las causas de incidentes para los que no hay datos en la biblioteca de runbooks o en los registros históricos. Las nuevas categorías de fallos se escalan a personas, y las lagunas en los runbooks se destacan en el informe posterior al incidente.

Como funciona

Bajo el capó — un agente orquestador sobre un framework de agentes (LLM como capa de reasoning), conectado al stack de observability, al sistema de comunicaciones y a la biblioteca de runbook. El principio clave — todas las acciones con efectos secundarios pasan por el mecanismo de receipt: el agente formula la intención, se la muestra a la persona y espera confirmación.

Flujo de procesamiento del incidente

La alerta llega a la cola del agente mediante webhook desde alertmanager, PagerDuty o DataDog. El agente normaliza el formato, verifica los incidentes abiertos (si hay duplicado) y enriquece el contexto con la API de monitoreo y el CMDB. A continuación, la capa LLM clasifica el incidente y selecciona el runbook — esto es una llamada de structured output independiente con validación por esquema JSON. El orquestador ejecuta el runbook como un grafo de pasos: cada paso es read-only (consulta de métricas, búsqueda de logs) o mutating (restart de pod, flip de feature-flag, rollback de deploy). Los pasos mutating requieren receipt del operador de guardia.

Pasos de implementación

  1. Inventario — recopilar la lista de runbooks (aunque estén en Confluence, en la cabeza del senior o en gists), catalogarlos por componentes y severity.
  2. Normalización de runbooks — convertir al formato legible por máquina: YAML, Markdown con frontmatter o DSL. Cada paso se etiqueta como read-only o mutating, con una acción de rollback explícita.
  3. Conexión de observability — configurar los webhooks de salida desde alertmanager/PagerDuty/DataDog al agente, mapear los labels de las alertas con la clasificación de dominio.
  4. Integración de communications — bot de Slack para briefings y diálogos de receipt, threading por incident ID, enrutamiento de canal por equipo responsable.
  5. Configuración del pipeline LLM — clasificador, selector de runbook, generador de briefing. Cada llamada — structured output con esquema JSON estricto.
  6. Pilot en 1-2 servicios — primero en modo shadow (el agente propone pero no actúa), luego con manual approval en todo, después con auto-approve en los pasos read-only.
  7. Expand al resto de equipos — a medida que se estabilizan las métricas de MTTM y crece la confianza de los operadores de guardia.

Componentes del sistema

Componente

Rol

Alert ingester

Normalización de webhooks de monitoreo, deduplicación por claves de correlación

Classifier

Clasificación LLM de severity y dominio con structured output

Runbook store

Biblioteca de runbooks en YAML/Markdown con versionado

Orchestrator

Ejecución paso a paso del runbook, mecánica de receipt en los pasos mutating

Communications adapter

Briefings, diálogos de receipt, threading en Slack

Audit log

Línea de tiempo de todas las acciones del agente y del operador, entrada en postmortem

Runbook store — elemento crítico: si no hay runbooks o están desactualizados, el agente trabaja en vacío. Las primeras semanas de implementación se dedican precisamente a la disciplina del equipo en su redacción. Audit log — segundo elemento crítico: sin él, la mecánica de receipt pierde sentido, porque no es posible reconstruir quién confirmó qué.

El agente opera en el ciclo reasoning → action → receipt → observation hasta alcanzar un estado resuelto (las métricas vuelven a la normalidad) o un escalation (la persona toma el control, el agente pasa al rol de asistente y documenta las acciones del operador de guardia).

Requisitos previos

Para la implementación se necesita una madurez básica de los procesos — sin ella, el agente no tiene en qué apoyarse.

Datos y accesos

  • Stack de observability con webhook de alertas (Prometheus + alertmanager, DataDog, New Relic, Grafana, PagerDuty — cualquier moderno).
  • Al menos 5-10 runbooks escritos para las clases de incidentes más frecuentes. Pueden estar en Confluence, Notion o git — lo importante es que existan.
  • Acceso a la API de los sistemas de infraestructura para acciones mutating (kubectl, Terraform Cloud, plataforma de feature-flag, CI/CD).
  • Canal de comunicaciones para incidentes (Slack o Teams) con permisos de bot para escritura, lectura de threads, creación de canales.
  • Historial de incidentes pasados de 3-6 meses para calibrar el clasificador.

Preparación del equipo

  • Un owner designado por parte de SRE/DevOps, responsable de la biblioteca de runbooks y su vigencia.
  • Cultura de postmortems sin blame — de lo contrario, el agente que lo documenta todo generará resistencia.
  • Los ingenieros de guardia están preparados para el nuevo workflow con confirmaciones de receipt en lugar de acciones directas en la consola.
  • Comprensión de que las primeras 2-4 semanas el agente trabajará en modo shadow sin acciones reales — esto no es un fracaso, sino la calibración del clasificador y del selector de runbooks.

Cronograma

Un proyecto promedio — 6-10 semanas desde el kick-off hasta el uso productivo en varios servicios. Las primeras dos semanas — inventario y normalización de runbooks, la tercera a la quinta — integraciones con observability y communications, piloto en modo shadow. De la sexta a la décima — ampliación del scope y configuración de auto-approve para los pasos seguros de read-only.

Problemas

  • Conocimiento en cabezas, no en documentos
  • Cambio constante de contexto
  • Respuesta lenta a clientes

FAQ

¿Cuánto tiempo lleva la implementación?

6-10 semanas para un equipo SRE de tamaño medio. Las primeras 2 semanas se destinan al inventario y la normalización de los runbooks, las semanas 3-5 — a las integraciones con observability y comunicaciones más el piloto en modo shadow. Las semanas 6-10 — a la ampliación del alcance a servicios adicionales y la activación gradual del auto-approve en los pasos read-only. El ritmo depende en gran medida de si el equipo cuenta con runbooks escritos al inicio o si hay que elaborarlos desde cero.

¿Qué hacer si no tenemos runbooks en formato escrito?

Este es el obstáculo más frecuente para los equipos SMB. Las primeras 2-3 semanas de implementación se convierten en la redacción disciplinada de runbooks junto con los seniors — el agente en ese período ayuda a extraer los procedimientos de sus cabezas mediante entrevistas estructuradas y el análisis del historial de incidentes. Sin este trabajo, avanzar no tiene sentido: el agente no tiene en qué apoyarse, el clasificador trabaja a ciegas y el ROI no se materializa.

¿Cuáles son los riesgos y qué puede fallar?

El principal riesgo son los falsos positivos del clasificador en clases de incidentes poco frecuentes. Mitigación — mecánica receipt: las acciones mutating requieren la confirmación del ingeniero de guardia; las operaciones irreversibles (rollback, drain, failover) siempre requieren approval explícito. En el piloto se registró cero rollbacks erróneos. El segundo riesgo es la degradación de la biblioteca de runbooks con el tiempo. Un owner de parte de SRE es imprescindible para que los runbooks no queden obsoletos y no confundan al agente.

¿Es la solución adecuada para nuestra industria?

La solución es óptima para SaaS/Tech con un stack de observability y rotación on-call. En escenarios horizontales universales — cualquier empresa con servicios en producción, ingenieros de guardia y alertas — también funciona. Para equipos con menos de 5 servicios e incidentes poco frecuentes (menos de 10 al mes), el ROI se materializa con menor intensidad que en empresas con una carga de incidentes regular, donde el MTTM impacta directamente en el SLA y los ingresos.

¿Se puede implementar sin reemplazar el PagerDuty o alertmanager actuales?

Sí. El agente se conecta sobre el stack existente mediante webhooks y API — no reemplaza el monitoreo y la notificación, sino que los complementa con una capa de clasificación, enriquecimiento de contexto y orquestación de runbooks. PagerDuty continúa escalando según la rotación on-call, alertmanager continúa deduplicando a nivel de fuentes, el agente se encarga del triage, el briefing al ingeniero de guardia y la ejecución del runbook por comando.

¿Qué ocurre con los incidentes que el agente no sabe gestionar?

Para estos casos, el agente escala al ingeniero de guardia y pasa al rol de asistente: recopila contexto, documenta las acciones del operador humano, busca incidentes similares en el historial y propone pasos por analogía. Las nuevas clases de fallos son material para ampliar la biblioteca de runbooks; el agente mismo señala estas brechas al owner en el informe posterior al incidente, y se convierten en los próximos candidatos a automatización.

Quieres esto en tu negocio?

Reserva una auditoria gratuita — te mostraremos como funcionara esta automatizacion para ti.

Automatizaciones relacionadas

#56 · IT / DevOps / SRE

On-call agente de IA: diagnóstico + auto-remediation PR

On-call agente de IA: diagnóstico + auto-remediation PR automatiza el proceso de respuesta a incidentes de producción en el área de IT / DevOps / SRE y logra un ahorro de 675 horas de ingeniería al mes. El agente de IA se conecta al stack de observability, al código y a los canales de Slack de los ingenieros de guardia, recopila contexto cuando se activa una alerta y propone una corrección — desde el planteamiento de la hipótesis hasta el pull request con el fix. Para un equipo de 60 ingenieros y 30 canales, el sistema procesa 4 200 flujos exitosos al mes, recibe un 66% de positive feedback y cierra 28 PR sin intervención humana. El costo de un diagnóstico es de $0,30. La automatización elimina tres problemas típicos del equipo DevOps: el conocimiento está disperso entre los ingenieros de guardia, el ingeniero cambia constantemente entre alertas, logs y código, y los clientes se enteran lentamente del estado del incidente. Grow2.ai despliega el agente sobre la base de un modelo de IA con integración en el repositorio, monitoreo y Slack — el lanzamiento completo toma 6–10 semanas.

675 h/mes· Tiempo de ingeniería
Mes (2-4 semanas)Framework de agentesTiempo ahorrado
#57 · IT / DevOps / SRE

Borrador de postmortem desde Slack + telemetría

El agente de IA de Grow2.ai recopila un borrador de postmortem, extrayendo contexto de los hilos de Slack del incidente, alertas del sistema de observability y tickets del issue tracker. El ingeniero recibe el primer draft en minutos — con el timeline de eventos, los servicios afectados, las acciones del equipo y las conclusiones en formato blameless — y lo edita, en lugar de escribirlo desde cero. La solución es adecuada para equipos SaaS, departamentos DevOps y SRE que pierden el conocimiento sobre incidentes en los chats y no logran documentar a tiempo. La automatización resuelve tres problemas: pérdida de contexto de reuniones y discusiones, horas de trabajo manual en el informe, y conocimientos que quedan en la mente de pocas personas y no llegan a los documentos del equipo. La configuración básica lleva aproximadamente una semana: conexión de fuentes de datos, configuración de la plantilla de prompt con reglas blameless, prueba en incidentes reales del historial del equipo. El resultado es la reducción del tiempo dedicado al postmortem: el draft está listo en minutos en lugar de horas de recopilación manual de artefactos y redacción. El formato blameless está codificado en el prompt, y no requiere disciplina de cada ingeniero, por lo que la calidad del documento se vuelve predecible.

Engineer recibe borrador de postmortem en minutos, edita — no escribe desde cero. Formato Blameless codificado en el prompt.

Semana (1-5 dias)Framework de agentesTiempo ahorrado
#59 · IT / DevOps / SRE

Natural language query por todo el observability stack

Natural language query a través del observability stack — el agente de IA responde a las preguntas del equipo sobre logs, métricas, traces y alertas en lenguaje natural. En lugar de cambiar entre Grafana, Datadog, Sentry y Kubernetes dashboards, el ingeniero escribe: «¿por qué la latencia del checkout aumentó después del deploy a las 14:07?» — el agente devuelve una respuesta coherente con enlaces a fuentes específicas. La automatización cubre tres puntos de dolor de los equipos de IT: demasiadas herramientas dispersas, cambio de contexto constante, respuesta lenta a los incidentes. El time-to-insight cae de minutos u horas de hunt-and-peck a una sola consulta. Los nuevos ingenieros hacen el onboarding más rápido, porque no necesitan aprender cada consola por separado. Apto para equipos de IT / DevOps / SRE en empresas SaaS y tech de 5–50 personas, así como horizontalmente — en cualquier lugar donde exista un observability stack de dos o más herramientas. Implementación en un weekend: RAG + MCP-conectores + modelo de IA como motor de diálogo.

El Time-to-insight cae de minutos/horas de hunt-and-peck a una sola consulta NL. Los nuevos ingenieros hacen el onboarding más rápido.

Fin de semana (1-2 dias)Vertical SaaSTiempo ahorrado
#60 · IT / DevOps / SRE

Cloud cost anomaly detection

Cloud cost anomaly detection automatiza el proceso de monitoreo de gastos en infraestructura en la nube en el departamento de IT / DevOps / SRE y logra detectar picos anómalos el mismo día en que ocurren, y no en la etapa del reconcile mensual. La automatización es adecuada para equipos de productos SaaS y cualquier empresa con un consumo no trivial de recursos en la nube, donde el seguimiento manual de gastos ocupa el tiempo de los ingenieros y lleva a pasar por alto fugas de presupuesto. Grow2.ai configura un pipeline que extrae diariamente los datos de facturación del proveedor en la nube, los procesa a través de un modelo estadístico de detección de anomalías y envía alertas estructuradas al canal de trabajo del equipo. El responsable recibe el contexto directamente en Slack o por email: servicio, región, desviación del baseline, motivos del pico. La solución no reemplaza la planificación financiera, pero elimina horas de análisis manual de informes de facturación y reduce el tiempo de reacción ante errores de configuración. Escenarios típicos: errores de Terraform, instancias dev olvidadas, autoscaling sin límite superior, tráfico no planificado.

Los picos de costos inesperados se detectan el mismo día, y no a fin de mes durante el reconcile.

Semana (1-5 dias)Codigo customCosto ahorrado
Hacer el AI-audit (2 min)