Cual es la metrica mas importante en Detection Engineering?

No existe una unica metrica definitiva, pero la cobertura ATT&CK ponderada por relevancia sectorial y la tasa de falsos positivos son las dos que mas impactan la operativa diaria del SOC. La cobertura indica cuanto del panorama de amenazas puedes detectar. La tasa de FP determina si los analistas confian en las alertas o las ignoran.

Como se calcula el MTTD (Mean Time to Detect)?

MTTD = promedio del tiempo transcurrido entre el momento en que una amenaza ejecuta su primera accion maliciosa en el entorno y el momento en que el SOC genera una alerta confirmada. Se calcula sobre incidentes reales (true positives), no sobre alertas brutas. Valores de referencia: equipos maduros logran MTTD < 24 horas para amenazas conocidas.

Que es una vanity metric en deteccion y por que evitarla?

Una vanity metric es un numero que parece impresionante pero no refleja capacidad real de deteccion. Ejemplo clasico: numero total de reglas activas en el SIEM. Tener 5.000 reglas no significa nada si el 40% genera falsos positivos, el 30% nunca se ha disparado y no cubres las tecnicas que usan los actores relevantes para tu sector.

IntermediometricasKPIMTTDcoberturaDetection Engineering

Metricas de Detection Engineering: Medir lo que Importa

Q: Que es una vanity metric en deteccion y por que evitarla?

Una vanity metric es un numero que parece impresionante pero no refleja capacidad real de deteccion. Ejemplo clasico: numero total de reglas activas en el SIEM. Tener 5.000 reglas no significa nada si el 40% genera falsos positivos, el 30% nunca se ha disparado y no cubres las tecnicas que usan los actores relevantes para tu sector.

KPIs y metricas esenciales para programas de Detection Engineering: cobertura ATT&CK, tasa de falsos positivos, MTTD, MTTR, tiempo de despliegue de reglas, impacto en dwell time y diseno de dashboards para SOC y liderazgo.

MalwareIntel Research·5 de junio de 2026·13 min lectura

Serie: Detection Engineering — Parte 14

Por que medir: el problema de los programas sin datos

Un equipo de Detection Engineering sin metricas opera a ciegas. Escribe reglas, las despliega en el SIEM y espera que funcionen. Cuando un incidente escala, no puede responder preguntas básicas: cuanto tardo la detección, que técnicas del atacante no tenian cobertura, cuantas alertas reales se perdieron entre el ruido de falsos positivos.

Sin datos, las decisiones se toman por intuicion. Se priorizan reglas para amenazas que suenan peligrosas en lugar de las que realmente afectan al sector de la organización. Se invierte tiempo en optimizar detecciones que ya funcionan bien mientras las lagunas criticas permanecen abiertas. Y cuando llega la pregunta del CISO (cuanto hemos mejorado este trimestre), la respuesta es un encogimiento de hombros.

Medir no es un ejercicio burocratico. Es la diferencia entre un programa de detección que evoluciona y uno que acumula reglas sin dirección.

Las 4 categorías de metricas

Las metricas de Detection Engineering se organizan en cuatro categorías, cada una respondiendo una pregunta distinta:

Categoría	Pregunta clave
Cobertura	Cuanto del panorama de amenazas podemos detectar?
Calidad	Las detecciones que tenemos, funcionan bien?
Eficiencia	Cuanto tardamos en detectar y responder?
Impacto	Que diferencia tangible hace el programa?

Un programa maduro mide las cuatro. Uno que empieza deberia enfocarse primero en cobertura y calidad, porque sin saber que detectas y si lo que detectas es fiable, las metricas de eficiencia e impacto carecen de contexto.

Metricas de cobertura

Porcentaje de cobertura ATT&CK

La metrica más visual y la más malinterpretada. El porcentaje de técnicas MITRE ATT&CK para las que existe al menos una regla de detección activa.

Formula básica:

Cobertura ATT&CK (%) = (Tecnicas con >= 1 regla activa / Total tecnicas relevantes) x 100

La clave esta en "relevantes". MITRE ATT&CK tiene mas de 200 tecnicas y 600 subtecnicas. Ninguna organizacion necesita cubrir todas. Un hospital no prioriza las mismas tecnicas que un banco o una empresa de energia.

Cobertura ponderada (recomendada):

Asigna un peso a cada tecnica segun la frecuencia con que la usan los actores relevantes para tu sector. Si los grupos APT que atacan tu industria usan T1566 (Phishing) y T1059 (Command and Scripting Interpreter) en el 80% de las campanas documentadas, esas tecnicas pesan mas que T1542 (Pre-OS Boot), que casi ningun actor de tu sector emplea.

Cobertura ponderada = SUM(peso_tecnica * tiene_regla) / SUM(peso_tecnica)

Calidad de fuentes de datos

No basta con tener reglas. Si la regla necesita logs de Sysmon EventID 1 (Process Creation) pero el SIEM solo recibe logs de Windows Security Event 4688 sin command line auditing, la regla existe pero no puede funcionar.

Data Source Quality Score:

Dimension	Pregunta	Puntuacion
Disponibilidad	El log llega al SIEM?	0/1
Completitud	Llegan todos los campos que la regla necesita?	0-100%
Frescura	Latencia desde el evento hasta el SIEM	Segundos/minutos
Fiabilidad	Se pierden eventos bajo carga?	0-100%

DSQS = Disponibilidad x (Completitud x 0.4 + Frescura x 0.3 + Fiabilidad x 0.3)

Una regla con DSQS < 0.7 es una regla que probablemente fallara en produccion. Mejor saberlo antes de que un incidente lo demuestre.

Metricas de calidad

Tasa de falsos positivos (FPR)

La metrica que mas afecta la moral del SOC. Cuando el 60% de las alertas son falsas alarmas, los analistas dejan de investigar con rigor. Alert fatigue es el camino mas rapido para que un true positive se pierda entre el ruido.

FPR = Falsos Positivos / (Falsos Positivos + True Positives) x 100

Objetivos por nivel de madurez:

Madurez	FPR aceptable	Contexto
Inicial	< 70%	Muchas reglas sin tunear
En desarrollo	< 40%	Tuning activo por familia de alerta
Maduro	< 15%	Reglas probadas con datos historicos antes de despliegue
Avanzado	< 5%	ML-assisted tuning, feedback loop cerrado

Tasa de true positives (TPR) y signal-to-noise ratio

El TPR mide cuantas amenazas reales detecta una regla respecto al total de amenazas que deberia detectar. Es mas dificil de medir que el FPR porque requiere conocer los falsos negativos (amenazas que pasaron sin ser detectadas), que por definicion son invisibles hasta que se descubren en un postmortem o un ejercicio de Red Team.

Signal-to-Noise Ratio (SNR):

SNR = True Positives / Total Alertas generadas

Un SNR de 0.3 significa que de cada 10 alertas, solo 3 son reales. El objetivo en un programa maduro es SNR > 0.6. Cada regla nueva deberia desplegarse con un SNR estimado basado en testing con datos historicos.

Reglas por estado de salud

Clasificar cada regla del SIEM en categorias de salud:

Estado	Definicion	Accion
Saludable	FPR < 15%, se dispara regularmente, campos correctos	Mantener
Ruidosa	FPR > 40%, genera alert fatigue	Tunear o desactivar
Silenciosa	No se ha disparado en 90+ dias	Verificar data sources
Rota	Errores de parseo, campos faltantes, query timeout	Reparar urgente
Obsoleta	Cubre amenaza inactiva sin relevancia actual	Archivar

Metricas de eficiencia

MTTD (Mean Time to Detect)

Tiempo promedio desde que la amenaza ejecuta su primera accion maliciosa hasta que el SOC genera una alerta confirmada.

MTTD = AVG(timestamp_alerta_confirmada - timestamp_primera_accion_maliciosa)

Calcular el timestamp de la primera accion maliciosa requiere investigacion retrospectiva durante el analisis del incidente. No es trivial, pero es la metrica mas honesta sobre la capacidad de deteccion.

Benchmarks MTTD:

Nivel	MTTD	Contexto
Critico (no aceptable)	> 30 dias	Dwell time excesivo, tipico de organizaciones sin programa
Basico	7-30 dias	Deteccion reactiva, IOC-based
Intermedio	1-7 dias	Reglas de comportamiento activas
Avanzado	< 24 horas	Detecciones behavioral + threat hunting proactivo
Elite	< 1 hora	Automatizacion, ML, SOAR integrado

MTTR (Mean Time to Respond)

Tiempo desde la alerta confirmada hasta la contencion del incidente. No es estrictamente una metrica de Detection Engineering (pertenece mas a Incident Response), pero el equipo de deteccion influye directamente: una alerta bien contextualizada con IOCs relacionados, tecnica ATT&CK mapeada y playbook sugerido reduce drasticamente el MTTR.

Tiempo de despliegue de nueva regla (TTD: Time to Deploy)

Desde que se identifica una nueva amenaza (por threat intel, incidente o ejercicio de Red Team) hasta que una regla de deteccion esta activa en produccion.

TTD = timestamp_regla_en_produccion - timestamp_identificacion_amenaza

Desglose recomendado:

Fase	Benchmark maduro
Analisis de la amenaza	< 4 horas
Escritura de la regla	< 2 horas
Testing con datos historicos	< 4 horas
Review y aprobacion	< 24 horas
Despliegue a produccion	< 1 hora
Total TTD	< 48 horas

Equipos con CI/CD para reglas de deteccion (detection-as-code pipeline) logran TTD < 24 horas de forma consistente.

Metricas de impacto

Incidentes detectados por reglas automatizadas

El porcentaje de incidentes reales que fueron detectados por reglas del SIEM antes de que un humano los descubriera por otra via (queja de usuario, alerta de tercero, revision manual).

Deteccion automatizada (%) = Incidentes detectados por reglas / Total incidentes x 100

Un programa maduro deberia detectar automaticamente > 70% de los incidentes. Si la mayoria se descubren por vias manuales, el programa de deteccion no esta cumpliendo su funcion.

Reduccion de dwell time

Dwell time es el tiempo que un atacante permanece en el entorno sin ser detectado. Es la metrica de impacto mas directa del programa de Detection Engineering.

Segun el informe M-Trends de Mandiant (2024), el dwell time mediano global es de 10 dias. Organizaciones con programas de deteccion maduros lo reducen a < 5 dias. Las mejores a < 24 horas.

Medir la tendencia trimestral:

Mejora dwell time (%) = (DT_trimestre_anterior - DT_trimestre_actual) / DT_trimestre_anterior x 100

Coste por incidente evitado

Metrica para justificar presupuesto ante la dirección. Si una detección temprana de ransomware evito el cifrado de la infraestructura, el coste evitado se calcula comparando con el coste medio de un incidente similar en el sector (IBM Cost of a Data Breach Report: 4.45M USD en 2023).

No es una ciencia exacta, pero es el lenguaje que entiende el CFO.

Diseño de dashboards: que mostrar a cada audiencia

Dashboard para el SOC (operativo)

Los analistas necesitan datos en tiempo real sobre la salud de las detecciones:

Alertas ultimas 24h: desglose por severidad y estado (nueva, investigando, cerrada, FP)
Top 10 reglas más ruidosas: ordenadas por FPR, con boton directo a tuning
Reglas rotas: errores de parseo, timeouts, campos faltantes
Cola de alertas pendientes: con tiempo medio en cola
MTTD rolling 7 dias: tendencia visual (sparkline o barra)

Formato: dashboard en tiempo real, refresco cada 5 minutos, colores por severidad.

Dashboard para liderazgo (estratégico)

El CISO y la dirección necesitan tendencias y cobertura, no alertas individuales:

Cobertura ATT&CK ponderada: heatmap con las 14 tacticas, coloreado por nivel de cobertura
Tendencia MTTD/MTTR trimestral: gráfico de linea mostrando mejora
Reduccion de dwell time: comparativa trimestre vs trimestre
FPR global: tendencia mensual
Incidentes detectados automaticamente vs descubiertos manualmente: ratio
TTD promedio: tiempo de reaccion ante nuevas amenazas
Coste estimado evitado: valor monetario acumulado del trimestre

Formato: informe mensual o trimestral, PDF o presentación, con narrativa breve en cada sección.

Benchmarks por nivel de madurez

Metrica	Nivel 1 (Inicial)	Nivel 2 (Definido)	Nivel 3 (Optimizado)	Nivel 4 (Avanzado)
Cobertura ATT&CK	< 20%	20-40%	40-65%	> 65%
FPR global	> 60%	30-60%	10-30%	< 10%
MTTD	> 30 dias	7-30 dias	1-7 dias	< 24h
TTD (nueva regla)	> 2 semanas	3-14 dias	1-3 dias	< 24h
Detección automatizada	< 30%	30-50%	50-70%	> 70%
Reglas con test automatizado	0%	< 20%	20-60%	> 60%
Data Source Quality Score	No medido	< 0.5	0.5-0.8	> 0.8

Estos benchmarks son orientativos. Cada organización debe definir sus objetivos en función de su sector, tamaño y perfil de amenaza.

Anti-patterns: metricas de vanidad que evitar

Número total de reglas

Tener 5.000 reglas en el SIEM no significa mejor detección. Si el 40% genera falsos positivos, el 30% nunca se dispara y el 20% esta rota o desactualizada, solo el 10% aporta valor real. Es preferible tener 200 reglas saludables que 5.000 sin mantener.

Alertas generadas por dia

"Nuestro SIEM genero 50.000 alertas esta semana" suena impresionante hasta que preguntas cuantas eran true positives. Un número alto de alertas brutas suele indicar un problema de calidad, no una buena capacidad de detección.

Cobertura ATT&CK sin ponderar

Cubrir el 60% de las técnicas ATT&CK parece solido, pero si las técnicas cubiertas son las que ningun actor relevante usa contra tu sector y las que si usan no están cubiertas, el número no refleja protección real.

Tiempo medio de cierre de alerta

Si los analistas cierran alertas rápido porque las marcan como FP sin investigar (para limpiar la cola), el tiempo medio de cierre baja pero la seguridad no mejora. Esta metrica solo tiene valor si se combina con verificación de calidad en el proceso de cierre.

Reglas nuevas por sprint

Medir la productividad del equipo por cantidad de reglas escritas incentiva escribir muchas reglas simples en lugar de pocas reglas de alta calidad. Una regla bien investigada, testeada y tuneada vale más que diez reglas copiadas de un repositorio público sin adaptacion.

Construir un programa de metricas paso a paso

Fase 1: Inventario (semanas 1-2)

Catalogar todas las reglas activas en el SIEM con su estado de salud
Mapear cada regla a la técnica ATT&CK que detecta
Identificar data sources disponibles y su calidad
Establecer la linea base de FPR por regla

Fase 2: Instrumentacion (semanas 3-4)

Implementar logging estructurado en el pipeline de alertas (alerta generada, investigada, clasificada como TP/FP/indeterminada)
Crear queries para calcular MTTD y TTD retrospectivamente
Construir el dashboard operativo del SOC
Definir el proceso de revision de calidad al cerrar alertas

Fase 3: Baseline y objetivos (mes 2)

Calcular las metricas con datos del primer mes completo
Establecer objetivos trimestrales realistas (mejorar FPR un 10%, aumentar cobertura ponderada un 5%)
Presentar el primer informe estratégico a liderazgo
Identificar las 10 reglas más ruidosas y planificar su tuning

Fase 4: Mejora continua (mes 3 en adelante)

Revision semanal de reglas rotas y silenciosas
Revision mensual de cobertura ATT&CK vs amenazas del sector
Revision trimestral de todas las metricas con tendencias
Ajustar objetivos en función de la madurez alcanzada
Incorporar resultados de Purple Team y Red Team como input para nuevas detecciones

Recursos y referencias

MITRE ATT&CK Navigator: herramienta gratuita para visualizar y mapear cobertura de detección sobre la matriz ATT&CK. Permite exportar heatmaps de cobertura.
Palantir Detection Engineering blog series: metodologia de Detection-as-Code con CI/CD para reglas, testing automatizado y metricas integradas.
Ryan Stillions Detection Maturity Level (DML) model: framework de 9 niveles para clasificar la madurez de las detecciones, desde IOCs básicos hasta TTPs abstractas.
MITRE Engenuity ATT&CK Evaluations: resultados de evaluaciones de productos de seguridad contra simulaciones de APT reales, útil para calibrar expectativas de cobertura.
Mandiant M-Trends Report (anual): datos reales de dwell time, vectores de acceso inicial y tendencias de amenazas globales. Fuente primaria para benchmarks de MTTD y dwell time.
IBM Cost of a Data Breach Report: referencia para calcular coste evitado y justificar inversion en detección ante la dirección.
SigmaHQ repository: más de 3.000 reglas Sigma mapeadas a ATT&CK, útil como baseline para medir cobertura inicial.
Detection Engineering Weekly (newsletter): curada por Zack Allen, cubre nuevas detecciones, herramientas y metricas relevantes para la disciplina.