Por Que los IOCs Llegan Tarde a OSINT: 490 Dias de Ventaja en Foros Underground
Investigadores de IMDEA Madrid demuestran que los IOCs aparecen en foros underground 490 dias antes de llegar a VirusTotal y feeds OSINT. Que significa esto para tu programa CTI y como detectar amenazas antes.
El Problema: OSINT Tiene un Punto Ciego Enorme
Si tu equipo SOC depende exclusivamente de feeds OSINT publicos para detectar amenazas, hay algo que deberias saber: los IOCs que recibes hoy probablemente llevan meses (o anos) circulando en foros underground antes de que lleguen a tus blocklists.
No es una suposicion. Es lo que demuestra un paper academico publicado en ACSAC 2024 por investigadores del IMDEA Networks Institute y la Universidad Carlos III de Madrid.
El estudio se llama IoC Stalker y analiza 18 anos de datos (2005-2023) de un prominente foro de hacking multilingue ruso-ingles.
Los numeros son contundentes:
| Metrica | Valor |
|---|---|
| Posts analizados | 1.1 millones |
| Artifacts extraidos | 885,417 |
| IOCs maliciosos confirmados | 37,317 |
| Delay medio hasta OSINT | ~490 dias |
| Hashes: delay hasta VirusTotal | 3.7 anos |
| URLs: delay hasta VirusTotal | 8.4 anos |
Leiste bien: un hash malicioso tarda de media 3.7 anos en aparecer en VirusTotal despues de ser compartido en un foro underground.
Que Encontraron los Investigadores
885K Artifacts, No Todos Maliciosos
Los foros underground contienen una enorme cantidad de IPs, dominios, URLs y hashes. Pero no todos son maliciosos. Un usuario puede compartir una IP de un proveedor cloud, una URL de un servicio VPN, o el hash de una herramienta legitima.
El paper distingue entre artifacts (cualquier IOC compartido) e IOCs reales (artifacts confirmados como maliciosos por multiples motores antivirus via VirusTotal). De los 885K artifacts extraidos, 63,903 resultaron maliciosos con confianza alta (al menos 5 motores AV los detectaron).
El Clasificador: NLP + Contexto Temporal
IoC Stalker no analiza los artifacts en si (no descarga binarios ni conecta a URLs). En vez de eso, analiza el contexto del post donde aparece el IOC:
- Sentence embeddings (all-mpnet-base-v2) del contenido del post
- Titulo del thread y primer post como contexto
- Metadata del autor: reputacion, rango, actividad, antiguedad
- Ventana temporal: solo entrena con datos anteriores al ano de prediccion
Con Random Forest como clasificador, logran un F1-score de 0.80, detectando IOCs maliciosos con solo ~2 falsos positivos diarios.
Transfer Learning entre Tipos de IOC
Un hallazgo especialmente interesante: entrenar con un tipo de IOC mejora la deteccion de otros tipos. Por ejemplo, entrenar solo con URLs mejora la prediccion de dominios maliciosos (FQDN).
Esto sugiere que el contexto lingüistico del post (como habla un cibercriminal vendiendo malware vs. alguien discutiendo herramientas) es mas informativo que las caracteristicas tecnicas del artifact en si.
Por Que Importa para Tu Programa CTI
1. Tus Blocklists Tienen un Agujero de 490 Dias
Si dependes exclusivamente de feeds OSINT, hay una ventana de casi ano y medio donde IOCs estan activos en el underground pero no aparecen en tus sistemas de deteccion.
Durante ese tiempo:
- Malware se distribuye sin que ningun AV lo detecte
- Infraestructura C2 opera sin estar en ninguna blocklist
- URLs de phishing capturan credenciales libremente
2. Los Hashes Son los Mas Lentos
Los hashes (MD5, SHA256) tardan mas en llegar a OSINT porque requieren que alguien someta el sample a VirusTotal o un sandbox. Si el malware circula en circulos cerrados, pueden pasar anos antes de que un investigador lo analice.
Esto refuerza lo que la Piramide del Dolor nos dice: los hashes estan en la base porque son triviales de cambiar para el atacante y lentos de detectar para el defensor.
3. El Contexto Importa Mas que el Artifact
IoC Stalker demuestra que puedes predecir si un IOC es malicioso sin analizar el artifact en si. El lenguaje que rodea al IOC (como se presenta, quien lo comparte, en que contexto) es suficiente para clasificarlo con 80% de precision.
Esto tiene implicaciones directas para plataformas CTI como MalwareIntel: el scoring de confianza no deberia basarse solo en cuantos motores AV detectan un IOC, sino tambien en el contexto donde se reporto por primera vez.
Que Puedes Hacer: 5 Acciones Practicas
1. No Dependas Solo de OSINT
Complementa feeds publicos con fuentes que monitoricen el underground:
- Plataformas de dark web intelligence (FalconFeeds, Recorded Future, Flashpoint)
- Monitorizacion de foros y canales de Telegram CTI
- Feeds de comunidades cerradas (ISACs sectoriales)
2. Implementa IOC Aging
No todos los IOCs envejecen igual. Como implementamos en MalwareIntel:
| Tipo IOC | TTL por defecto | Razon |
|---|---|---|
| IPv4/IPv6 | 3 dias | Rotan rapido (cloud, VPS) |
| URLs/Dominios | 14 dias | Requieren registro, mas estables |
| Hashes | 90 dias | Inmutables, pero el malware se recompila |
| Artifacts (mutex, registry) | 365 dias | Dificiles de cambiar sin reescribir |
3. Prioriza Indicadores de Alto Dolor
Invierte tiempo en detectar TTPs y network artifacts (JA3, patrones URI, user agents), no solo en acumular hashes y IPs. Los indicadores de alto nivel en la Piramide del Dolor persisten aunque el atacante rote su infraestructura.
4. Aplica Scoring Contextual
Cuando ingieras un IOC, considera:
- Fuente: un IOC de un forum underground tiene mas urgencia que uno de un blog de 2019
- Confianza: cuantos motores lo detectan (threshold τ del paper)
- Freshness: cuando fue visto por primera vez
- Contexto: se presento como herramienta ofensiva? Se vendio como servicio?
5. Monitoriza el Gap OSINT
Mide el delay entre cuando tus fuentes internas detectan un IOC y cuando aparece en feeds publicos. Si el gap es consistentemente grande, tienes un argumento solido para invertir en inteligencia proactiva.
Limitaciones del Estudio
El paper tiene limitaciones que conviene mencionar:
- Un solo foro: los resultados son de un foro especifico. Otros foros pueden tener dinamicas diferentes
- Idioma: el foro es ruso-ingles. Foros en chino, arabe o portugues pueden comportarse distinto
- Sesgo temporal: IOCs recientes (2022-2023) tienen menos datos de ground truth en VirusTotal
- No analiza el artifact: el sistema clasifica por contexto, no verifica si el IOC es realmente funcional
Conclusion
El paper IoC Stalker de IMDEA Madrid pone numeros a algo que muchos profesionales CTI intuyen: OSINT tiene un delay enorme. Los IOCs que recibes hoy en tus feeds probablemente llevan meses circulando entre cibercriminales.
La solucion no es abandonar OSINT (sigue siendo fundamental), sino complementarlo con:
- Monitorizacion proactiva del underground
- Scoring contextual que vaya mas alla del recuento de motores AV
- IOC aging que refleje la volatilidad real de cada tipo de indicador
- Deteccion basada en comportamiento (TTPs) que persista aunque los atomicos cambien
En MalwareIntel, implementamos IOC decay automatico y clasificacion por Piramide del Dolor precisamente por esta razon: no todos los IOCs son iguales, y los que llegan tarde a OSINT son, paradojicamente, los que mas dano causan.
Referencia: Mischinger, M., Pastrana, S., Suarez-Tangil, G. (2024). "IoC Stalker: Early detection of Indicators of Compromise." ACSAC 2024. IMDEA Networks Institute / Universidad Carlos III de Madrid.
Preguntas frecuentes
Artículos relacionados
Este contenido tiene fines exclusivamente educativos y de investigación en ciberseguridad defensiva. No se proporcionan binarios maliciosos ni payloads ejecutables. El uso indebido de esta información es responsabilidad exclusiva del usuario. Leer disclaimer completo.