Estandarizando puntuaciones para las métricas de seguridad y riesgo

Autor: Mukul Pareek, CISA, ACA, ACMA, PRM
Fecha de Publicación: 10 May 2017
English

Con brechas y cortes en las noticias todos los días, la seguridad de la información está ahora firmemente en la agenda de la junta. Aunque ciertamente es difícil de hacer, medir la seguridad es fundamental para entenderlo. Las métricas de riesgo tecnológico monitorean el cumplimiento de metas y objetivos cuantificando la implementación, eficiencia y efectividad de los controles de seguridad; analizar la adaptación de las actividades del programa de seguridad de la información e identificar posibles acciones de mejora.1 La mayoría de los programas de métricas de seguridad se basan típicamente en dos suposiciones: Existe una forma segura de administrar cualquier sistema y la tarea de la administración de seguridad es mantener ese estado.2

Medición de la seguridad

La cuantificación del riesgo tecnológico es una idea que sigue cautivando. Los paralelismos se basan en el riesgo de crédito y de mercado, los cuales permiten la cuantificación de los riesgos basados en la moneda. Ha habido muchos intentos (incluyendo algunos que han sido impulsados por el regulador) donde se ha buscado que el concepto de valor en riesgo se aplique al riesgo operacional, del cual el riesgo tecnológico es un subconjunto.

La medición del riesgo de seguridad de la información es un desafío. Los resultados obtenidos para el riesgo de TI tienden a ser agrupados hacia los extremos, y el resultado más probable para una empresa generalmente no es ninguna pérdida, con una pequeña probabilidad de pérdidas muy altas. Los esfuerzos de cuantificación han involucrado tanto la lógica de la caja negra como el modelado de las distribuciones de pérdidas basadas en la teoría del valor extremo,3 o la combinación de varias métricas de seguridad (a menudo usando medias ponderadas) como una métrica compuesta. Ningún enfoque ha sido lo suficientemente exitoso como para ganar cualquier nivel de adopción generalizada, y casi todos han fracasado en crear una medida que se correlaciona con y es predictiva de pérdidas operacionales realizadas. De hecho, el Enfoque de Medición Avanzada para el Riesgo Operacional,4 que requiere modelar el riesgo operacional utilizando modelos matemáticos similares a los utilizados para el riesgo de mercado y de crédito, pronto será desechado en favor de un enfoque más simple—un reconocimento del riesgo operacional, de los cuales el riesgo tecnológico es un componente, es estructuralmente diferente del riesgo financiero.

La mayoría de las métricas de seguridad y programas de cuantificación del riesgo tienen, por lo tanto, terminó centrándose en la creación de cuadros de mando que arrojan una amplia red, sobre todo examinar el cumplimiento de control. la presentación de informes de riesgos de tecnología en la mayoría de las organizaciones casi siempre consiste en tablas de métricas de seguridad, a menudo resaltados utilizando una convención de semáforos.

Por lo tanto, la mayoría de las métricas de seguridad y los programas de cuantificación de riesgos han terminado centrándose en la construcción de tableros de control y tablas de puntaje que arrojan una amplia red, en su mayoría mirando al cumplimiento del control. Los informes sobre riesgos tecnológicos en la mayoría de las organizaciones casi siempre consisten en tablas de métricas de seguridad, a menudo destacadas mediante una convención de semáforos.

Las métricas relacionadas con diferentes áreas de seguridad de la información utilizan un conjunto diverso de unidades de medida, y los números a menudo necesitan una interpretación única para una medida dada. Para un alto ejecutivo que puede no ser bien visto en los detalles técnicos de lo que cada métrica representa, la interpretación de lo bueno o malo de un número puede ser un desafío. Este artículo propone un enfoque para evaluar e interpretar la seguridad y las métricas de riesgo utilizando puntuaciones estandarizadas.

Interpretación de las métricas de seguridad

Las métricas de seguridad para cualquier corporación generalmente tienden a ser numerosas, a menudo numerado en las decenas, y no en los cientos. La gran cantidad de métricas a menudo desborda la tarea de mensajería. Para confundir los asuntos, las métricas vienen en diferentes formas. Algunas métricas son números absolutos, por ejemplo, el número de vulnerabilidades descubiertas en una aplicación. Algunas mediciones son promedios, por ejemplo, el tiempo medio para reparar. Otros pueden ser porcentajes (o proporciones de algún tipo en una forma generalizada), por ejemplo, el porcentaje de estaciones de trabajo no parcheadas. Las métricas también pueden clasificarse como estadísticas, como tablas de clasificación comparando divisiones o regiones.

La elección de si una medida de rendimiento se expresa como un porcentaje o un número absoluto generalmente se basa en la elección de un analista, impulsada por el juicio y el sentido común en el contexto de la medición que se realiza. Esto significa que hay una cierta arbitrariedad en cuanto a cómo se expresa una medida. Para hacer un parámetro métrico y permitir la interpretación contextual, a menudo se busca un denominador. Este denominador es generalmente la población total a la cual puede aplicarse un defecto o atributo particular. Para algunas métricas, no existen denominadores prácticos. Por ejemplo, el número de incidentes de seguridad puede representarse mejor como un número absoluto, ya que todos los posibles denominadores que se pueden imaginar para esta métrica diluirían el mensaje que transmite la métrica.

Métricas estandarizadas

Al mirar métricas, un gestor de riesgos ve una amplia gama de números—algunos grandes, algunos pequeños—y los rangos numéricos varían. Interpretar y consumir tales métricas puede ser una tarea difícil, particularmente para alguien que no las trata regularmente.

Considere una representación donde todas las métricas se indican en una escala común, por ejemplo, de 1 a 10, por lo que las métricas adversas que necesitan atención se destacarían rápidamente y aquellas que están bajo control serían igualmente visibles. Este tipo de representación facilitaría considerablemente la tarea de comunicación de riesgos.

Cualquier métrica de seguridad puede ser interpretada descomponiéndola a lo largo de tres dimensiones: la velocidad, o la tasa de cambio, de la métrica hacia (o lejos de) un estado seguro deseado; la distancia de la métrica desde un estado seguro; y la persistencia de los fallos de control contados por esa métrica (o la rotación de los elementos inseguros de la población explicada por la métrica). Este artículo propone un lenguaje numérico común para las métricas de seguridad de la información en las que las métricas de seguridad de todos los tipos se expresan a lo largo de una escala común, permitiendo comparaciones entre los controles y las organizaciones a lo largo del tiempo. El artículo considera los aspectos prácticos de tales cálculos y las dificultades en la interpretación y el uso de métricas para el soporte de decisiones para tratar con dichas derivaciones sintéticas.

Propiedades deseadas de las métricas de escala

Las métricas escaladas convierten las métricas de seguridad en un intervalo enlazado. Para los fines de este artículo, las propiedades deseadas de una puntuación escalada incluyen ser:

  • Escala en un rango definido, por ejemplo, 0-10
  • Desagregado. Debe ser posible identificar, con precisión, lo que cada uno de sus componentes está contribuyendo a la puntuación de modo que las decisiones pueden ser apoyadas.
  • Direccionalmente coherente entre medidas, independientemente de las métricas originales. Por ejemplo, una puntuación más alta siempre debe ser consistentemente buena o consistentemente mala según el esquema.
  • Similar a otros, para permitir la agregación usando promedios. En otras palabras, debería ser posible combinar puntuaciones para obtener puntuaciones de nivel más alto, apoyando así una jerarquía de puntuaciones.

El resto de este artículo utiliza una métrica hipotética y los datos reflejados en la figura 1 que muestra el número de máquinas que faltan parches del sistema operativo. Se basa en la premisa de que la puntuación se construye de tal manera que una puntuación más grande indica menor riesgo y una puntuación más baja indica un mayor riesgo o peor rendimiento. Esta métrica se basa en una escala de 1 a 10, siendo 10 una puntuación perfecta. Una puntuación más cercana a cero indicaría un desempeño de control inadecuado o un riesgo mayor.

Convertir métricas a una puntuación

Interpretar una métrica, es decir, decidir si la métrica representa un buen estado o un mal estado, generalmente requiere la consideración de una serie de factores basados en la métrica, el contexto y la intuición y juicio del analista de riesgo. Gran parte de esta interpretación humana es en realidad bastante sencilla. Las métricas, expresadas como un número o un porcentaje, requieren las siguientes consideraciones:

  1. ¿Cuál fue el número en los períodos anteriores, es decir, ¿cuál es la tasa de cambio en la métrica en comparación con el pasado?
    La primera consideración representa la tasa de cambio, o la primera derivada. Una persona que compara una métrica de punto en el tiempo con su valor en un momento anterior, está pensando si la tasa de cambio es demasiado rápida o demasiado lenta y si el cambio está en la dirección correcta. La tasa de cambio proporciona esa información. Su signo, positivo o negativo, proporciona la dirección.
  2. ¿Cómo se compara el número con un umbral, o con un número de estado bueno deseado? En otras palabras, ¿qué se necesitaría para cubrir la distancia desde el estado actual al estado deseado? La segunda consideración es más compleja y requiere pensar en cómo el número se compara con un umbral. En el ejemplo hipotético mostrado en la figura 1, el valor métrico para diciembre es 189. Si el umbral deseado para esta métrica es 100 o menor, la distancia de la métrica al umbral deseado es una varianza adversa de 89. Teóricamente, incluso con todos los datos posibles que podrían identificarse, probablemente sería necesario saber cuánto tiempo se tarda en remediar cada una de estas excepciones. Por ejemplo, si el tiempo medio necesario para fijar cada excepción es de un día hombre, se podría decir que hay, teóricamente hablando, 89 días—hombre de trabajo necesarios para llegar al estado deseado. Esto podría considerarse en la puntuación de la métrica como el estado de distancia a controlar (similar al concepto de distancia a defecto usado para riesgo de crédito). Pero estos datos son difíciles de obtener y están sujetos a perspectivas y debates individuales. Si se dispone de datos creíbles sobre el tiempo de reparación, podrían utilizarse de manera bastante directa, pero por el momento no se seguirá esta línea de pensamiento.
  3. ¿Cuál es el grado de persistencia en el tiempo en los elementos desfavorables representados por la métrica?
    Esto representa el grado de rotación o rotación en los componentes de la métrica. La persistencia se relaciona con el envejecimiento del atributo de seguridad medido por la métrica. Cuando 189 máquinas se reportan como parches ausentes en diciembre, probablemente también es útil saber si éstas eran las mismas máquinas que faltaban parches en noviembre o principios del año o si representan máquinas nuevas que recientemente salieron del cumplimiento.

A continuación, se describe la mecánica de cómo cada una de las consideraciones anteriores se puede calcular de una manera práctica.

La velocidad debe calcularse como la tasa de cambio, es decir, la primera derivada, con referencia al período de medición anterior.

Medida de Velocidad =
Valor del período anterior – Valor del período actual
Valor del período anteriore


Esta fórmula es más simple de lo que parece, y aquí está una ilustración: Si la medición métrica para noviembre es 318 y el número de diciembre es 189, la tasa de cambio es igual a (318-189)/318, lo que equivale a 0,406. No hay límite teórico superior o inferior para el resultado de este cálculo. Por ejemplo, si la métrica de noviembre era 2, entonces la tasa de cambio sería 93.5.

Este cálculo puede necesitar un ajuste para que la dirección se alinee con la premisa inicial, una puntuación más alta representa un buen estado y una puntuación más baja representa un estado defectuoso. En esta situación, una disminución, como la observada entre noviembre y diciembre, refleja una mejora. En consonancia con eso, la medida de la tendencia es positiva. Una métrica en la que un número elevado representa un estado mejor puede explicarse multiplicando el resultado por -1. Un ejemplo sería una métrica que mide el número de aplicaciones o elementos de infraestructura que han sido probados con éxito para la recuperación de desastres. En tal caso, la métrica idealmente sería más alta, no más baja. Un ajuste de dirección sería necesario en tal caso, lo que requeriría que el resultado se multiplicara por -1.

Pero volviendo al ejemplo hipotético de parches que carecen de equipos, la medida calculada para la tendencia de esta métrica es 0,41, ya que un número positivo representa un cambio favorable. Si no hay ningún cambio, la medida de tendencia computará a cero.

Medición de distancia

La medición de la distancia es también un cálculo directo; Si el umbral para la métrica es, digamos, 100, entonces la distancia se calcula como sigue:

Medida de Distancia =
Límite – Valor medido actual
Límite


Este cálculo tiene la propiedad de proporcionar un número negativo si se excede el umbral. Es una medida de la distancia desde el umbral, ya que expresa el valor actual como un múltiplo del umbral deseado. Un número positivo de, por ejemplo, 0,40 significaría que la organización está a 40 por ciento de distancia del valor umbral que se violó. Cuando exactamente en el umbral, el valor es 0, es decir, esta medida está centrada en cero. Cualquier cosa por encima de cero es algo bueno, y cualquier cosa por debajo de cero no es buena.

Para el mes de diciembre en la métrica hipotética, el valor de la medida de distancia es -0.89.

De nuevo, como antes, si la métrica es tal que un número mayor representa un estado adverso, puede ser multiplicado por -1 para ajustar la direccionalidad.

Medición de la persistencia

El elemento de persistencia considera el envejecimiento de los elementos incluidos en una métrica y el período de tiempo en que cada uno de los fallos de control constituyentes ha estado abierto.

Si dos organizaciones idénticas tienen una medida idéntica para una métrica, puede no significar que el estado de sus controles es idéntico, también. Siguiendo el ejemplo de las máquinas que falta por parchar, si la organización hipotética tiene 189 máquinas que faltan parchar en diciembre, pero éstas son las mismas máquinas que faltaban parchar hace seis meses, indica que el proceso normal de administración para remediar parchados no funciona eficazmente. Pero si estas máquinas 189 son todas las máquinas que salieron de cumplimiento en el mes anterior y todas las otras máquinas que faltaban parches al final del último período de medición son ahora compatibles, representa un estado completamente diferente de cumplimiento de control.

La medida de la persistencia trata de cuantificar ese escenario. Una forma de hacerlo es mirar el envejecimiento de los componentes de la métrica. Un ejemplo de perfil de envejecimiento de las 189 máquinas que faltaban parches en diciembre se muestra en la figura 2.

Si la expectativa o el acuerdo de nivel de servicio (SLA) para tratar los parches que faltan es de 30 días, esto significaría que aproximadamente dos tercios de las máquinas estaban rezagadas. En muchos casos, las métricas de seguridad informarán sólo de lo que está más allá del SLA. Pero eso no cambia la esencia de lo que hay que medir, que es la forma de la distribución del envejecimiento. Cuanto más estadística mente puede optar por medir la asimetría, aunque para muchos, la simplicidad supera la elegancia matemática, y saber el porcentaje de la métrica del envejecimiento que está por debajo de un nivel deseado es suficiente.

Para los propósitos de este artículo, el 34 por ciento será la representación simple de la medida de la persistencia. Alternativamente, la proporción de más de 90 días podría haber sido utilizada como medida si fuera más relevante. En ese caso, ya que un número más alto representa una situación peor, el número podría ser ajustado restando esa proporción de 1. En otras palabras, 1 - 25 por ciento = 75 por ciento podría ser usado como medida de la persistencia

Medida de persistencia
= Proporción de los constituyentes métricos menores de un umbral (30 días
en el ejemplo) [o I - proporción mayor de un umbral]

Combine velocidad, distancia y persistencia en una puntuación intermedia

Dado que la métrica debe representarse como un número único, es necesario combinar los tres cálculos mencionados anteriormente en un solo número. Para mantener las cosas simples, se recomienda utilizar un promedio simple. Dependiendo de lo que es más importante para una organización, los puntajes promedio ponderados también podrían ser usados, aplicando un peso diferente a la velocidad, distancia y persistencia.

Para el mes de diciembre, los cálculos de puntuación funcionarán de la siguiente manera:

  • Velocidad, o medida de tendencia—(Valor Noviembre –Valor Diciembre)/Valor Noviembre = (318 – 189)/318 = +0.41
  • Medida de distancia—(Valor Diciembre value)/Valor Diciembre = (100 – 189)/189 = -0.89
  • Medida de persistencia—Proporción bajo 30 days = 65/189 = 0.34

El promedio de las tres medidas es de -0.0468, pero esta no es la puntuación final que cumple con los criterios establecidos anteriormente. Hay una transformación más para completar.

Conversión de los cálculos provisionales a una puntuación absoluta

Ahora que se ha calculado el puntaje intermedio, se puede calcular el puntaje escalado. Dicha conversión se puede realizar usando una función matemática que tomaría estos números como una entrada y proporcionaría una salida que varía entre un cierto rango. Hay una serie de funciones matemáticas que pueden hacer esto. Por ejemplo, una puntuación puede calcularse como × / (× + 1), donde × es el número bruto que necesita ser convertido en una puntuación de rango limitado.

La parte restante de este artículo utiliza la función logística5 (también llamada función logit inversa) para convertir estas medidas en un número que varía entre 0 y 10. La función logística tiene la propiedad de que para una entrada dada, proporciona un resultado que Varía entre 0 y 1 y es muy lineal para un rango alrededor de 0, excepto alrededor de los extremos donde se aproxima a 0 o 1. Una vez que se encuentra un número marcado entre 0 y 1, se puede escalar a un rango, por ejemplo, 0 -10, multiplicando el resultado por 10.

Base de funciones logísticas
= 10 *
  Exp(promedio de las puntuaciones de velocidad, distancia y persistencia) 
Exp(promedio de las puntuaciones de velocidad, distancia y persistencia) +1


Las Figuras 3 y 4 muestran el comportamiento de la función logística. La función es casi lineal para números pequeños y se acerca a un valor máximo o mínimo con bastante rapidez a medida que la salida de 0 se hace grande. Esto es deseable para métricas de seguridad, por lo que, si una métrica representa una situación muy desfavorable o muy deseable, inmediatamente se destaca.

Dado que la función logística da como resultado un número entre 0 y 1 y debido a que el número debe estar entre 0 y 10, debe escalarse multiplicando la puntuación por 10.

Incluso entonces, hay un problema restante. Una puntuación de 0 devuelve un puntaje logit de 0,5 o, según la medida escalada, una puntuación de 5 en una escala de 0 a 10. Pero una puntuación intermedia de 0 es una buena puntuación, es decir, significa que la métrica está en el blanco. Por lo tanto, representarlo como un 5 en una escala de 0 a 10 es engañoso, y debe estar más cerca de 10 de acuerdo con el esquema previsto.

Por lo tanto, es necesario añadir una constante que sesga la determinación de una puntuación escalada más cerca a 10 para una puntuación intermedia de 0. Mediante ensayo y error, se puede proporcionar una corrección razonable si se añade una constante de 1 a la puntuación antes de calcular la puntuación logit. Esta constante puede variarse de acuerdo con las necesidades de la organización y es similar a ajustar una escala de pesaje a 0. Por lo tanto, el cálculo real de las puntuaciones logit se convierte en:

Base de funciones logísticas
= 10 *
   Exp(promedio de las puntuaciones de velocidad, distancia y persistencia)  
Exp(promedio de las puntuaciones de velocidad, distancia y persistencia) +1


Este artículo utiliza una constante de 1. Usando el ejemplo hipotético descrito anteriormente, la figura 5 muestra el cálculo de la puntuación para diferentes meses.

Como se muestra en la figura 5, este mecanismo de puntuación corresponde a las propiedades descritas como deseables previamente. En el mes de julio, que tiene una buena tendencia (la métrica cae de 420 a 60) y un buen número absoluto (60 máquinas, inferior a la tendencia observada en los primeros meses), hay un alto puntaje estandarizado (8.2). En agosto se observa una disminución de la puntuación estandarizada a 2,6, como es de esperar dado el aumento de cinco veces en el número de máquinas no conformes en comparación con el mes pasado.

Usando los Z-scores como el mecanismo de cálculo provisional

El enfoque descrito anteriormente permite considerar los diversos factores que intervienen en la interpretación de métricas. El enfoque anterior supone que hay umbrales disponibles para todas las métricas, lo que es más fácil decirlo que hacerlo. En situaciones en las que no se han establecido umbrales, se puede adoptar un enfoque alternativo y más sencillo basado en las puntuaciones z. Este enfoque, aunque no es tan sensible y preciso como el descrito.

Las puntuaciones Z son puntuaciones estandarizadas calculadas como la distancia de la media, expresada como un múltiplo de la desviación estándar. Los puntajes estandarizados se basan en múltiplos de la desviación estándar, un enfoque no muy diferente al utilizado en el riesgo financiero donde el valor en riesgo es un múltiplo de la desviación estándar.

Puntuación Z =
          Valor de la métrica – Promedio          
Desviación estándar del valor métrico


Las puntuaciones z normalizadas ofrecen una serie de ventajas. Se calculan fácilmente, son fundamentales para una serie de técnicas estadísticas y se explican fácilmente. Aunque no tienen un máximo o mínimo teórico, es más probable que sean números pequeños que números grandes. La Regla de Chebyshev (que establece que no más de 1/k2 de los valores de una distribución son más de k desviaciones estándar fuera de la media)6 dificulta la probabilidad de que una única observación sea demasiadas desviaciones estándar fuera de la media.

Los valores de las puntuaciones z para el ejemplo utilizado anteriormente se muestran en la figura 6.

La Figura 7 muestra una comparación de los dos enfoques: los puntajes estandarizados calculados de acuerdo con el primer enfoque, más sofisticado, y el segundo, más aproximado, usando puntajes z.

Como se muestra en la figura 7, las puntuaciones calculadas utilizando los dos enfoques son bastante similares. Para los estadísticos, la correlación entre los dos para el conjunto de datos hipotéticos fue de 0,74. El segundo enfoque podría ser una manera rentable de comenzar a explorar las puntuaciones estandarizadas con sólo datos de series de tiempo para una métrica.

Conclusión

El enfoque de puntaje de estandarización para las métricas de seguridad y riesgo permite al gestor de riesgos indicar una amplia gama de métricas en términos que usan la misma unidad de medida, todo ello debido a una comparación de elementos a través del tiempo y las áreas de control. Si bien estos métodos de cálculo pueden ser útiles, también pueden contener limitaciones, y esas restricciones deben ser claramente comprendidas. Las puntuaciones compuestas son útiles para resaltar variaciones en un proceso controlado, pero no son útiles en niveles más microscópicos. A menos que se explique bien, la lógica detrás de tales cálculos puede llegar a ser considerada como una caja negra, que puede limitar su adopción.

Notas Finales

1 Chew, E.; M. Swanson; K. Stine; N. Bartol; A. Brown; W. Robinson; Performance Measurement Guide for Information Security, NIST Special Publication 800-55, USA, July 2008, http://csrc.nist.gov/publications/nistpubs/800-55-Rev1/SP800-55-rev1.pdf
2 Bayuk, J.; “Security as a Theoretical Attribute Construct,” Computers & Security, vol. 37, September 2014, p. 155-175, http://dx.doi.org/10.1016/j.cose.2013.03.006
3 The Professional Risk Managers’ International Association, The Professional Risk Managers’ Handbook, PRMIA, USA, 2011
4 Basel Committee on Banking Supervision, Operational Risk—Supervisory Guidelines for the Advanced Measurement Approaches, Bank for International Settlements, June 2011, www.bis.org/publ/bcbs196.pdf
5 James, G.; D. Witten; T. Hastie; R. Tibshirani; An Introduction to Statistical Learning, Springer, USA, 2013
6 McClave, J.; P. Benson; T. Sincich; Statistics for Business and Economics, Prentice Hall, USA, 2000

Mukul Pareek, CISA, ACA, ACMA, PRM
Es un profesional de gestión de riesgos con sede en Nueva York, Estados Unidos. Es copublicador del Índice de Ciberseguridad (www.cybersecurityindex.org) y el autor del sitio web de educación sobre el riesgo www.riskprep.com. Tiene más de 25 años de experiencia en auditoría, TI y seguridad de la información y ha sido publicado en múltiples temas relacionados con la medición de riesgos en el ISACA Journal.