La Ciencia de los Datos como una herramienta para la Seguridad en la Nube: Visibilidad de Generación en la Nube, Detección y Protección

Autor: Aditya K. Sood, Ph.D. and Michael Rinehart, Ph.D.
Fecha de Publicación: 16 August 2016
English | 中文

Compartir, colaborar y tener acceso desde cualquier lugar son las características destacadas de las modernas aplicaciones en la nube. Sin embargo, la seguridad en la nube enfrenta desafíos de escalabilidad. En otras industrias como en “La nube” que están enfrentando estos mismos problemas de escalabilidad, las técnicas de Ciencias de los Datos han demostrado ser muy exitosas. Los ejemplos incluyen, búsqueda en la web, las finanzas de alta velocidad, procesamiento de alto volumen de imágenes y videos, e incluso sistemas de defensa a gran escala. Recientemente, las técnicas de la ciencia de los datos han sido también adoptadas cada vez más en los computadores locales y las aplicaciones de seguridad de red. No hay duda de que la Ciencia de los Datos puede ser usada como una tecnología fundamental para asegurar y fortalecer las aplicaciones en la nube mediante la implementación de algoritmos que puedan detectar amenazas a través de la minería de datos a gran escala.

Usando la Ciencia de los Datos, es posible identificar y extraer información crítica desde una variedad de datos estructurados o no estructurados usando técnicas tales como minería de datos, aprendizaje automático, estadística y procesamiento de lenguaje natural. La información extraída puede ser utilizada para realizar análisis y hacerse una idea del entorno seleccionado desde el cual los datos son recuperados. La figura 1 destaca las diferentes técnicas que son usadas como bloques de construcción de algoritmos de Ciencia de los Datos.

La piedra angular de la seguridad es la visibilidad. Para la seguridad efectiva de las aplicaciones en la nube, visibilidad significa comprender:

  • ¿Qué aplicaciones en la nube son utilizadas por los empleados?
  • ¿Qué acciones son tomadas por los empleados?
  • ¿Qué información es creada por los empleados y distribuida utilizando las aplicaciones (APPs)?

Una vez que la visibilidad es alcanzada, la detección de amenazas de programas maliciosos (malwares) y amenazas internas (insiders), sigue la protección de los activos contando con sistemas de seguridad que interactúan con aplicaciones en la nube, lo que facilita la alerta, prevención automática y políticas de remediación. La Ciencia de los Datos juega un papel importante en la consecución de esa visibilidad. Una vez que la visibilidad es lograda, existe el desafío de detectar las amenazas. Para las aplicaciones en la nube, el desafío es la detección de actividades anormales (inusuales) de los usuarios, los intentos de hacking u otras amenazas que podrían potencialmente exponer o destruir información almacenada sobre un servicio en la nube. Para ello se requiere un nivel significativo de visibilidad que pueda capturar ambas, tanto las acciones del usuario como los recursos que ellos accedan. Por ejemplo, ¿Esta una cuenta de usuario siendo usada para cargar un número inusualmente grande de archivos cifrados (por ejemplo, ransomware)? ¿Está un usuario viendo una cantidad inusualmente grande de información específica (por ejemplo, contactos de ventas) al que él/ella normalmente no tienen acceso? Fijar los umbrales de uso (por ejemplo, límites de carga de subida de datos), puede identificar correctamente el comportamiento más aberrante, pero es probable que resulte en alertas de falsos positivos costosas o un número significativo de no detecciones.

Las soluciones de seguridad tradicionales no están diseñadas específicamente para aplicaciones en la nube; la protección que ellas garantizan sobre los sistemas de instalaciones locales no se traduce de manera efectiva a la nube. Como los proveedores de servicios continúan simplificando estas características, la amenaza de extracción de datos (intencional o accidental) aumenta, por lo que la prevención de pérdida de datos (Data Loss Prevention —DLP) una característica esencial de cualquier solución de seguridad en la nube. Por ejemplo, un sistema avanzado DLP sobre sistemas locales no entiende la semántica de enlaces, porque este quizás no reconoce que un enlace enviado a través de correo electrónico está asociada con un archivo que rompe el cumplimiento con la norma de la Industria de Pago de Tarjetas (Payment Card Industry – PCI)1. La causa puede ser tan simple como que el sistema DLP no reconoce que debe seguir el enlace o que este simplemente no puede acceder al documento o interpretar el tráfico desde el sitio.

La pregunta es si la Ciencia de los Datos puede ser usada como un mecanismo para:

  • Asegurar que un usuario no puede accidentalmente exponer el contenido de un archivo que contiene problemas de cumplimiento o regulaciones asociados
  • Prevenir y remediar exposiciones de datos
  • Detectar y proteger contra un miembro interno malicioso, un atacante o programas maliciosos (malwares) que se hacen pasar por un miembro interno

La respuesta es sí; la Ciencia de los Datos puede hacer frente a todos los problemas mencionados. Este artículo debate sobre los beneficios para la seguridad de la nube desde la capacidad de la Ciencia de los Datos, de proveer consistente y ampliamente visibilidad al uso de aplicaciones dentro de la nube, detección interpretable de nuevas y dinámicas amenazas en la nube, así como la detección precisa de contenido sensitivo sobre un servicio en la nube.

Logrando Visibilidad

La visibilidad en tiempo real dentro de las aplicaciones en la nube y la protección relacionada requiere del análisis del tráfico HTTP para determinar:

  • La cuenta de usuario que accede al servicio
  • Las acciones llevadas a cabo por el usuario
  • Los recursos (por ejemplo, archivos) accedidos o modificados

Esta información puede ser extraída por medio de firmas para analizar el tráfico HTTP, resultando en un evento de registro como “John Doe compartió el documento ‘passwords.txt’ con una dirección de correo electrónico externa”. Tenga en cuenta la necesidad de analizar las transacciones HTTPS para obtener visibilidad dentro del tráfico de red. El tráfico HTTPS puede ser analizado mediante la implementación de un proxy transparente que descifra el tráfico de entrada y simultáneamente permite que el tráfico HTTPS alcance su destino. Por ejemplo, HAProxy2, un proxy de código abierto y balanceador de carga, puede ser usado conjuntamente con tproxy3, un Protocolo de Control de Transmisión (Transmission Control Protocol - TCP) para construir un completo proxy de enrutamiento, configurable, para una solución de proxy transparente para descifrar tráfico HTTPS traffic4.

La visibilidad en la seguridad de una red tradicional se consigue normalmente mediante firmas estáticas. Sin embargo, una aplicación en la nube cambia sus patrones de tráfico de red frecuentemente (a menudo a la frecuencia de una carrera de software, es decir, cada par de semanas), esto representa un esfuerzo de desarrollo para la implementación de firmas manuales. Y si asegurar una aplicación a medida que evoluciona es un desafío, asegurar cientos o miles simultáneamente, sobre todo a medida que surgen, es mucho más difícil. Esto requiere enfoques para la generación de firmas que se adapten lo más rápidamente a la evolución de las aplicaciones, al mismo tiempo que la ampliación de la variedad de aplicaciones disponibles para los usuarios.

Las firmas suelen ser construidas a mano, un proceso que consume tiempo, que se hace aún más difícil para las aplicaciones en la nube que poseen máquinas de codificación de información crítica tales como nombres de archivo. Esto es problemático porque como las aplicaciones en la nube cambian sus patrones de tráfico, las firmas se rompen y es costoso reconstruirlas. Agregando a esto el desafío que es el gran número de aplicaciones disponibles para los usuarios que requieren firmas individuales. Las consecuencias para la seguridad son claras: es frecuente la falta de visibilidad sobre cómo se utilizan las aplicaciones y, en consecuencia, una incapacidad para identificar las amenazas en el tráfico en la nube.

Los métodos de la Ciencia de los Datos (Por ejemplo, aprendizaje automático, minería de datos y análisis de contexto), sin embargo, pueden ser escalados para enfrentar este desafío aprendiendo automáticamente firmas para alcanzar una proporción de cero falsos positivos en una fracción del tiempo requerido para la construcción manual de firmas.

Como las firmas se rompen, las técnicas de la Ciencias de los Datos pueden operar dentro de un bucle de retroalimentación para reparar automáticamente las firmas, recuperando la visibilidad en un corto tiempo. Esto significa que los equipos de seguridad de la información pueden esperar confiada y consistentemente disponer de una visibilidad profunda de los eventos del usuario a través de un gran número de aplicaciones en la nube.

Detección de amenazas dinámicas

Las amenazas a las aplicaciones en la nube provenientes de un actuante malicioso interno, atacantes y usuarios ingenuos están aumentando a un ritmo rápido. Las aplicaciones en la nube están siendo usadas ahora para alojar y distribuir malware, establecer canales de comunicación para la extracción de datos, activar actos de destrucción de datos, exponer la información crítica y secuestrar cuentas. Los algoritmos específicos de ciencias de los datos están en una posición fuerte para proporcionar detección de amenazas de alta calidad cuando la visibilidad es a la vez rica y significativa. Están diseñados para manejar análisis de datos a gran escala y de ese modo extraer información significativa de los datos. La Ciencia de los Datos se puede utilizar como una herramienta para detectar los problemas de seguridad que residen en la nube porque la inteligencia puede ser adquirida sobre múltiples frentes como sigue:

  • Correlación—Mapeo de grandes conjuntos de datos bajo un cubo de análisis de seguridad específico ayuda a determinar la correlación necesaria para entender la postura completa de un ataque. Además, cuando los datos desde múltiples sitios son correlacionados, los ataques pueden ser anatomizados a un nivel granular.
  • Visibilidad—La minería de grandes datos significa un gran cuadro de visibilidad. Cuando se extraen grandes conjuntos de datos, se hace más fácil obtener visibilidad dentro de los ataques, que en última instancia se traduce en la obtención de más inteligencia.
  • Línea Base—Cuando grandes volúmenes de datos son extraídos usando características específicas relacionadas con un ataque, esto ayuda a generar líneas base que pueden ser usadas para medir la intensidad o amplificación de un ataque en un entorno dado.
  • Contexto—La minería de grandes datos puede proporcionar más inteligencia adaptativa, incluyendo conocimiento contextual y situacional de un ataque específico en el ambiente.

Un ejemplo simple es como sigue:

  • El comportamiento del usuario (A) es modelado usando la Ciencia de los Datos y una máquina de aprendizaje para generar líneas base.
  • El usuario (A) no ha compartido ningún archivo externamente a través de la nube durante los últimos dos o tres meses, pero recientemente compartió un archivo.
  • El comportamiento del usuario (A) levanta una alerta de anomalía con relación a desviación de la línea de base generada (probabilidad) calculada anteriormente.
  • Componentes de seguridad adicionales son ejecutados para analizar la anomalía generada por una amenaza potencial. Por ejemplo, la inspección profunda de contenido (Deep Content Inspection - DCI) disecciona la anomalía para detectar si algún dato sensible relacionado con el cumplimiento, tales como información de identificación personal (Personally Identifiable Information - PII), o información de salud protegida (Protected Health Information - PHI), se filtró a través del documento.
  • Una puntuación de riesgo es calculada y la amenaza es detectada en consecuencia.

Los algoritmos de la Ciencias de los Datos también pueden significativamente integrar múltiples fuentes de información para proporcionar una imagen más completa del riesgo estimado de un usuario en una organización. Tales algoritmos automáticamente escalan horizontalmente como el número de señales de entrada (usuarios, aplicaciones, acciones, sitios y dispositivos) aumentan.

La visibilidad significativa que registra las acciones de usuario permite la detección de amenazas significativas. Por ejemplo, una alerta tal como “John Doe vio un número anormalmente alto de contactos relacionados a la fuerza de ventas” quizás sea muy importante para el equipo de seguridad de la información si descubren que John Doe no está en venta.Los algoritmos de la Ciencias de los Datos reducen la carga sobre el equipo de seguridad de la información desarrollando políticas que pueden detectar un comportamiento aberrante, mientras que logran bajar las tasas de falsos positivos. Esto se debe a que son capaces de escalar hacia el desarrollo de modelos de comportamiento a nivel de usuario a través de aplicaciones, acciones e incluso categorías de información (por ejemplo, archivos, carpetas, documentos, blogs) con alta fidelidad.

Construcción de Soluciones para la Prevención de Pérdida de Datos en la Generación de la Nube

En seguridad tradicional, la extracción de datos es abordada por sistemas de prevención de pérdid de datos (DLP), que escanean (en tiempo real) los correos electrónicos y archivos almacenados en los servidores5. Tales sistemas pueden respaldarse efectivamente en expresiones regulares, palabras clave y las extensiones de archivo para identificar la información sensible. Hay una serie de soluciones tradicionales DLP proporcionadas por empresas tales como Symantec6, Fortinet7, McAfee8, Checkpoint9, Websense10, EMC11 y TrendMicro12 que utilizan técnicas estándar para abordar la fuga de datos. Los datos almacenados en la nube, sin embargo, son diferentes a los datos almacenados en los servidores locales ya que los empleados usan la nube para una variedad mucho más amplia de actividades. Por ejemplo, un servicio de intercambio de archivos puede contener una gran cantidad de fragmentos de información (contraseñas o texto desde la Internet); archivos, tales como correos electrónicos, recibos y registros de red; archivos multimedia; borradores o documentos sensibles que no han sido etiquetados; y documentos oficiales, tales como las formas de los empleados y las facturas de los clientes.a

El potencial de “ruido” en la nube es mucho mayor que el de los sistemas locales, y tal ruido aumenta la tasa de alertas de falsos positivos costosas. Las técnicas de la Ciencia de los Datos pueden abordar este desafío mediante el aprovechamiento de una mayor información desde los documentos cuando son evaluados. Por ejemplo, la búsqueda de un número de nueve dígitos en un formulario de salud es más probable que constituya (PII) que, por ejemplo, un número de nueve dígitos que figura en un registro de la red o en el texto sin formato de un correo electrónico. Mediante el uso de contexto, los algoritmos de la Ciencias de los Datos mantienen alta sensibilidad con más bajas tasas de falsos positivos.

La Ciencia de los datos amplía aún más la gama de documentos sensibles identificables por un sistema DLP, y lo hace reduciendo al mismo tiempo los esfuerzos de administración. Por ejemplo, la Ciencia de los Datos puede detectar los documentos de diseño y finanzas sin etiquetar usando la estructura de los documentos y el procesamiento del lenguaje natural. Utiliza técnicas de las Ciencias de los Datos para ofrecer la detección más amplia y efectiva del código fuente sin depender de combinaciones muy específicas con palabras clave que reducen la sensibilidad global.

Finalmente, existe el desafío que supone para los sistemas DLP por el gran tamaño y la gama de contenidos almacenados en la nube. Antes de la nube, muchos archivos de usuario residían localmente, mientras que los archivos más importantes de la empresa eran compartidos o respaldados. Sin embargo, la conveniencia de la nube, trae como resultado que los empleados la utilizan para almacenar muchos tipos de archivos que antes se almacenaban localmente, incluyendo correos electrónicos, recibos, archivos de contraseñas, certificados, archivos descargados y los registros de eventos.

El volumen total de “ruido” resulta en una fuente mucho mayor de posibles falsos positivos. Para ser de valor para un equipo de seguridad de la información, la nube DLP debe mantener y mejorar su capacidad de detectar el contenido sensible sin aumentar la tasa de falsos positivos13.

La aplicación automática de Políticas de Prevención y remediación

Los beneficios de la Ciencia de los Datos de una visibilidad y precisión mejorada proporcionan nuevas oportunidades para los equipos de seguridad de la información para definir las políticas automáticas para proteger el contenido de sus aplicaciones en la nube. La visibilidad en tiempo-real puede ser usada para bloquear ciertas acciones de las aplicaciones en la nube. Cuando se combina con la detección de amenazas avanzadas, las cuentas de usuario alertadas pueden ser automáticamente restringidas hasta que sean liberadas por el equipo de seguridad de la información. Finalmente, la recuperación rápida puede tener lugar, si un usuario tuviera que compartir un archivo sensible, el sistema puede automáticamente dejar de compartirlo. Aparte de las políticas, el registro de eventos granular proporciona al equipo de seguridad de la información un mayor potencial para el análisis de las causas raíces, las cuales pueden ayudar a descubrir nuevas amenazas que se encuentran presente en la red.

Conclusión

Una combinación de bloqueo de puertos y aplicaciones ha sido exitosa en la mitigación de una variedad de ataques de red en casos donde las aplicaciones empresariales son implementadas localmente. Pero a medida que las empresas se mueven a la nube, estos mecanismos se vuelven menos eficaces. En la actualidad existe una necesidad de proteger de forma proactiva las aplicaciones empresariales en la nube a un nivel de granularidad que detecte y bloquee las acciones maliciosas al tiempo que facilite la productividad. La ciencia de los datos es una herramienta que ayuda a los actuales expertos en escalar en las prácticas de seguridad y tecnologías para el tamaño y velocidad de las aplicaciones en la nube.

En concreto, esta lidera la mejora de la visibilidad a través de las acciones del usuario en aplicaciones en la nube, la interpretación de la detección de las amenazas potenciales, así como también la detección profunda y amplia de contenido sensible. Estas ventajas reducen la carga de los equipos de seguridad de la información mediante la reducción de las alertas de falsos positivos y sin sacrificar la sensibilidad a las amenazas, y facilitan aún más el uso seguro de las políticas de prevención y remediación automática.

Notas Finales

1 SANS Institute, Data Loss Prevention, USA, 2008, www.sans.org/reading-room/whitepapers/dlp/data-loss-prevention-32883
2 HAProxy, www.haproxy.org
3 GitHub, github.com/benoitc/tproxy
4 Turnbull, M.; “Configure HAProxy With TPROXY Kernel For Full Transparent Proxy,” loadbalancer.org, 11 February 2009, www.loadbalancer.org/blog/configure-haproxy-with-tproxy-kernel-for-full-transparent-proxy
5 Elastica, The 7 Deadly Sins of Traditional Cloud Data Loss Prevention (DLP) in the New World of Shadow IT, 2014
6 Symantec, “Data Loss Prevention,” 2015, www.symantec.com/products/information-protection/data-loss-prevention
7 Fortinet, “Data Leak Prevention (DLP),” Inside FortiOS, 2013, http://docs.fortinet.com/uploaded/files/1118/inside-fortios-dlp-50.pdf
8 McAfee, “McAfee Total Protection for Data Loss Prevention,” www.mcafee.com/us/products/total-protection-for-data-loss-prevention.aspx
9 Check Point, “Data Loss Prevention Software Blade,” www.checkpoint.com/products/dlp-software-blade
10 Websense, “Websense Data Security Suite,” 2013
11 RSA, “Data Loss Prevention Suite,” www.emc2.bz/support/rsa/eops/dlp.htm
12 Trend Micro, “Integrated Data Loss Prevention (DLP),” www.trendmicro.com/us/enterprise/data-protection/data-loss-prevention
13 Elastica, “Cloud Data Loss Prevention (Cloud DLP)”

Aditya K. Sood, Ph.D.
Es el director de seguridad y amenazas en la nube en Elastica, Blue Coat systems. Sus intereses de investigación son: Análisis y Automatización de Software maliciosos (malware), seguridad de aplicaciones, diseño de software de seguridad y cibercrimen. Autor del libro: “Targeted Cyber Attacks”, él ha sido también autor de varios otros artículos para IEEE, Elsevier, CrossTalk, ISACA, Virus Bulletin and Usenix. Sood ha aparecido en varios medios de comunicación incluyendo: The Associated Press, Fox News, The Guardian, Business Insider and the Canadian Broadcasting Corporation. También ha sido un activo relator en conferencias en la industria talkes como: Black Hat, DEFCON, Hack In The Box, RSA, Virus Bulletin and OWASP.

Michael Rinehart, Ph.D.
Es un científico en Jefe en Elastica, Blue Coat Systems, lidera el diseño y desarrollo de varias tecnologías de Ciencia de los Datos. El ha implementado “Aprendizaje Automático” y Ciencia de los Datos para numerosos dominios incluyendo: seguridad en internet, cuidados de salud, electrónica de potencia, automotriz y mercadeo. Antes de ingresar a Elastica, el lideró la investigación y desarrollo de aprendizaje automático basado en comunicaciones inalámbricas con interferencia tecnológica en: BAE Systems.