Detección de phishing y pérdida computacional modelo híbrido: Un enfoque de aprendizaje automático

Autor: Baidyanath Biswas and Arunabha Mukhopadhyay, Ph.D.
Fecha de Publicación: 20 February 2017
English

Phishing involucra ingeniería social de datos a través de Internet para adquirir información personal o de negocio de usuarios desprevenidos. El reporte del 2015 de Crimen de la Internet de la Oficina Federal de Investigaciones (FBI) centro de quejas de crimen de Internet (IC3) afirma que las estafas de correo electrónico de los ejecutivos, también conocidas como compromisos comerciales de correo electrónico (BEC), costaron a las empresas estadounidenses US $246 millones en 2015. Empresas afectadas han reportado más de 7,833 quejas BEC al FBI IC3.1 Por el contrario, los costos de identidad y robo de credenciales fueron menores, a US $57 millones, con 22,000 casos reportados durante el 2015.

Los ataques de Phishing están dirigidos a los usuarios ingenuos para engañarlos para que involuntariamente divulgan información crítica, como nombres de usuario; contraseñas de redes sociales; y datos bancarios, financieros y de tarjetas de crédito. Los atacantes de phishing usan correos electrónicos no deseados, direcciones URL web corruptas y mensajes multimedia para dirigirse a los usuarios y atraerlos a páginas web falsas. Por ejemplo, los phishers de Dridex enviaron correos electrónicos específicos que tenían malware adjunto en forma de Macros de Microsoft Office a usuarios de países de habla inglesa en esfuerzos para robar sus credenciales bancarias.2 Figura 1 muestra las firmas elegidas como blanco en 2016 de diversas industrias.3

A la luz de estos eventos, se puede considerar un modelo híbrido para calcular la probabilidad de que una URL sea maliciosa y la pérdida esperada durante las primeras 24 horas después del ataque de phishing. El modelo también ofrece un grupo de estrategias para ayudar al C-suite (grupo gerencial) tomar decisiones a nivel de política y enmarcan las políticas de seguridad de la organización para minimizar las pérdidas debidas a tales ataques de phishing.

Modelo híbrido propuesto para la detección de Phishing y la pérdida computacional

Figura 2 describe el modelo híbrido para la detección de phishing y la pérdida computacional para las empresas que regularmente enfrentan ataques de phishing. El modelo Híbrido consiste de tres módulos:

  • Análisis de riesgo para calcular la probabilidad de una URL potencial puede llevar a un ataque de phishing
  • Pérdida de computación para estimar la pérdida esperada a las partes interesadas después del ataque de phishing
  • Mitigación del riesgo para ofrecer recomendaciones tecno-social para minimizar las pérdidas derivadas de tal ataque

¿Qué son las técnicas de aprendizaje automático?

Las técnicas de aprendizaje automático consisten en reconocimiento de patrones de los datos y algoritmos de aprendizaje que se aplican a aplicaciones prácticas como ser un sistema de detección de intrusos (IDS) y filtros de antispam y antiphishing. La Figura 3 proporciona una vista esquemática del modelo basado en árbol de clasificación (CART) y regresión que genera reglas que se aplican a los datos del conjunto de sitios web legítimos y corruptos.

Algoritmo Bagger para árbol de decisión

Bootstrapping, también conocida como bagger es una técnica de conjunto utilizada en el algoritmo CART. Genera múltiples arboles de predicción y combina cada modelo para mejorar la precisión y reducir el ajuste excesivo del clasificador original. Los datos de entrada se generan al elegir aleatoriamente registros con reemplazo del conjunto de entrenamiento original. El error del modelo es utilizado como un estimador para la importancia de una variable predictora. Un modelo de conjunto tendrá un mayor error de modelo si la mayoría de las variables predictoras son influyentes y vice versa.

Datos

Las clasificaciones de sitios web de Google y Alexa Top 500 ofrecen una lista de sitios legítimos.4 Los sitios de phishing que informan a través de los archivos MillerSmiles y PhishTank entregan las URL malintencionadas.5 Las variables predictoras en el conjunto de datos están codificadas:

+1 = URL legitimo
0 = URL sospechoso
-1 = phishing URL

La variable objetiva está codificada -1 para phishing y + 1 para sitios web legítimos. Entrenamiento y pruebas son efectuadas en ratios 80:20, con 8,844 registros para probar y el resto de las 2,211 para entrenamiento.

Metodología para el clasificador híbrido basado en CART

Figura 4 ilustra los pasos del clasificador híbrido basado en CART que se enfoca en los datos de entrenamiento para crear un conjunto de reglas y ejecutar datos de pruebas como en Figura 3. El clasificador utiliza un algoritmo bagger para crear una lista de las variables más significativas del conjunto de entrenamiento total de los 30 predictores codificados.

Identificar las variables más significativas

En el conjunto de datos experimentales,6 hay 30 variables de entrada, categorizadas en general como propiedades de barra de direcciones, características de anomalía, características HTML y JavaScript y estadísticas del sitio web.7 La Figura 5 muestra la gráfica de importancia basada en las características fuera de bolsa para las 30 variables. El gráfico también indica las cinco principales variables significativas en orden de su importancia, que son #8 (HTTPS en la URL), #14 (URL del ancla), #26 (estadísticas tráfico sitio Web), #15 (links en < Meta >, < Script > y < Link > etiquetas) y #7 (subdominio URL). La técnica de clasificación genera conjuntos de reglas basados en todos/algunos de estos predictores significativos solamente.

Figura 6 ilustra las variables predictoras basadas en URL del sitio web general para probables enlaces de phishing y sus atributos de identificación.

Cálculo de pérdidas para empresas después de un ataque de phishing

Considere una red corporativa de N = 10,000 usuarios, y asuma que el tráfico de la red se satura a medida que más usuarios se unen para seguir una curva de difusión logística.8 Figura 7 ilustra las múltiples etapas de un ataque de phishing y la probabilidad de decisiones y acciones de los usuarios.

Las etapas son:

  • Los atacantes atacan la red (SPAM) con correos electrónicos infectados.
  • Los atacantes esperan que unos usuarios ingenuos abran un correo electrónico infectado.
  • Los usuarios leen los correos electrónicos.
  • Los usuarios hacen clic en URL malicioso.
  • Usuarios comparten sus credenciales a través del URL fraudulento.9

La siguiente ecuación da la pérdida por hora después del ataque de phishing:

Pérdida por hora = N (tamaño de la Red) * (Numero de URLs omitidas) * Prob (abrir Correo Electrónico) * prob (Clic URL) * prob (compartir información) * (impacto monetario de phishing)

Resultados

Figura 8 muestra que de los 980 registros de prueba de URLs de Phishing, el clasificador puede identificar 876 registros con un URL de Phishing, con una tasa real verdadera (TP) del 89.29 por ciento [876/(876+105)]. Los buenos sitios web identificados por el modelo están a una tasa verdaderamente negativa de 94,24 por ciento [1,179 / (1,179 + 72)]. El clasificador trabaja con una precisión total del 92.94 por ciento [(876+1,179)/2,211] en predecir sitios web de phishing y legítimos. De las 100 URL de prueba asignadas al modelo basado en reglas, 93 URL fueron marcadas como legítimas, sospechosas o phishing. Por lo tanto, la probabilidad de identificar correctamente un sitio web de phishing es del 0.9294 para el modelo híbrido descrito en Figura 2.

El siguiente ejemplo demuestra pérdida computacional. En 2016, una empresa de tarjetas de pago fue objetivo de 29 por ciento de 1.000 UR, lo que equivale a 290 URL de phishing. De este 29 por ciento, la probabilidad de éxito de la predicción por el clasificador es 92.94 por ciento, y el dilema de la toma de decisiones por la administración de la empresa puede llegar desde el 7.06 por ciento restante de 290 URL, que es de aproximadamente 21 URL. En el próximo paso, la pérdida estimada es calculada de la ecuación descrita previamente.

Cálculo de la pérdida esperada

  1. La precisión del clasificador: 92.94 por ciento (calculado)
  2. URLs de Phishing que pueden omitir el filtro: 1-92.94 porciento = 7.06 por ciento
  3. De 1,000 URLs enviadas en su totalidad, una empresa siendo objetiva en aproximadamente el 29 por ciento de los casos recibió el 29 por ciento de 1.000, lo que equivale a 290 URLs.
  4. Combinando (2) y (3), el total de URLs de phishing que omiten el filtro son el 7.06 por ciento de 290 = 21.
  5. Dada la probabilidad de abrir correos electrónicos equivale al 30 por ciento, probabilidad de hacer clic en un URL equivale 12 por ciento y probabilidad de compartir información equivale el 12 por ciento. Promedio del impacto monetario de phishing en la industria financiera equivale a US $264.10 Substituyendo valores en la ecuación, la pérdida acumulada por hora = (N) * 21 * 30% * 12% * 125 * US $264, donde N aumenta exponencialmente con una tasa de difusión de red igual a 0,2 y la fortaleza total de la red es igual a 10.000.
  6. El cálculo por hora se muestra en la figura 9(también indicado por el gráfico azul en la figura 10).


Basado en la regla de difusión exponencial, después que los usuarios empiezan hacer clic en los URLs de phishing, la red empieza a bloquear estos sitios. Gradualmente, el sistema es saturado y los atacantes de phishing no pueden extraer mucho del impacto financiero y, por lo tanto, la perdida comienza a reducirse. La naturaleza no lineal y decreciente de las curvas de pérdidas (figura 10) atribuye al fenómeno. Con un estado de alta probabilidad de {abierto, clic, compartir} = {0,50, 0.20, 0.20}, la pérdida es mayor que la del estado medio, que es {0,40, 0.15, 0.15}, y la del estado bajo, que es {0.20, 0.10, 0.10}.

Estrategias Mitigación del Riesgo

Figura 11 muestra que cuando las estrategias de mitigación (personas, procesos y tecnología) están bajas, la medición del impacto financiero de ataques de Phishing es mayor. Cuando el plan de mitigación es alto para todos los factores (personas, procesos y tecnología), la pérdida debido a phishing se minimiza.

Reducción del riesgo debe empezar con herramientas tecnológicas, por ejemplo, software verifica correos electrónicos sospechosos y páginas Web, e instalar filtros de anti spam y antiphishing a través de toda la red. Los ejecutivos de alta gerencia, tales como los principales oficiales de seguridad de la información (CISOs) y los principales funcionarios de tecnología (CTOs), deberían implementar estrictas directrices de seguridad y procesos del sistema en la organización para poder identificar tales escenarios. La formación adecuada organizada por los ejecutivos de recursos humanos debe seguir para que los empleados sigan siendo conscientes del comportamiento de los ataques de phishing y sus categorías. Las organizaciones deben mantener a los equipos de respuesta a emergencias (CERT) y a los administradores de sistemas de sus redes corporativas para escanear con precisión los activos y animar a los empleados a cumplir con las directrices.

Conclusión

El modelo de tres niveles propuesto en este artículo se puede utilizar para calcular la probabilidad de phishing a través de direcciones URL corruptas y la pérdida esperada durante las primeras 24 horas después de un ataque. Este artículo presenta recomendaciones de varios niveles contra ataques de phishing para categorías amplias de empresas y sus empleados. El esquema de clasificación (figura 3) considera variables significativas para predecir la clase de blancos de phishing o sitios web legítimos. La probabilidad asociada del clasificador se aplica para calcular la pérdida estimada (figura 8) a través de un período de 24 horas, inmediatamente después de que la firma haya sufrido un ataque de phishing. Las estrategias de recomendación para las personas, los procesos y la tecnología deben aplicarse en sincronía entre sí de modo que se reduzca la pérdida estimada derivada de los ataques de phishing.

1 Department of Justice, Federal Bureau of Investigation, “2015 Internet Crime Report,” Internet Crime Complaint Center, USA, https://pdf.ic3.gov/2015_IC3Report.pdf
2 O’Brien, D.; Dridex: Tidal Waves of Spam Pushing Dangerous Financial Trojan, Symantec, 2016
3 APWG, 2016 APWG Phishing Attack Trends Reports, 2016, www.antiphishing.org/resources/apwg-reports/
4 Alexa, “The Top 500 Sites on the Web,” www.alexa.com/topsites
5 PhishTank Archives, https://www.phishtank.com/developer_info.php
6 Lichman, M.; “UCI Machine Learning Repository,” 2013, http://archive.ics.uci.edu/ml/
7 Mohammad, R. M.; F. Thabtah; L. McCluskey; “Predicting Phishing Websites Based on Self-structuring Neural Network,” Neural Computing and Applications, vol. 25, iss. 2, 2014, p. 443-458, http://eprints.hud.ac.uk/19220/3/RamiPredicting_Phishing_Websites_based_on_Self-Structuring_Neural_Network.pdf
8 Ransbotham, S.; S. Mitra; “Choice and Chance: A Conceptual Model of Paths to Information Security Compromise,” Information Systems Research, vol. 20, iss. 1, 2009, p. 121-139
9 Verizon Enterprise, 2016 Data Breach Investigations Report, 2016, www.verizonenterprise.com/verizon-insights-lab/dbir/
10 Ponemon Institute, 2016 Cost of Data Breach Study: United States, 2016, www-03.ibm.com/security/data-breach/

Baidyanath Biswas
Es un estudiante de doctorado (Ph.D.) en tecnología de la información y sistemas en el Instituto Indio de Administración (Lucknow, India). Sus intereses de investigación son la privacidad y los temas de riesgo en los sistemas de información, la economía de la ciberseguridad y TI de la atención de la salud. Él ha trabajado como un ingeniero senior de software por nueve años con Infosys, IBM y Cognizant. Se puede ubicar en fpm15005@iiml.ac.in.

Arunabha Mukhopadhyay, Ph.D.
Es profesor asociado en tecnología de la información y sistemas en el Instituto Indio de Administración (Lucknow, India). Recibirá el mejor Premio de Maestro en Gestión de la Tecnología de la Información en 2013 y 2011 y el 19º Premio Dewang Mehta Business School. Se puede ubicar en arunabha@iiml.ac.in.