La auditoría del aprendizaje automático—Marco CRISP-DM

Autor: Andrew Clark
Fecha de Publicación: 24 April 2018
English

El aprendizaje automático está revolucionando muchas industrias, desde la banca hasta la fabricación y las redes sociales. Esta técnica de optimización matemática se utiliza para identificar fraudes con tarjetas de crédito, etiquetar individuos en fotos e incrementar las ventas de comercio electrónico mediante la recomendación de productos. El aprendizaje automático puede resumirse como una computadora que reconoce patrones sin programación explícita. Por ejemplo, en la ingeniería de software tradicional, la computadora debe programarse explícitamente a través de instrucciones de control (por ejemplo, si este evento sucede, y luego hacer esto), necesitando que el ingeniero diseñe e implemente la serie de pasos que la computadora realizará para completar la tarea. Sin embargo, cuando se trata de cantidades masivas de datos correlacionados (dos o más variables que se mueven juntas o alejadas una de la otra, por ejemplo, la relación entre la temperatura y la humedad), la intuición humana se descompone. Con los avances en el poder de cómputo, la abundancia de almacenamiento de datos y los recientes avances en el diseño de algoritmos, las empresas cada vez utilizan más el aprendizaje automático para optimizar las operaciones existentes y agregar nuevos servicios, otorgando a las empresas innovadoras una ventaja competitiva duradera. Este uso incrementado ayuda a establecer la necesidad de auditorías de aprendizaje automático.1, 2, 3 Sin embargo, aún no se ha creado un procedimiento estándar para la realización de una auditoría de aprendizaje automático. El uso del marco estándar de la industria cruzada para la minería de datos (CRISP-DM) puede ser una solución de auditoría viable.

La auditoría del aprendizaje automático

Hay muchas maneras posibles de abordar una auditoría de aprendizaje automático, desde un enfoque de ciclo de vida de desarrollo de software (SDLC) estándar hasta una revisión completa del código con indagaciones de suposición matemática. Al igual que en muchas áreas de la vida, el principio de Pareto,4 también conocido como el principio 80/20, se puede aplicar para mostrar que el 80 por ciento del beneficio se obtiene en un 20 por ciento del trabajo. Por ejemplo, los auditores pueden proporcionar un alto nivel de seguridad sobre la eficacia de un algoritmo específico de aprendizaje automático examinando una versión modificada y específica de dominio del SDLC de planificación, definición, diseño, construcción, prueba y despliegue,5 asumiendo un enfoque de cascada tradicional. En muchos casos, el nivel de madurez de los flujos de trabajo de ciencias de datos es inferior al de los ingenieros de software tradicionales, pero un proceso general aún debe ser cubierto en su análisis. El modelo CRISP-DM, posiblemente el estándar de la industria sobre cómo el aprendizaje automático lo llevan a cabo los profesionales (incluso si no han seguido explícitamente el marco), sigue los mismos principios, pero se modifica a las necesidades del proceso de aprendizaje automático.6 Los pasos son:

  1. Obtenga una comprensión del negocio
  2. Obtenga una comprensión de los datos
  3. Prepare los datos
  4. Completar el modelado
  5. Evaluar
  6. Despliegue

Siguiendo el enfoque CRISP-DM, se puede obtener un nivel de seguridad mediante una revisión de alto nivel, con más garantía si los expertos en la materia examinan cada paso en mayor profundidad. Es importante tener en cuenta que el marco CRISP-DM debe modificarse para una auditoría más específica y es más importante que garantizar que se documenten los pasos de trabajo adecuados. Esa es la razón para proponer el CRISP-DM. Para las etapas de preparación, modelado y evaluación de datos, una evaluación exhaustiva generalmente requiere un conocimiento significativo de programación, bases de datos, álgebra lineal, teoría de probabilidad, estadísticas y cálculo, pero podría decirse que uno de los pasos más importantes en una auditoría de aprendizaje automático puede ser llevado a cabo sin estas habilidades, asumiendo la asistencia de los auditados, confiando en la técnica de auditación tradicional del muestreo.

En la comunidad de aprendizaje automático, existe un interés considerable en crear modelos de aprendizaje automático interpretables, donde las personas puedan entender que se realizó una clasificación determinada (por ejemplo, este informe de radiología muestra cáncer, frente a un crecimiento no canceroso) a propósito. Esto es importante ya que, en muchos dominios, como la medicina, los individuos no confiarán en un resultado algorítmico a menos que comprendan por qué se realizó la predicción. Existen varios marcos para auditar algoritmos de aprendizaje automático, como el Modelo Interpretable Local-Explicaciones Agnósticas (LIME) y marcos FairML; sin embargo, estos marcos proporcionan solo una interpretación de los pesos del modelo y no una comprensión holística basada en el riesgo del proceso de aprendizaje automático. Aquí es donde entra en vigencia el enfoque CRISP-DM. Cabe señalar que los marcos LIME7 y FairML8 pueden utilizarse junto con el marco CRISP-DM en la etapa de evaluación para ayudar al auditor a comprender el modelo.

Cuando un modelo de aprendizaje automático está completamente entrenado y puesto en producción, recibe datos de un conjunto de atributos a la vez o como un flujo de datos, según el caso de uso. Para este ejemplo, suponga un modelo discreto con un único conjunto de atributos dados al modelo, uno a la vez. En cualquier caso, después de examinar cuáles son los parámetros de entrada, el auditor podría derivar un pseudo conjunto de datos para alimentar el algoritmo y examinar los resultados previstos para las características que ayudarían a exponer cualquier posible sesgo, por ejemplo, un modelo de predicción de préstamo discriminatorio un grupo racial solo por código postal. Al alimentar los datos a través de una gama de posibilidades, se puede obtener una garantía sobre los posibles sesgos del rendimiento de un modelo sin explicar completamente cómo o por qué el algoritmo realiza una determinada predicción. Incluso con un experto en la materia, actualmente no existe un método de evaluación de modelos interpretable globalmente para ciertos modelos (por ejemplo, máquinas de vectores de soporte y redes neuronales). Al evaluar el resultado de esta serie de muestreo (que debe repetirse varias veces con los mismos datos de entrada para garantizar la consistencia), se puede determinar la precisión práctica en comparación con la precisión matemática utilizada cuando los científicos de datos están capacitando modelos (el rendimiento, es decir, la precisión del modelo y su capacidad para cumplir con los requisitos del negocio son menos complejas de determinar).

Entendimiento de negocios

La sección de comprensión empresarial debe ser relativamente sencilla desde una perspectiva de auditoría, pero puede ser un desafío durante el desarrollo de un modelo. Esta sección trata sobre el caso de uso comercial y, con la ayuda de un experto en dominio, qué atributos del caso de uso deberían incluirse en el modelo, como el monto del ingreso, el título del trabajo, el nivel de educación. En entornos sofisticados, cuando ya se han utilizado otros tipos de modelos, ya sea como software o modelos de decisión mental, este paso puede ser un poco más fácil que comenzar desde cero. Como el marco CRISP-DM es iterativo, la sección de comprensión empresarial se revisará a menudo durante un proyecto grande.

Entendimiento de datos

La comprensión de datos es un paso increíblemente importante del marco CRISP-DM. Sin comprender la naturaleza e idiosincrasia de los datos, no se puede construir un modelo preciso. Sin embargo, hay más en este paso de lo que parece, ya que la mayoría de los datos, además de las variables categóricas, tienen una escala inherente a ellos, como Celsius, Fahrenheit, kilómetros, millas, etc.

Otra consideración importante es dónde están alojados los datos. Las diferentes tiendas de datos tienen diferentes consideraciones, como el esquema dado de una base de datos relacional. Sin un conocimiento profundo de los datos, los modelos algorítmicos fuertes y sus auditorías posteriores no se pueden lograr.

El auditor debe estar atento en esta etapa para comprender todas las variables y asegurarse de que estas variables no estén en conflicto o que presenten sesgos. Las matrices de correlación y covarianza se pueden examinar en esta etapa para comprender cómo las variables se correlacionan y varían en respuesta una a la otra.

Preparación de datos

Una vez que el científico de datos entiende cuál es el caso de uso, cómo se han recopilado los datos y otros detalles, se requiere preprocesar los datos en una forma utilizable para el modelado. Para los datos relacionales, es posible que no se requiera mucha “disputa” para que los datos entren en una estructura enmendable. Sin embargo, con texto no estructurado, como archivos de registro y datos desechados del sitio web, la etapa de preprocesamiento puede consumir mucho tiempo. Es posible que se requieran técnicas tales como expresiones regulares (expresiones regulares) para separar cadenas de texto, como extraer una dirección IP de un archivo de registro. El siguiente comando regex es capaz de analizar una dirección IP, 172.16.254.1, por ejemplo:9

\b\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}\b

En la mayoría de los casos, los datos deben escalarse para que todas las características o dimensiones tengan la misma escala. Por lo general, se utiliza la estandarización z-score, que arroja una media x = 0 y una desviación estándar s = 1 de:

Por ejemplo, continuando con el ejemplo Celsius vs. Fahrenheit, usando un conjunto de valores Celsius, C = {10, 30, 25, 15} y un conjunto de valores Fahrenheit F = {80, 37, 52, 47}, uno puede escalarlos calculando sus medios:

y sus desviaciones estándar:

Después de la estandarización, los puntajes Celsius y Fahrenheit son: Cz = {-1.1,1.1,0.5, -0.5} y Fz = {1.4, -0.9, -0.1, -0.4}. Cuando los datos están estandarizados, las escalas individuales se eliminan, es decir, si los valores de Fahrenheit se convierten primero a Celsius y luego se estandarizan, se obtendrá el mismo resultado.

Modelado

El modelado es el componente vital del aprendizaje automático. Comúnmente se supone que los científicos de datos y los ingenieros de aprendizaje automático pasan gran parte de su tiempo modelando; sin embargo, en la mayoría de los proyectos de aprendizaje automático, el modelado es uno de los pasos más cortos, al menos para la implementación inicial. Muchos botones diferentes se pueden ajustar en diferentes direcciones para refinar el rendimiento de un algoritmo. Sin embargo, muchos científicos usan la intuición seguida de técnicas de búsqueda en cuadrícula de fuerza bruta en práctica para probar todos los hiperparámetros disponibles (parámetros establecidos antes del entrenamiento que no se aprenden, dentro de un rango de valores dado, obteniendo el mejor resultado). Dependiendo de la cantidad de hiperparámetros probados y de la complejidad del algoritmo, esta puede ser una tarea muy intensiva en términos de computación. Si los algoritmos no se han ajustado, es probable que los modelos no estén totalmente optimizados. Esto generalmente implica que no han alcanzado sus mínimos globales, pero la falta de ajuste del modelo no pone en peligro el conocimiento de un algoritmo. Ver la figura 1 para una representación visual de la diferencia entre un mínimo local y global.

Los desarrollos recientes en el campo del aprendizaje automatizado de máquinas10 se utilizan cada vez más no solo para ajustar los hiperparámetros de los modelos, sino también para seleccionar el algoritmo específico. Cuando se utiliza el aprendizaje automático de máquinas, el científico de datos y el auditor deben estar atentos y examinar el modelo seleccionado para garantizar que se cumple el grado de interpretabilidad requerido para el caso de uso dado. Esto significa que la empresa debe explicar por qué se tomó cada decisión, como en el caso de las empresas sujetas a la cláusula de “derecho a la explicación” del Reglamento General de Protección de Datos (GDPR)11 de la Unión Europea (UE). En este contexto, un modelo de máquina de vector de soporte no lineal no sería una elección aceptable. Un beneficio claro que el GDPR ha influido es más énfasis en la interpretabilidad del modelo en el diseño algorítmico.12 En 2016, la Conferencia Internacional sobre Aprendizaje a Máquina (ICML) comenzó un taller anual que se enfoca en la interpretación de modelos, acertadamente llamado el “Taller sobre Interpretabilidad Humana (WHI) en Aprendizaje Automático”.13

Debería examinarse un ítem de lista de verificación de auditoría de aprendizaje automático extremadamente importante si los datos se dividieron en conjuntos de entrenamiento y prueba. Dividir los datos ayuda a evitar el sobreajuste del modelo, lo que significa que el algoritmo coincide con las características del conjunto de datos individual muy de cerca, lo que hace que no se generalice bien a los datos nuevos. Tradicionalmente, los datos se dividen en una división de 80/20, 80 por ciento de los datos como datos de capacitación y 20 por ciento como datos de prueba. Las mejores prácticas modernas llevan esto un paso más allá, utilizando un proceso de validación cruzada para dividir los datos de entrenamiento en piezas más pequeñas y probar el modelo en subconjuntos aleatorios de los datos. Un enfoque común utilizado se denomina validación cruzada k-fold. Esto divide el conjunto de datos en pliegues k-1 (el k es especificado por el ingeniero de aprendizaje automático), donde los datos se dividen de forma iterativa y se comprueban contra el pliegue extendido para reducir el riesgo de ajustar demasiado el modelo a un dato particular conjunto. La figura 2 ilustra cuándo un modelo no es adecuado para los datos, se ajusta correctamente a los datos y se sobreajusta a los datos, que tiene el error más bajo, pero no predice bien los nuevos datos.


Fuente: F. Pedregosa, et al. Reimpreso con permiso.14

Evaluación

La sección de evaluación es posiblemente la sección más importante desde una perspectiva de auditoría. Es en esta área del proceso de aprendizaje automático, o tubería, que el modelo se valida para la precisión y los pesos individuales se pueden ver para algunos modelos. Tradicionalmente, los modelos se evalúan según su precisión de predicción y generalización a los datos de producción. Sin embargo, desde una perspectiva de auditoría, una evaluación del resultado es una preocupación clave. Si el modelo tiene una precisión de predicción extremadamente alta (90 por ciento) y parece estar generalizándose bien, aún puede no estar cumpliendo los objetivos del modelo y/o estar violando los principios del negocio, como inadvertidamente realizar discriminación racial. Además de examinar todos los pasos descritos hasta el momento, el auditor debe crear un conjunto de datos de muestra para alimentar el algoritmo y evaluar el resultado para buscar cualquier efecto involuntario que el modelo pueda producir. Por ejemplo, para un modelo de aprobación de préstamos, el auditor podría crear un conjunto de datos con códigos postales de barrios acomodados, de clase media y pobres; el 90 por ciento de los ingresos, la mediana de los hogares y el nivel de pobreza; y cada etnia importante en la región, caucásica, hispana y afroamericana, con cada combinación de lo anterior, que produce un total de 84 puntos de datos.

Más variables pueden estar en el modelo, como puntaje de crédito, información de empleo, etc. Las variables de prueba también deberían crearse para estos. El auditor puede descubrir un sesgo cultural en el modelo, que puede aumentar la precisión del modelo, pero imponer un sesgo que se perpetúa a sí mismo. Esto, a su vez, podría llevar a una mala publicidad y a la disminución en la precisión de sacar la variable raza; por ejemplo, puede aumentar los ingresos y los beneficios generados por el modelo. Por supuesto, este es un ejemplo simplificado y muchos modelos pueden no tener ningún problema social involucrado, pero el proceso para identificar posibles puntos problemáticos y las pruebas para ellos sigue siendo.

Despliegue

Específicamente, cómo y dónde se implementa el algoritmo en cuestión es menos preocupante para el auditor si se está cumpliendo el nivel de servicio y las capacidades deseadas. Sin embargo, hay un área desde la cual el conocimiento y el examen del auditor podría proporcionar valor: deuda técnica.15 Cuando un desarrollador está construyendo un sistema, se tomarán ciertas decisiones sobre el lenguaje, la API, las bibliotecas de código abierto, cuánto documentación para crear, cuántas pruebas unitarias crear, etc. Básicamente, la deuda técnica es factores menos que ideales integrados en un sistema. La deuda técnica no es intrínsecamente mala. Es el resultado de las decisiones tomadas para llevar a cabo los proyectos a tiempo y dentro del presupuesto. Sin embargo, no está sin consecuencias. En el aprendizaje automático, la deuda técnica es más difícil de detectar y remediar que en los proyectos tradicionales de ingeniería de software debido al aspecto de aprendizaje. A los fines de este ejemplo, el foco está en las cascadas de corrección, una variedad insidiosa de deuda técnica. Se produce una cascada de corrección cuando el algoritmo no produce el resultado deseado y se aplican “soluciones” basadas en reglas en la parte superior del modelo para corregir sus deficiencias. Estas deficiencias pueden ser casos atípicos o haber ocurrido debido a un modelo poco capacitado o datos de capacitación/validación inadecuados. El problema es que si se aplican demasiadas correcciones cuando el modelo está siendo entrenado y retocado, se hace cada vez más difícil determinar qué cambios en el modelo producirán mejoras, ya que los filtros están encima de los resultados y crean esencialmente un límite superior en el capacidad de aprendizaje del modelo. La deuda técnica puede ser descubierta por un experto y experimentado científico de datos que trabaja en el modelo. Sin embargo, el conocimiento obtenido de un informe de auditoría puede solidificar la necesidad de reorganizar un modelo que los científicos de datos ya sabían que tenían deuda técnica.

Conclusión

El marco CRISP-DM se ha introducido para instruir a los auditores sobre cómo realizar una auditoría de aprendizaje automático de alto nivel. Para una inmersión particularmente profunda, se requerirá un especialista en aprendizaje automático, pero siguiendo el marco dado, la auditoría de aprendizaje automático puede ser accesible para más departamentos de auditoría.

1 Clark, A.; “Focusing IT Audit on Machine Learning Algorithms,” MISTI Training Institute, 3 November 2016, http://misti.com/internal-audit-insights/focusing-it-audit-on-machine-learning-algorithms
2 Clark, A.; “Machine Learning Audits in the ‘Big Data Age’,” CIO Insights, 19 April 2017, www.cioinsight.com/it-management/innovation/machine-learning-audits-in-the-big-data-age.html
3 O’Neil, C.; Weapons of Math Destruction, Crown Publishers, USA, 2016
4 The Editors of Encyclopedia Britannica, “Vilfredo Pareto,” Encyclopedia Britannica, https://www.britannica.com/biography/Vilfredo-Pareto
5 Kaur, S.; “A Review of Software Development Life Cycle Models,” International Journal of Advanced Research in Computer Science and Software Engineering, vol. 5, iss. 11, 2015, p. 354–60, http://ijarcsse.com/Before_August_2017/docs/papers/Volume_5/11_November2015/V5I11-0234.pdf
6 Marbán, G. M.; J. Segovia.; “A Data Mining and Knowledge Discovery Process Model, Data Mining and Knowledge Discovery in Real Life Applications,” Intech.com, 2009, http://cdn.intechopen.com/pdfs/5937/InTech-A_data_mining_amp_knowledge_discovery_process_model.pdf
7 Ribeiro, M. T.; S. Singh; C. Guestrin; “Why Should I Trust You?,” Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining - KDD ‘16, 13 August 2016
8 Adebayo, J. A.; “FairML: ToolBox for Diagnosing Bias in Predictive Modeling,” DSpace@MIT, 2016, http://hdl.handle.net/1721.1/108212
9 Goyvaerts, J.; “How to Find or Validate an IP Address,” Regular-Expressionns.info, www.regular-expressions.info/ip.html
10 Feurer, M.; A. Klein; K. Eggensperger; J. Springenberg; M. Blum; F. Hutter; “Efficient and Robust Automated Machine Learning,” Advances in Neural Information Processing Systems 28, vol. 1, 2015, p. 2962–70, http://papers.nips.cc/paper/5872-efficient-and-robust-automated-machine-learning.pdf
11 Goodman, B.; S. Flaxman; “EU Regulations on Algorithmic Decision-Making and a ‘Right to Explanation,’” 2016 Icml Workshop on Human Interpretability in Machine Learning (WHI 2016), New York, NY, USA, 2016, https://arxiv.org/pdf/1606.08813v1.pdf
12 Op cit, Goodman
13 Second Annual Workshop on Human Interpretability in Machine Learning, WHI 2017, 10 August 2017, https://sites.google.com/view/whi2017/home
14 Pedregosa, F., et al.; “Scikit-Learn: Machine Learning in Python,” Journal of Machine Learning Research, vol. 12, October 2011, p. 2825-2830
15 Sculley, D.; G. Holt; D. Golovin; E. Davydov; T. Phillips; D. Ebner; V. Chaudhary; M. Young; “Machine Learning: The High Interest Credit Card of Technical Debt,” SE4ML: Software Engineering 4 Machine Learning (NIPS 2014 Workshop), November 2014, www.eecs.tufts.edu/~dsculley/papers/technical-debt.pdf

Andrew Clark
Es un auditor principal de aprendizaje automático para Capital One. En Capital One, establece enfoques para auditar algoritmos de aprendizaje automático y formas de prototipos para utilizar el aprendizaje automático para la optimización del proceso de auditoría. Él ha diseñado, construido y desplegado una infraestructura de auditoría continua en 17 subsidiarias de fabricación global para un conglomerado de fabricación que cotiza en bolsa y ha construido una plataforma de datos consolidada fuera del Instituto Americano de Contadores Públicos Certificados.