Análisis avanzado de datos para auditores de TI

Autor: Spiros Alexiou, Ph.D., CISA, CSX-F, CIA
Fecha de Publicación: 13 January 2017
English | 中文

Análisis de datos es una herramienta imprescindible para la capacidad de la función1 de auditoría y ampliamente esperada para convertirse en una gran parte de esta en el futuro.2

Análisis de datos se define como, “la ciencia de examinar los datos en bruto con el fin de sacar conclusiones sobre esa información…”3 La definición continúa, afirmando:

La ciencia se divide generalmente en análisis exploratorio de datos (EDA), donde las nuevas características de los datos que son descubiertas, y el análisis de datos de confirmatorio (CDA), donde hipótesis existentes resultan ser ciertas o falsas ... En tecnología de la información, el término tiene un significado especial en el contexto de las auditorías de TI, cuando los controles para una organización respecto a los sistemas de información, operaciones y procesos son examinados. El análisis de datos es utilizado para determinar si los sistemas establecidos protegen eficazmente los datos, operan de manera eficiente y tienen éxito en el logro de las metas generales de una organización.4

Numerosas disciplinas utilizan el análisis de datos simples y avanzados para:

  • Clasificación—Identificación de un (buen o mal cliente) y (fraude/ningún fraude)
  • Agrupación—Identificación de grupos con comportamiento similar
  • Asociación—Determinación de que todos quienes compraron el ítem A también compraron el ítem B, y el 80 por ciento de ellos producto también compraron el C
  • Recapitulación—Describiendo grupos con ciertas características (por ejemplo, ejecutivos con un promedio de uso del total de tarjetas de la empresa que tienen más de x dólares)
  • Análisis de enlaces/vínculos—Determinación de conexiones (por ejemplo, A llamó a B y B inmediatamente llamó C, por lo tanto, A quizás esté vinculada a C)
  • Detección de desviación—Identificación de transacciones significativamente diferentes desde el promedio
  • Predicción/estimación—Prediciendo tendencias o crecimientos de nuevos negocios
  • Visualización—Tal vez esto no es análisis de datos propiamente dicho, pero ayuda en el descubrimiento humano no automatizado (por ejemplo, gráficos o imágenes médicas)

Dos categorías de análisis de datos

Las técnicas de análisis de datos por lo general pertenecen a una de las siguientes dos categorías:

  • Fácil—Uno sabe lo que está buscando. La primera categoría por lo general tiene una regla o umbral bien definido y busca violaciones (por ejemplo, todas las transacciones monetarias con valor mayor que un umbral determinado o todos los empleados retirados que continúan teniendo acceso a los sistemas de TI). La primera categoría analítica por lo general emplea consultas a una base de datos u hojas de cálculo. Auditorías utilizan ampliamente esta categoría de análisis. A medida que el tamaño de los datos aumenta, los auditores a menudo se basan en agregado de datos que TI prepara. Tales datos pueden ser inadecuados por razones de flexibilidad y dependencia sobre TI. Los datos no necesitan ser grandes para ser usables o útiles.
  • Avanzado—Uno no sabe a priori lo que uno está buscando (por ejemplo, los auditores no están comprobando si los umbrales son violados o incluso los valores del umbral). Por ejemplo, los auditores descubren un nuevo fenómeno que aún no se le aplican las reglas y límites conocidos. Los auditores quizás estén interesados en tendencias o patrones, o ellos quizás estén interesados en descubrir nuevas cosas. Los datos suelen contar una historia y, en esta categoría, los auditores quieren ser capaces de leer la historia. Un ejemplo es que los auditores de fraude quizás no conozcan exactamente si el fraude existe y, precisamente, en qué este consiste, porque pueden aparecer nuevas formas de fraude. Los auditores pueden incluso estar interesado en enseñar al computador cómo leer los datos y hacer inferencias, aunque el rendimiento de los computadores debe ser supervisado.

La primera categoría de análisis de datos es análoga para aprender a conducir por el aprendizaje de reglas (por ejemplo, la forma de arrancar el motor, como frenar, como hacer girar la rueda, comprendiendo los límites de velocidad), y la segunda categoría es similar a aprender a conducir viendo videos categorizados como buenas y malas conducciones (manejos). Las técnicas de la segunda categoría son ampliamente utilizadas en muchos campos y, a menudo combinada con los métodos de la primera categoría u otros métodos de la segunda categoría. El objetivo principal de este artículo es el análisis de datos avanzados.

La complejidad del análisis de datos avanzado

Cantidades de análisis de datos avanzados se asocian con casos complejos que no pueden ser etiquetados con usa regla sencilla tal como “si el valor de transacción es mayor que una cantidad dada y sin historia previa de una operación de este tipo por este usuario es encontrada, clasificarlo como sospechoso”. Estas sencillas reglas suelen incluir umbrales, y el cruce de estos umbrales es un indicador.

Esquemas de fraude sofisticados a menudo evaden la detección por simples reglas de la primera categoría de técnicas de análisis de datos. Técnicas avanzadas de análisis de datos tienen como objetivo detectar estos casos interesantes.

Por ejemplo, aunque llamadas de corta duración quizás no sean sospechosas por sí mismas, una combinación de tales llamadas con otra información puede ser un signo de violar las telecomunicaciones o sistemas de centrales telefónicas privadas—PABX (Private Automatix Branch Exchange). En general, aunque una intrusión sin detectar o actividad fraudulenta quizás no pueden violar una regla simple o umbral y, por lo tanto, evadir la primera categoría de análisis, la actividad debe, sin embargo, presentar características que son diferentes desde una actividad normal para ser detectada por el análisis de datos avanzado. El análisis de datos avanzado puede detectar desviaciones del comportamiento normal, incluso si el comportamiento normal no ha sido definido en términos de reglas o umbrales. Sin embargo, para detectar estos casos, toda la información pertinente, (por ejemplo, campos) deben ser identificados e incluidos en los datos, a pesar de que puede que no sea claro aún cómo la información debe ser correlacionada con las desviaciones de un caso de fraude, por ejemplo.

El Caso para expertos en el área

Independientemente del método o la categoría de análisis de datos, la experiencia en el campo es de vital importancia para el análisis de datos y es la razón principal porqué las empresas reclutan nuevos auditores que tienen experiencia en el área en un campo relevante, como TI o finanzas.

Se requiere experiencia en el campo/área para identificar los campos relevantes de los datos. Sistemas y herramientas de análisis de datos devuelven ruido si se les proporciona datos irrelevantes, y el costo de la investigación de los falsos positivos suele ser sustancial. Por ejemplo, si una empresa emplea análisis de datos para identificar un posible fraude, lavado de dinero o de un posible ataque, un científico de datos puede comprender los métodos de análisis de datos y aplicarlos bien entonces, pero no necesariamente conoce los campos relevantes y cómo ellos deberían ser usados.

Un experto en el dominio/área entiende la información que es relevante, o potencialmente relevante, al fraude, el lavado de dinero, un ataque, intrusión, etc., pero no necesariamente se conoce los métodos de análisis de datos para el uso de esta información en casos complejos.

¿Se necesita ser un científico de datos para utilizar herramientas de análisis de los datos?

La respuesta corta es no. Idealmente, uno debería ser capaz de dar instrucciones a un sistema o herramienta para, “ejecutar el método (A) sobre el conjunto de datos (B), y proporcionar los resultados”. Numerosas herramientas pueden ayudar a los auditores a hacer eso. Las “10 Herramientas (Superiores) de análisis de datos para negocios”5 proporcionan una lista de herramientas para el análisis de datos. La mayoría de estas herramientas proporcionan los métodos que se describen más adelante en este artículo. Las principales diferencias entre estas herramientas son las facilidades de uso, la interconexión y los precios.

Los usuarios de las herramientas de análisis de datos deben ser capaces de:

  • Entender lo que hace el método (A).
  • Preparar el conjunto de datos (B) para que sea utilizable por el método (A).
  • Interpretar los resultados

Para poder utilizar estas herramientas, se requiere alguna familiarización con la terminología y jerga de análisis de datos y puede ser necesaria ya que los métodos y sub-métodos a menudo tienen nombres técnicos, tales como la optimización de mínimos secuenciales (Sequential Minimal Optimization—SMO), método de máquinas de vectores de soporte (Support Vector Machines—SVM), y K-means (el algoritmo de agrupamiento más utilizado).

Preparación de datos

Por lo general, un conjunto de datos requiere preparación de los datos si este contiene:

  • Más de un campo (por ejemplo, valor monetario y número de transacciones)
  • Un campo categórico no numérico (por ejemplo, masculino/femenino)
  • Un campo nominal, por ejemplo, posición en la empresa (administrador, director, personal de entrada de datos)

La preparación de datos proporciona la importancia relativa de cada campo para programas o herramientas, por ejemplo, la importancia de un usuario común haciendo 10 transacciones vs. un administrador haciendo 10 transacciones. Otro ejemplo es el número de transacciones bancarias realizadas vs. La cantidad total de las transacciones. ¿Son estas igualmente importantes? ¿Es la cantidad total más importante? Si es así, ¿Cuánto más importante? La tarea de preparación de los datos es similar a la definición de una escala común para medir diferentes cantidades y requiere experiencia en el campo. Esta tarea puede ser más complicada si el conjunto de datos contiene datos no numéricos, tales como campos (Si/No) que respuestas a preguntas como, “¿Hay un destino sospechoso de transferencia de dinero?” Los datos no numéricos no sólo deben ser convertidos a un número, sino también a un número que es escalado para asignarle su importancia relativa con respecto a otros campos.

Asignando importancia relativa numéricamente es necesario porque muchos métodos utilizan el concepto de distancia, es decir, una medida de lo cerca que dos eventos están el uno al otro en sus características, por ejemplo, valores de campo para las transacciones. Cada evento consiste en una serie de campos, y cada valor del campo debe ser numérico (o convertido a un número) y ampliado para reflejar su importancia con respecto a otros campos. Aquí es donde la experiencia en el campo entra en juego. Ningún programa es lo suficientemente inteligente como para determinar la importancia relativa, al menos que se le diga cómo hacerlo.

Métodos de análisis de datos

Aunque más métodos están disponibles, hay cinco métodos de análisis de datos que pueden mejorar las auditorías.

Agrupación
La agrupación organiza los datos en grupos similares, por ejemplo:

  • Un grupo de gerentes que muestran un comportamiento similar en la externalización de trabajo que es bastante distinto desde todos los otros gerentes
  • Un grupo de clientes que exhiben un comportamiento similar, tales como transacciones de gran volumen de pequeño valor individual
  • Los paquetes IP con características especiales La agrupación identifica naturalmente grupos con características que son similares dentro del grupo y diferente desde los miembros de otros grupos. La figura 1 muestra el agrupamiento de datos con dos atributos. Los datos pertenecen a uno de los tres grupos que se muestran en (X, *, +).

El análisis humano y la interpretación de las características del grupo, tales como centro de gravedad de la agrupación, los valores promedios y la difusión de los datos atributos de los de cada grupo, son ejecutados secuencialmente con el objetivo de comprender cada grupo. La agrupación requiere una distancia bien definida para acceder a un comportamiento similar. La agrupación no identifica agrupaciones extrañas o sospechosas, aunque esta puede identificar eventos dentro de un grupo (cluster) que están distantes desde la mayoría de los otros en el mismo grupo (outliers). Por lo tanto, los humanos deben interpretar y comprender los resultados. La agrupación es una muy buena herramienta de exploración que hace casi ninguna hipótesis y se ha utilizado en diversas auditorías que van desde la contabilidad al tráfico de red6, 7, 8. Por ejemplo, la agrupación fue aplicada al tráfico de red para identificar dos grupos, a saber, los flujos de los tráficos de red normal y anormal.9 Cada miembro de estos grupos tiene características específicas, paquetes, bytes y diferentes pares de fuentes-destino, que se acercan más a los miembros del grupo que a los miembros del otro grupo.

Máquinas de vectores de soporte
Las máquinas de vectores de soporte (SVM) como método de análisis de datos es similar a la de agrupación (clustering), porque SVM define, tan precisamente como sea posible, los límites entre diferentes grupos, tales como (fraude/sin fraude) o (Solvente/ insolvente). La característica que separan a un SVM de la agrupación es que SVM utiliza un conjunto de datos previamente etiquetados para enseñar a la computadora a dibujar la línea fronteriza, lo cual, en términos matemáticos, es el hiperplano. La SVM define este hiperplano/limítrofe porque este mejor divide los dos conjuntos de datos etiquetados. La división efectivamente maximiza el área, es decir, la suma de las distancias del punto más cercano de cada conjunto de datos a la frontera más cercana, entre los dos conjuntos de datos, como se ilustra en la figura 2. En consecuencia, un nuevo evento, o punto, a la izquierda de la línea fronteriza establecida es clasificado como el resto de los puntos a la izquierda de la línea fronteriza (por ejemplo, [fraude/No fraude], [opinión positiva/opinión negativa] de un nuevo sistema de información).

La figura 2 muestra SVM para dos conjuntos de datos etiquetados (círculos y cuadrados). La demarcación del hiperplano mejor divide los dos conjuntos de datos, es decir, este maximiza la suma de las distancias de los puntos más cercanos A y B desde la frontera/hiperplano. SVM es un método robusto con una base matemática sólida y es entrenable con relativamente pocos conjuntos de datos. Sin embargo, los resultados no son transparentes para los usuarios. Además, el método es muy sensible al etiquetado de los casos límite (puntos A y B en la figura 2).

Una etiqueta incorrecta en los datos de aprendizaje/entrenamiento puede causar resultados erróneos. Por lo tanto, el método SVM es mejor para ser utilizado cuando se busca determinar una frontera y se tiene un alto grado de confianza en el etiquetado de los casos conocidos, especialmente esos que son cercanos a la línea fronteriza. Ejemplos de uso para el método de SVM son el análisis de solvencia, la detección de intrusiones y verificación de estados financieros.10, 11, 12

Razonamiento basado en casos
El método de razonamiento basado en casos (CBR) intenta imitar, en un alto nivel, el razonamiento del cerebro humano. Un método de resolución de problemas comunes que es utilizado por los médicos, mecánicos y abogados es encontrar un problema similar y analizar la forma en que se manejó.

(CBR) utiliza este mismo proceso ahorrando el tiempo usando soluciones a los problemas en una base de datos. Los nuevos casos hacen referencia a los casos similares en la base de datos (figura 3).

Reglas para un nuevo caso son construidas sobre la base de la proximidad a los casos conocidos en la base de datos. Una de las debilidades de (CBR) es que un nuevo caso que está lejos de todo lo conocido hasta el momento puede ser identificado erróneamente. En la práctica, la decisión o clasificación se basa a menudo no sólo en el caso conocido más cercano, pero también sobre unos pocos vecinos más cercanos (k-NN), de modo que el efecto de un posible error en un caso conocido es aliviado. El método (CBR) requiere de una distancia bien definida para acceder a la cercanía de dos casos. Una ventaja importante del método de (CBR) es su transparencia, el resultado se basa en su similitud con un caso conocido X. Por lo tanto, (CBR) es muy útil para la clasificación de un nuevo caso basado en la experiencia hasta ahora, suponiendo que la experiencia previa con casos similares existe y sus decisiones pueden ser explicadas.

Ejemplos de (CBR) en el campo de práctico va desde la identificación de transacciones sospechosas a la contabilidad y banco de auditorías.13, 14, 15, 16, 17 Por ejemplo, mediante el análisis de la frecuencia de aparición de las llamadas al sistema, los investigadores fueron capaces de identificar intrusiones18 y, mediante el análisis de los registros de acceso, identificaron el uso indebido del sistema desde el interior de los usuarios.19

Redes neuronales artificiales
Las redes neuronales artificiales (ANN) son un método de análisis de datos que intenta imitar, a nivel neuronal de baja altitud, el cerebro humano. Dado un conjunto de datos de aprendizaje o entrenamiento (entrada), (ANN) crea una red que produce el resultado conocido (salida). El método (ANN) espera que, si la red está suministrando un nuevo conjunto de datos de entrada, la red predecirá correctamente la salida. El método de redes neuronales artificiales puede ser visto como un esquema de interpolación compleja, multidimensional que, conociendo la salida o respuesta a un número de diferentes entradas, predice la salida a diferentes entradas en el mismo rango.

El mayor inconveniente de este método es que no es transparente para los seres humanos y no proporciona una explicación simple de por qué este predice la salida.

Este inconveniente es importante en muchas aplicaciones, incluyendo las de auditorías, ya que no es aceptable para informar de un problema, por ejemplo, fraude, el cual tiene detalles que no se entienden. Sin embargo, (ANN) se ha utilizado ampliamente, incluyendo los procesos de auditoría.20 Una lista de ejemplos de (ANN) en la auditoría, incluyendo la detección de gestión de fraude usando predictores públicamente disponibles de estados financieros fraudulentos.21, 22 ANN puede ser valiosa si es utilizada como un indicador de algo que puede valer la pena investigar.

Bosque Aleatorio
El método de análisis de datos (bosque aleatorio) es un tipo de árbol de decisión. Los árboles de decisión tratan de crear reglas desde los casos existentemente evaluados (etiquetados). Por ejemplo, una regla que puede ser deducida es que la notificación de errores financieros es reducida cuando un comité de auditoría independiente existe y este se reúne más de dos veces al año. Sin embargo, los árboles de decisión son propensos a sobreajuste, prestando atención a todos los atributos de los datos. Por ejemplo, un árbol de decisión quizás utilice información que es completamente irrelevante para el resultado final de formular una regla. El (bosque aleatorio) es una variante mejorada que utiliza muchos árboles diferentes para cada uso o subconjunto de todos los atributos. El método (bosque aleatorio) está diseñado para aliviar el sobreajuste y la sensibilidad de los árboles de decisión al ruido y usos de promedio, que es una defensa eficaz contra el ruido. Este método tiene algunas similitudes con el método Delphi,23 es decir, una mejora iterativa de las opiniones de un número de expertos que deberían converger en una única respuesta.

Tal vez una mejor analogía es una elección general o referéndum, donde la mayoría de los electores están suponiendo que son razonables en la mayoría de los problemas, pero cada votante individual puede tener opiniones irrazonables sobre algunos problemas.

De la misma manera, la mayoría de los árboles en el bosque están asumiendo ser buenos para la mayoría de los datos y hacer diferencia, de errores al azar sobre algunos datos. Si la respuesta requerida es un número, entonces un promedio de las respuestas de los árboles es tomado como la respuesta del bosque. Si esta es un tipo de respuesta (sí/no), entonces se utiliza un voto de la mayoría. Por lo tanto, un bosque aleatorio puede dar reglas humanamente comprensibles para la clasificación de los casos actuales y futuros que son basados en los casos ya etiquetados.

Herramientas basadas en los bosque aleatorio suelen trabajar fuera de la plataforma y dan resultados aceptables con relativamente pocos registros de datos y muchos atributos. Un ejemplo reciente de la aplicación de los bosque aleatorio para detectar el fraude de reglas financieras formada sobre la base de numerosos indicadores, tales como la deuda a la equidad (DEQUTY), la relación de activo corriente (CURAST), y el beneficio bruto y el EBIT (TPEBIT).24

Reducción de la complejidad: Ejes principales o componentes

Entender los resultados en los términos más simples posibles es siempre importante, porque los resultados deben ser explicados a la dirección. Por lo general, los registros consisten en numerosos campos que describen los atributos detallados de un evento, por ejemplo, un intento de transacción o de inicio de sesión. Ejes principales es una técnica matemática para reducir el número de campos pertinentes. Por ejemplo, los métodos de análisis de datos pueden detectar un tipo de fraude u otro comportamiento interesante que se caracteriza por un elevado número de transacciones y de bajo valor monetario, y los campos o atributos restantes son en gran medida irrelevante. Este ejemplo tiene un eje principal con la mayor parte del fraude a lo largo de este eje. Otro de los ejes podría describir un tipo diferente de fraude y contiene una combinación diferente de atributos. Este eje es otro eje principal.

La figura 4 ilustra el concepto de análisis de componentes principal: La exhibición de datos es una variación mucho mayor a lo largo del eje horizontal girado que a lo largo del eje vertical girado. Como resultado, comparativamente poca información se pierde al ignorar el eje vertical girado, por lo tanto, la reducción de la complejidad del problema a una variable (el eje horizontal girado) en lugar de dos.

El análisis de los ejes principales ayuda a la comprensión humana, debido a que la gran mayoría de los datos son de interés a lo largo de estos ejes y son más fáciles de entender y visualizar. Un ejemplo sencillo es intrusiones, donde el tiempo de entrada y salida individual puede no ser relevante, pero su diferencia podría ser importante. Por lo tanto, un conjunto diferente de ejes puede ser mucho más informativo si revela, por ejemplo, que las intrusiones tienen largos períodos de tiempo.

Lo mejor de ambos mundos

Métodos desde ambas categorías de análisis de datos se combinan a menudo. Métodos basados en reglas de la primera categoría (uno sabe lo que se busca) son típicamente rápidos, sencillos y con frecuencia concluyentes. Segunda categoría (uno no sabe exactamente lo que se busca) métodos son típicamente más computacionalmente intensivas, más compleja en la preparación de datos e interpretación, y con frecuencia indicativa. Por lo tanto, los auditores a menudo aplican primero métodos basados en reglas, luego utilizan métodos de segunda categoría para los casos que son más difíciles de clasificar.

Un número significativo de las herramientas de análisis están disponibles y muchos de ellas son gratuitas. Estas herramientas pueden ser una importante adición al arsenal de herramientas de auditoría.

Se ha dicho que, “(ANN)s y sistemas (CBR) han demostrado que ofrecen una mejor eficacia de auditoría, una mejor calidad de auditoría y una reducción del riesgo de auditoría de negocios a un bajo costo para las firmas de contabilidad pública. Es el momento de estas herramientas sean utilizadas por los auditores”.25 A pesar de que cada auditoría es diferente y tiene sus propios requisitos, es probable que muchas auditorías podrían beneficiarse de la aplicación del análisis de datos simple y avanzado.

La aplicación de ambas categorías puede mejorar la detección de anomalías a un bajo costo, porque muchas de las herramientas son gratis y de código abierto. Por ejemplo, los investigadores combinaron su clasificador (CBR) con la verificación de la firma para analizar la frecuencia de aparición de las llamadas al sistema e identificar intrusiones.26 Herramientas convencionales se pueden utilizar con eficacia en los casos de lista blanca, por lo tanto, acelera los procedimientos. Además, los resultados de los métodos avanzados pueden ser integrados en los métodos por reglas y basados en umbral. Por ejemplo, los flujos de tráfico con ciertas características corresponden al flujo anormal de la agrupación que será etiquetado sospechoso.

Existen técnicas y herramientas de análisis de datos que pueden ayudar significativamente a los auditores en el descubrimiento del conocimiento oculto en los datos, lo que confirma las hipótesis y hace la mayoría de los datos disponibles. Estos recursos son mejor combinados con la experiencia en el campo de los auditores (y posiblemente otras partes) y con más herramientas convencionales. Las herramientas están disponibles y muchos de ellas son gratis y fácil de usar, los auditores conocen que quieren hacer con los datos.

Notas finales

1 EYGM Limited, “Harnessing the Power of Data: How Internal Audit Can Embed Data Analytics and Drive More Value,” EYG no. AU2688, October 2014, www.ey.com/Publication/vwLUAssets/EY-internal-audit-harnessing-the-power-of-analytics/$FILE/EY-internal-audit-harnessing-the-power-of-analytics.pdf
2 Izza, M.; “Data Analytics and the Future of the Audit Profession,” ICAEW, 22 April 2016, www.ion.icaew.com/MoorgatePlace/post/Data-analytics-and-the-future-of-the-audit-profession
3 Rouse, M.; “Data Analytics (DA),” TechTarget, January 2008, http://searchdatamanagement.techtarget.com/definition/data-analytics
4 Ibid.
5 Jones, A.; “Top 10 Data Analysis Tools for Business,” KDnuggets, June 2014, www.kdnuggets.com/2014/06/top-10-data-analysis-tools-business.html
6 Thiprungsri, S.; M. A. Vasarhelyi; “Cluster Analysis for Anomaly Detection in Accounting Data: An Audit Approach,” The International Journal of Digital Accounting Research, vol. 11, 2011, p. 69-84, www.uhu.es/ijdar/10.4192/1577-8517-v11_4.pdf
7 Munz, G.; S. Li; G. Carle; “Traffic Anomaly Detection Using K-Means Clustering,” 17 January 2016, https://www.researchgate.net/publication/242158247_Trafc_Anomaly_Detection_Using_K-Means_Clustering
8 Dhiman, R.; S. Vashisht; K. Sharma; “A Cluster Analysis and Decision Tree Hybrid Approach in Data Mining to Describing Tax Audit,” International Journal of Computers & Technology, vol. 4, no. 1C, 2013, p. 114-119
9 Op cit, Munz
10 Auria, L.; R. A. Moro; “Support Vector Machines (SVM) as a Technique for Solvency Analysis,” DIW Berlin, German Institute for Economic Research, August 2008, www.diw-berlin.de/documents/publikationen/73/88369/dp811.pdf
11 Abd Manaf, A.; A. Zeki; M. Zamani; S. Chuprat; E. El-Qawasmeh; Informatics Engineering and Information Science, International Conference, ICIEIS 2011, Proceedings, Springer, 2011
12 Doumpos, M.; C. Gaganis; F. Pasiouras; “Intelligent Systems in Accounting,” Finance and Management, vol. 13, 2005, p. 197-215
13 Curet, O.; M. Jackson; “Issues for Auditors Designing Case-based Reasoning Systems,” The International Journal of Digital Accounting Research, vol. 1, iss. 2, p. 111-123, www.uhu.es/ijdar/10.4192/1577-8517-v1_6.pdf
14 Liao, Y.; V. R. Vemuri; “Use of k-Nearest Neighbor Classifier for Intrusion Detection,” Computers and Security, vol. 21, 2002, p. 439-448
15 Denna, E. L.; J. V. Hansen; R. D. Meservy; L. E. Wood; “Case-based Reasoning and Risk Assessment in Audit Judgment,” Intelligent Systems in Accounting, Finance and Management, vol. 1, iss. 3, September 1992, p. 163-171
16 Ho Lee, G.; “Rule-based and Case-based Reasoning Approach for Internal Audit of Bank,” Knowledge-Based Systems, vol. 21, iss. 2, March 2008, p. 140-147, http://dl.acm.org/citation.cfm?id=1344916
17 Singh, A.; S. Patel; “Applying Modified K-Nearest Neighbor to Detect Insider Threat in Collaborative Information Systems,” International Journal of Innovative Research in Science, Engineering and Technology, vol. 3, iss. 6, June 2014, p. 14146-14151
18 Op cit, Liao
19 Op cit, Singh
20 Chao, H.; P. Foote; “Artificial Neural Networks and Case-based Reasoning Systems for Auditing,” Accounting Today, 2 July 2012, www.accountingtoday.com/news/artificial-neural-networks-case-based-reason-ingauditing-63178-1.html
21 Koskivaara, E.; Artificial Neural Networks in Auditing: State of the Art, Turku Centre for Computer Science, February 2003, http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.67.459&rep=rep1&type=pdf
22 Fanning, K. M.; K. O. Cogger; “Neural Network Detection of Management Fraud Using Published Financial Data,” Intelligent Systems in Accounting, Finance and Management, vol. 7, 1998, p. 21-41
23 Rand Corporation, Delphi Method, Rand.org, www.rand.org/topics/delphi-method.html
24 Liu, C.; Y. Chan; A. Kazmi; S. Hasnain; H. Fu; “Financial Fraud Detection Model Based on Random Forest,” International Journal of Economics and Finance, vol. 7, iss. 7, 25 June 2015, p. 178-188, https://mpra.ub.uni-muenchen.de/65404/
25 Op cit, Chao
26 Op cit, Liao

Spiros Alexiou, Ph.D., CISA
Es un auditor de TI que ha estado durante ocho años con una gran empresa. Cuenta con más de 20 años de experiencia en sistemas de información y de análisis de datos y ha escrito numerosos programas informáticos sofisticados. Él puede ser contactado en spiralexiou@gmail.com.