Desidentificación, reidentificación y anonimización de grandes volúmenes de datos

Autor: Mohammed Khan, CISA, CRISC, CDPSE, CIPM, Six Sigma Certified Green Belt
Fecha de Publicación: 24 April 2018
English | 日本語

Los grandes volúmenes de datos parecen indeterminados debido a su constante uso en campos intelectuales de datos científicos y empresas científicas, tecnológicas y de humanidades. Hay una creciente necesidad de entender que pueden llegar a hacer los grandes volúmenes de datos por la sociedad en su extensión. No solo pueden mejorar la vida humana innovando lanzamientos médicos más rápidamente en los mercados, pero también puede utilizar el poder de cómputo para analizar grandes conjuntos de datos y mejorar la eficiencia de tecnologías actuales.

El uso de grandes volúmenes de datos es posible sólo con la diseminación y anonimización de datos públicamente accesibles. Para facilitar y administrar la implementación de controles en torno al tema de grandes volúmenes de datos, uno debe realmente entender los conceptos de desidentificación, reidentificación y anonimización. Un famoso estudio demostró que el 87 por ciento de la población americana puede ser identificado en forma individual por su género, código postal y fecha de nacimiento.¹ Esto ilustra la idea de anonimización, pese a ser práctico, requiere más estudio y la debida diligencia. Es importante que los datos personales que hayan sido anonimizados, hayan sido en forma correcta antes de ser utilizados como parte de un conjunto de grandes volúmenes de datos disponibles públicamente. Profesionales de auditoría que trabajan con grandes volúmenes de datos, se enfrentan a implicancias de privacidad global y manejan datos de investigación sensible requieren del conocimiento y la aptitud técnica pata auditar el espacio de grandes volúmenes de datos para permanecer relevantes. Casi todas las empresas están embarcándose en proyectos de grandes volúmenes de datos, y mantenerse en cumplimiento con requerimientos regulatorios de riesgo está provocando que las funciones de cumplimiento interno, riesgo y auditoría en estas empresas demanden este tipo de conjuntos de habilidades.

Desidentificación, reidentificación y anonimización

Es crítico reflejar que la definición de datos personales de las Directivas de Protección de Datos (DPD) es información personal relacionada a una persona natural identificada o identificable.² Es posible para el controlador o un tercero identificar el sujeto de los datos disponibles, en forma directa o indirecta, referenciando el número de identificación de los datos del sujeto o a través de uno o más conceptos específicos para la identidad física, mental, económica, cultural o social del contexto de los datos. Por lo tanto, es importante considerar la desidentificación, reidentificación y anonimización de los datos en conjuntos de grandes volúmenes de datos al considerar el uso de los datos en proyectos empresariales y estudios de cara al exterior.

La desidentificación es la alteración de datos personales para establecer un uso alternativo de los datos personales de manera que sea prácticamente imposible identificar al sujeto del cual derivan los datos. La figura 1 es un ejemplo de desidentificación donde la columna “nombre del alumno” es quitada.

La reidentificación es el método de reversar la desidentificación conectando la identidad del sujeto de datos. Por ejemplo (continuando con el ejemplo anterior), uno podría usar LinkedIn para determinar que Mark Smith se graduó de Enseñanza Media en el año 1996. Esto permite la reidentificación del registro de Mark Smith (es el único que figura con un año de graduación 1996), por lo tanto revelando su promedio de notas y número de clases reprobadas.

La anonimización es la habilidad del controlador de los datos para anonimizar los datos de tal manera que sea imposible que cualquiera pueda establecer la identidad de los datos.

La figura 1 puede ser anonimizada como se muestra en la figura 2 (usando técnicas de generalización, adición y permutación de ruido, que será explicado).

Leyes Europeas y estadounidenses relacionadas con los conceptos de anonimización de datos

Como se mencionó anteriormente, la definición de datos personales de la DPD es información relacionada con una persona identificada o identificable. Específicamente, el Artículo 2(a) de la DPD establece

Los “datos personales” deben significar cualquier información relacionada con una persona natural identificada o identificable (‘sujeto de datos’); una persona identificable es aquella que puede ser identificada, en forma directa o indirecta, en particular como referencia a un número de identificación o a uno o más factores específicos de su identidad física, fisiológica, mental, económica, cultural o social.³

La Directiva 95/46/EC se refiere a la anonimización en el Recital 26 para excluir los datos anonimizados. El Recital 26 significa que para anonimizar cualquier dato, al dato debe quitársele suficientes elementos de tal manera que el sujeto de datos no pueda más ser identificado. La Directiva de Privacidad Electrónica (Directiva 2002/58/EC) también se refiere mucho a “anonimización” y “datos anónimos” con la misma intención.⁴

El Departamento de Salud y Servicios Humanos de los EEUU (HHS) refuerza la Declaración de Portabilidad y Responsabilidad de Seguros de Salud de los EEUU (HIPAA) y establece estándares específicos y estrictos para la desidentificación de datos de salud cubiertos o información de salud protegida (PHI).⁵ El estándar de desidentificación requiere que la PHI quite la totalidad de los 18 identificadores específicos de pacientes⁶ y aplique principios estadísticos o científicos para validar la reidentificación de los datos desidentificados previo a utilizarlos para propósitos de grandes volúmenes de datos.

Métodos de seudonimización y anonimización de datos

La seudonimización es el proceso de desidentificar conjuntos de datos reemplazando todos sus atributos identificables, que son particularmente únicos entre registros (por ejemplo, raza, género). Sin embargo, el dueño del sujeto de datos en este caso (el dueño del conjunto original de datos) aún puede identificar los datos directamente, permitiendo la reidentificación. Por ejemplo, si uno quisiera eliminar todos elementos identificables de datos y dejar un identificador numérico interno eso haría la reidentificación imposible para un tercero, pero muy fácil para el controlador de los datos. Por lo tanto, dichos identificadores, es decir todos los datos seudonimizados, siguen siendo datos personales.

Los datos seudonimizados no son normalmente utilizados como datos de prueba; ellos deben ser anonimizados. Uno puede confiar en la generación aleatoria de datos de algunos sitios clave que se especializan en este tipo de uso.⁷

La seudonimización reduce la ligación de conjuntos de datos con la identidad original del sujeto de datos, por lo tanto evitando cualquier asunto legal con la desidentificación y anonimización de los datos personales previo a liberarlos en el espacio de grandes volúmenes de datos. La implementación de seudonimización para asegurar que los datos no sean identificables a nivel del sujeto de datos requiere lineamientos básicos considerando:

Eliminar la habilidad para conectar conjuntos de datos a otros conjuntos de datos, haciendo la identificación de datos anonimizados identificable en forma individual
Almacenar la clave de cifrado en forma segura y separada de los datos cifrados
Protección de datos utilizando medidas de seguridad administrativas, físicas y técnicas

La figura 3 demuestra cómo funciona la seudonimización.

La anonimización es lograda cuando los datos no pueden ser más usados para identificar a una persona natural usando “todos los medios razonablemente posibles usados por el controlador o por cualquier otra persona”.⁸ Comparado con la seudonimización, la anonimización de datos es irreversible. Es virtualmente imposible reestablecer los datos anonimizados una vez que los vínculos entre el sujeto y los registros del sujeto son rotos y anonimizados. La anonimización es esencialmente la destrucción de datos identificables; por lo tanto, es virtualmente imposible reestablecer los datos.

Por ejemplo, todos los días, John asiste a clases de yoga en el mismo estudio de yoga y, en su camino, compra una dona de la tienda al costado del estudio. John también utiliza el mismo método de pago y, una vez a la semana, el usa el teléfono público al costado de la tienda de donas para llamar a su esposa para contarle que le comprará una dona para llevarle a casa. Aun cuando el dueño de los datos del ejemplo anterior ha “anonimizado” los datos personalmente identificables de John (por ejemplo, nombre, dirección, número telefónico), el comportamiento que muestra puede ser posiblemente utilizado para identificarlo directamente. Por lo tanto, es importante anonimizar sus datos declarando hechos a través de la agrupación. Por ejemplo, “10 personas fueron al estudio de yoga y compraron donas todos los días en la tienda al costado del estudio” y “20 personas llamaron desde el teléfono público un día de la semana.” Estos datos ahora están anonimizados, dado que uno ya no puede identificar el patrón de conducta predecible de John. La solución de anonimización de datos realmente previene que el dueño de los datos y las empresas puedan usar los datos para identificar conjuntos de datos individuales. La aleatorización cambia la precisión de los datos al quitar el identificador único entre los datos y el individuo. Hay dos métodos para llevar a cabo esta técnica:

Adición de Ruido —Altera los atributos al agregar o quitar un valor aleatorio distinto para cada registro (por ejemplo, agregando un valor aleatorio diferente entre A+ y C- para la nota del sujeto de datos)
Permutación—Consiste en intercambiar los valores de los atributos desde un sujeto de datos hacia otro (por ejemplo, intercambiando las entradas de sujetos de datos con notas reprobadas del sujeto de datos A con el sujeto B)

Conclusión

Los grandes volúmenes de datos crecen exponencialmente y, como muestra los estudios, “Un completo 90 por ciento de todos los datos en el mundo han sido generados en los últimos dos años”.⁹ El uso de grandes volúmenes de datos para capitalizar en la riqueza de la información ya está ocurriendo, y esto puede verse en el diario uso de plataformas tecnológicas como Google Maps o patrones de búsqueda predictiva estando en un sitio web. Como auditores, es importante entender los conceptos básicos de los grandes volúmenes de datos para abordar adecuadamente los datos personales identificables con anonimización o desidentificación. Las regulaciones crecientes en torno al uso de datos, incluyendo cambios específicos al escenario regulatorio y de privacidad tanto en Europa como en los Estados Unidos, requerirán marcos de trabajo legales y técnicos cuidadosos. A medida que siguen creciendo exponencialmente los datos, y mientras emergen nuevas regulaciones requiriendo que los dueños de datos protejan adecuadamente la identidad de sus sujetos de datos, es más importante que nunca mejorar la tecnología e innovaciones que vendrán con el uso de grandes volúmenes de datos.

Notas finales

¹ Sweeney, L.; “Simple Demographics Often Identify People Uniquely,” Data Privacy Working Paper 3, Carnegie Mellon University, Pittsburgh, Pennsylvania, USA, 2000, https://dataprivacylab.org/projects/identifiability/paper1.pdf
² Office of the Data Protection Commissioner, “EU Directive 95/46/EC—The Data Protection Directive,” European Union, https://www.dataprotection.ie/docs/EU-Directive-95-46-EC-Chapter-1/92.htm
³ Ibid.
⁴ Data Protection Working Party, “Opinion 05/2014 on Anonymisation Techniques,” Article 29 Data Protection Working Party, European Union, 10 April 2014, http://ec.europa.eu/justice/data-protection/article-29/documentation/opinionrecommendation/files/2014/wp216_en.pdf
⁵ Department of Health and Human Service, “45 CFR Subtitle A (10–1–10 Edition),” USA, https://www.gpo.gov/fdsys/pkg/CFR-2010-title45-vol1/pdf/CFR-2010-title45-vol1-sec164-502.pdf
⁶ Department of Health and Human Services, “Guidance Regarding Methods for Deidentification of Protected Health Information in Accordance With the Health Insurance Portability and Accountability Act (HIPAA) Privacy Rule,” USA, https://www.hhs.gov/hipaa/for-professionals/privacy/special-topics/de-identification/index.html
⁷ Mockaroo, Realistic Data Generator, www.mockaroo.com
⁸ Office of the Data Protection Commissioner, “Anonymisation and Pseudonymisation,” European Union, https://www.dataprotection.ie/docs/Anonymisation-and-pseudonymisation/1594.html
⁹ Dragland, A.; “Big Data—For Better or Worse,” SINTEF, https://www.sintef.no/en/latest-news/big-data-for-better-or-worse/

Mohammed J. Khan, CISA, CRISC, CIPM
Es un gerente de auditoría global en Baxter, una compañía global del cuidado de la salud y de dispositivos médicos. Él trabaja con directores (cargos C) a través de oficinas de auditoría, seguridad e ingeniería (cibernética) de dispositivos médicos. Él ha sido la punta de lanza en auditorías globales multinacionales y evaluaciones en diversas áreas, incluyendo sistemas de planificación de recursos empresariales, centros de datos globales, plataformas en la nube (AWS, SFDC, etc.), revisiones tercerizadas de manufactura y outsourcing, reingeniería y mejora de procesos, evaluaciones globales de privacidad (EUDD, HIPAA, GDPR), e iniciativas de ciberseguridad en dispositivos médicos en variados mercados en los últimos cinco años. Más recientemente, se ha especializado en el área de ciberseguridad de dispositivos médicos. Khan trabajó previamente como consultor senior para Ernst & Young y Deloitte y como experto tecnológico global para sistemas ERP y de cadena de suministros en Motorola. Él frecuentemente expone en conferencias nacionales e internacionales en el ámbito de privacidad de datos, ciberseguridad y asesoría en riesgos.

Home / Resources / ISACA Journal / Issues / 2018 / Volume 1 / Big Data Deidentification Reidentification and Anonymization