Printer Friendly

Marco de medicion de la privacidad.

1. Introduccion

El uso exponencial de Internet en el mundo ha modificado la forma de compilar, intercambiar y manipular datos. Las velocidades de procesamiento, los volumenes de informacion y las relevancias de los contenidos han cambiado rapidamente hasta niveles cada vez menos imaginables. Esto se ve asociado al interes en crear servicios personalizados basados en la informacion disponible. Diferentes organizaciones tienen datos sobre las personas, estos datos son un elemento vital y se estima que hasta el 80% de todos los datos almacenados en las organizaciones, pueden clasificarse como grandes datos (big data) (Khan et al., 2014).

Los datos que almacenan las organizaciones por lo general provienen de multiples fuentes (dispositivos, personas, organizaciones, entre otros) y estas fuentes se convierten en los productores de los datos. Estos datos pueden ser publicados o compartidos con otras organizaciones o individuos, de esta forma los receptores de estas publicaciones se convierten en los consumidores de la informacion. Una publicacion de datos en la mayoria de los casos contiene informacion de multiples fuentes y muchas organizaciones utilizan analisis de datos ("data mining") para extraer conocimiento relevante (CastilloRojas, Medina-Quispe, & Vega-Damke, 2017; Norambuena & Zepeda, 2017). Desde una perspectiva individual esto plantea preguntas acerca de cuanto conocimiento puede ser recabado sobre la vida de una persona, por ejemplo, sobre su situacion actual o su paradero (Ohm, 2010). Una vez realizada la publicacion de datos, las consecuencias para el dueno o productor de los datos pueden ser muy variadas, exponiendo al individuo a discriminacion o escarnio publico, entre otros (Martinez et al., 2017).

Las leyes y estandares apenas se mantienen al dia con el potencial de invasion a la privacidad. La integracion economica y social resultante del funcionamiento de los mercados ha llevado a un aumento sustancial de los flujos transfronterizos de datos y esto converge en el surgimiento de nuevas regulaciones, como por ejemplo, el Reglamento General de Proteccion de Datos de la Union Europea (GDPR, por sus siglas en ingles) (El Parlamento Europeo y el Consejo de la Union Europea, 2016). En consecuencia a estas regulaciones, la Preservacion de la Privacidad en Datos a Publicar (PPDP, por sus siglas en ingles) se ha convertido en un area de interes para los investigadores y profesionales.

La PPDP supone que quienes intentan descubrir informacion confidencial sobre las personas, se pueden encontrar entre los destinatarios de los datos. Por lo tanto, el objetivo de las tecnicas de PPDP es modificar los datos haciendolos menos especificos, de modo que la privacidad de los duenos de los datos este protegida y a la vez se mantenga la utilidad de los datos tratados. La preservacion de la privacidad de los datos requiere del estudio del equilibrio entre el respeto a los deseos o preferencias de privacidad de multiples duenos de datos, ante una posible inferencia autorizada o no, y la posibilidad de la reidentificacion de cada dueno o el enlace de informacion sensible sobre el conjunto de datos publicado.

Regulaciones como la GDPR definen que las tareas deben estar acotadas, por ejemplo al solicitar el consentimiento informado de todos los posibles escenarios de uso para los datos recopilados. Es importante destacar que esto resulta sumamente dificil, por ejemplo, en iniciativas de datos abiertos, es casi imposible identificar todos los destinatarios y los posibles usos que les den a los datos (Conradie & Choenni, 2012). Por lo tanto, cualquier publicador de datos necesita aplicar mecanismos de preservacion de la privacidad (Ayala-Rivera, McDonagh, Cerqueus, & Murphy, 2014).

La aplicacion de formas para medir el potencial abuso y perdida de la informacion, mediante la experimentacion sobre conjuntos de datos reales, permite brindar garantias cientificas sobre la preservacion de la privacidad. En este articulo, se estudia el trabajo de la profesora Latanya Sweeney, de la Universidad Carnegie Mellon, y su modelo de preservacion de la privacidad conocido como k-anonimato (Sweeney, 2002a). Se aplica de forma practica una variante multidimensional conocida como algoritmo de Mondrian (LeFevre, DeWitt, & Ramakrishnan, 2006a, 2006b) y se analiza una metodologia de evaluacion de la utilidad de la informacion y de la preservacion de la privacidad de la informacion resultante.

La seccion 2 describe formalmente la preservacion de la privacidad en datos a publicar, asi como algunos algoritmos y metricas alrededor de la preservacion de la privacidad de los datos. En la seccion 3 se describe trabajo relacionado y se enfatizan las contribuciones respecto a iniciativas similares. La evaluacion experimental se describe en la seccion 4, que incluye la metodologia utilizada y el analisis de resultados. Las conclusiones se presentan en la seccion 5.

2. Preservacion de la privacidad de datos a publicar

La preservacion de la privacidad de datos a publicar o PPDP requiere una definicion clara de la preservacion de la privacidad. En 1977, Dalenius proporciono una definicion muy estricta, donde especifica, que el acceso a los datos publicados, no debe permitir que un atacante aprenda algo adicional sobre cualquier victima objetivo, en comparacion con la informacion que obtendria si no contara con el acceso a la base de datos publicadora, incluso con la presencia de conocimiento previo obtenido de otras fuentes (Dalenius, 1977).

Con base en esta definicion, la principal motivacion alrededor de la creacion de modelos de preservacion de la privacidad de datos a publicar es la de proveer garantias cientificas. Donde estas permitan asegurar una utilidad practica de uso sobre el conjunto de datos publicado y un grado de dificultad al intentar realizar una identificacion de los duenos de los datos a partir de la informacion provista. La forma mas basica e intuitiva de proveer garantias cientificas de preservacion de la privacidad es la desidentificacion. La cual consiste en eliminar los datos que permiten identificar o relacionar directamente al dueno original de los datos, como por ejemplo eliminar el numero de identificacion (cedula en el caso de Costa Rica), numero de telefono o el nombre completo. Al proceso mediante el cual se identifican los datos desidentificados es conocido como reidentificacion (Bayardo & Agrawal, 2005).

La desidentificacion dentro de la PPDP se refiere al proceso mediante el cual un administrador de datos tiene una tabla T, donde cada columna se puede categorizar como identificador directo, cuasi-identificador, sensible o no sensible. Cada columna solo puede pertenecer a una de estas categorias. Las columnas definidas como identificadores directos permiten identificar explicitamente a los duenos de los datos; las columnas el cuasi-identificadoras contienen valores que pueden identificar a los duenos de los datos, por medio de la vinculacion a informacion externa que permita reidentificar los duenos originales. Si un atributo es cuasi-identificador su caracteristica mas importante es que tan disponibles esten datos externos con una variable que corresponda al potencial valor de la columna cuasi-identificadora. Las columnas sensibles contienen informacion susceptible a crear algun perjuicio o discriminacion especifica hacia el dueno de los datos, como por ejemplo la religion, una enfermedad, el salario o el estado de discapacidad, entre otras. Las columnas no sensibles son todas aquellas que no se inscriben en las tres categorias anteriores (Fung, Wang, Fu, & Yu, 2010).

Dado esto, la PPDP toma la tabla T (ID: identificadores, CID: cuasi-identificadores, S: Columnas sensibles, NS: Columnas no sensibles) y la lleva a un estado T (CID', S', NSS). Donde CID' y S' es una version anonima del CID y S originales. Esto al aplicar operaciones de preservacion de la privacidad (anonimizacion) a las columnas en CID y S de la tabla original T. Uno de los modelos mas conocidos para preservar la privacidad de datos es el k-anonimato, el cual fue propuesto por primera vez por Samarati y Sweeney en (Samarati & Sweeney, 1998) y extendido por Sweeney en (Sweeney, 2002a). El aporte del trabajo de Sweeney es definir una propiedad de un grupo de datos tal que si es cumplida, dichos datos se pueden publicar con una reduccion significativa en la posibilidad de realizar una reidentificacion a partir de ellos.

2.1. K-anonimato

El k-anonimato es un marco de desarrollo que trabaja sobre un conjunto de columnas cuasi-identificadoras con un objetivo de privacidad definido por un parametro k (Pierangela Samarati, 2001). El k-anonimato se puede ver como una propiedad de una tabla T. Se dice que una tabla T es k-anonima si, para cualquier combinacion de valores de los campos cuasi-identificadores de la tabla, hay al menos k tuplas con la misma combinacion (Sweeney, 2002b).

Las tablas no son k-anonimas de forma natural. Por lo tanto, se debe aplicar un proceso para forzar la propiedad sobre ellas. La forma mas comun de lograr esto es mediante el uso de la generalizacion y/o la supresion. Para la generalizacion, los valores se agrupan en clases de equivalencia de acuerdo con algun principio organizativo que depende de las particularidades de la informacion.

En la Fig. 1 se puede observar una estructura arbol que representa una distribucion de clases de equivalencia disponibles para numeros de 0 a 99. La distribucion de clases de equivalencia para una columna i, dado su papel en el proceso de generalizacion de los datos, se conoce como jerarquia de generalizacion. En la jerarquia de generalizacion, cada nivel proporciona un conjunto de clases de equivalencia. Estas clases permiten agrupar mas o menos registros para obtener el valor k solicitado y cada clase de equivalencia no comparte elementos en comun con otra clase.

Las operaciones de k-anonimato ocultan informacion detallada para que los multiples registros se vuelvan indistinguibles con respecto a los valores en el CID. En consecuencia, si el dueno de los datos esta vinculado a un registro a traves de un valor en el CID, el dueno de los datos tambien esta vinculado a todos los demas registros que tienen el mismo valor para el CID, lo que hace al enlace ambiguo con los demas duenos de los datos. De esta forma, podemos entender que el problema del k-anonimato es producir una T anonima (T) y que la misma satisfaga un requisito de privacidad determinado por el nivel del valor del k en el modelo de privacidad, de forma que retenga la mayor utilidad de datos posible.

En este trabajo utilizaremos una version multidimensional del k-anonimato conocida como Mondrian Basico, propuesta por Kristen LeFevre en (LeFevre et al., 2006a) y modificada en (LeFevre et al., 2006b).

2.2. K-anonimato multidimensional-- Mondrian Basico

Mondrian es un algoritmo de preservacion de la privacidad de datos voraz descendente que permite la generalizacion de atributos CID de forma multidimensional. La version inicial del algoritmo esta disenada para trabajar solo con atributos numericos (LeFevre et al., 2006a). En un trabajo posterior LeFevre propuso una modificacion a su algoritmo para que aceptara atributos categoricos, ademas de numericos (LeFevre et al., 2006b).

Para satisfacer el requerimiento del k-anonimato sobre la tabla T, se debe validar que para cada valor distinto en una columna CID, este valor se encuentra k veces. En muchos casos esto no se cumple en la tabla original y mucho menos si se cuenta con varias columnas CID. Por este motivo la vision multidimensional de los datos ayuda a satisfacer el requerimiento de forma mas rapida. Permitiendo que si tenemos como CID a varias columnas, y si por cada tupla unica al seleccionar estas columnas sobre T se producen al menos k tuplas iguales, se dice que cumple el principio de k-anonimato en el grado del k reportado. Es decir, el tamano de cada clase de equivalencia en T con respecto a las columnas es al menos de tamano k o en otras palabras el tamano de la clase de equivalencia se determina contando el numero de tuplas que son agrupadas mediante ella (Fung et al., 2010).

La utilidad de datos de Mondrian se puede ver afectada por la distribucion de los datos y el mecanismo utilizado para la creacion de particiones (Ayala-Rivera et al., 2014). Por este motivo es importante contar con alguna metrica que verifique la utilidad de los datos y su preservacion de la privacidad. En general se crea una perdida de informacion cada vez que un valor en una columna CID se generaliza a una clase de equivalencia mayor en la jerarquia de generalizacion, esto debido a que cada clase de equivalencia es mas generica que la anterior. El objetivo de un buen algoritmo de PPDP es encontrar una transformacion de los datos originales, de forma que satisfaga un requerimiento de privacidad al tiempo que minimice la perdida de informacion y maximice la utilidad de los datos resultantes. Por lo tanto, una medida es necesaria para indicar la calidad y la preservacion de la privacidad de los datos.

2.3. Metricas de privacidad

En la literatura se presentan varias metricas que evaluan la calidad de los datos utilizando medidas simples basadas en el tamano de la clase de equivalencia o el numero total de generalizaciones (Aggarwal et al., 2005; Bayardo & Agrawal, 2005; LeFevre et al., 2006a; Pierangela Samarati, 2001; Sweeney, 2002a). Dado el efecto del uso de jerarquias de generalizacion, en este trabajo es de interes la metrica de Penalizacion de Certeza Normalizada (NCP, por sus siglas en ingles) (Xu et al., 2006). Esta metrica intenta capturar la incertidumbre causada por la generalizacion de cada clase de equivalencia en el espacio de columnas CID. Para un valor continuo u ordinal en una columna CID, el NCP en una clase de equivalencia G se define como la division de los rangos de valores de la columna CID en los que se agrupa el valor del campo en la clase de equivalencia G, entre el dominio completo de la columna CID. En el caso de los valores de columnas categoricas, donde no exista un orden total o alguna funcion de distancia, el NCP se define con respecto a la jerarquia de generalizacion de la columna CID. Podemos expresar el NCP como cero cuando el numero de hojas (es decir, el numero de valores agrupados de la columna) en el subarbol que contiene el valor del campo es igual a uno y en caso contrario el NCP es el resultado de la division del numero de hojas entre el numero total de valores distintos en la columna categorica.

El valor NCP de la clase de equivalencia sobre todas las columnas CID es el resultado de la sumatoria de i igual a 1 hasta el numero de columnas continuas, ordinales o categoricas del NCP de la clase de equivalencia. NCP mide la perdida de informacion para una unica clase de equivalencia y caracteriza la perdida de informacion de una particion completa al sumar el NCP de todas las tuplas en cada clase de equivalencia. Para este trabajo adoptamos la formulacion normalizada de la version agregada de NCP, llamada Penalizacion de Certeza Global (Global Certainty Penalty--GCP) (Ghinita, Karras, Kalnis, & Mamoulis, 2009). Esta mide la perdida de informacion de toda la tabla anonimizada, tomando P como el conjunto de todas las clases de equivalencia en la tabla anonimizada y se define como:
Figura 2--Ecuacion GCP

GCP(P) = [suma]G[elemento de]P[valor absoluto de G] * NCP(G)/d * N


En la Fig. 2 tenemos que d representa todas las columnas CID y Nel numero de registros en la tabla original T, |G| es la cardinalidad de la clase de equivalencia G. La ventaja de esta ecuacion es la capacidad de medir la perdida de informacion entre tablas con cardinalidad y dimensionalidad variable. El rango de valores de GCP esta entre 0 y 1, donde 0 significa que no existe perdida de informacion y 1 corresponde a la perdida total de informacion. Por facilidad de uso, en este trabajo el GCP se calcula dividiendo el valor de GCP original con el numero de valores en el conjunto de datos para pasarlo a porcentaje.

La importancia de una metrica de privacidad esta vinculada de manera innata a los calculos que se pueden realizar sobre los datos y el objetivo de la PPDP es producir conjuntos de datos que tengan una "buena" utilidad para una gran variedad de trabajos.

El que esa variedad de trabajos sea desconocida es una premisa esencial para muchos investigadores, pero regulaciones como la GDPR (El Parlamento Europeo y el Consejo de la Union Europea, 2016) se traen abajo esta premisa al solicitar informarle al usuario los procesos que se realizaran con sus datos. Al conocer de antemano los trabajos a realizar, el publicador de los datos simplemente puede ejecutar los trabajos en los datos originales y publicar solo los resultados o publicar una version anonimizada que no permita realizar los trabajos que el dueno de los datos no autorizo. Otros investigadores han utilizado el aprendizaje maquina para medir la utilidad de los datos (Chen, LeFevre, & Ramakrishnan, 2008; LeFevre et al., 2006b). En este documento se propone utilizar el aprendizaje maquina no solo para medir la utilidad, sino tambien la preservacion de la privacidad.

2.4. Aprendizaje maquina

El aprendizaje maquina permite en muchos casos extraer informacion util, interesante y previamente desconocida de grandes conjuntos de datos. El exito siempre se basa en la disponibilidad de datos de alta calidad y el intercambio efectivo de estos. Se ha logrado un impulso en la publicacion de datos tanto por beneficio mutuo, como por regulaciones que obligan a la publicacion de ciertos datos (Conradie & Choenni, 2012). La publicacion de datos es omnipresente en muchos dominios. Por ejemplo, en el 2006, el proveedor de Internet AOL lanzo un conjunto de datos que contenian 3 meses de busquedas de 650 000 usuarios. Los nombres fueron enmascarados con identificadores aleatorios y aun asi, en cuestion de dias, un reportero del New York Times identifico a Thelma Arnold, una viuda de 62 anos como el usuario 4417749 (Barbaro & Zeller, 2006). Situaciones como esta han impulsado a los investigadores en PPDP a utilizar algoritmos de aprendizaje de clasificacion y regresion en sus investigaciones (Chen et al., 2008; LeFevre et al., 2006b; Machanavajjhala et al., 2007).

En estos modelos de aprendizaje maquina, los atributos normalmente se caracterizan en al menos uno de los siguientes tipos (Han, Kamber, & Pei, 2012):

* Atributo objetivo o de interes: es el atributo nominal cuyo valor busca predecir con precision el modelo de clasificacion construido. En el caso de la regresion, es el atributo numerico cuyo valor tiene como proposito predecir el modelo de regresion construido.

* Atributos de prediccion: son el conjunto de atributos (discretos o continuos, segun el algoritmo) que se utilizan como entradas para construir el modelo que intenta predecir el atributo objetivo.

La utilidad requiere potenciar el uso de la informacion disponible y por ello se debe tomar en cuenta que los atributos no sensibles se publican si son importantes para la tarea de mineria de datos. El atributo objetivo en la mineria es definido como no sensible en el proceso de preservacion de la privacidad para que conserve su semantica. Por lo general cuando se considera un algoritmo de clasificacion o de regresion junto con la PPDP, cada atributo tiene solo dos caracterizaciones (atributo de prediccion y atributo objetivo). En el resto de este documento, se asumira que el conjunto de atributos de prediccion es un conjunto de cuasi-identificadores (CID). Bajo esta suposicion, puede parecer contradictorio mantener la categoria de atributo sensible, pero para efectos de este trabajo se utiliza como atributo objetivo cuando se evalua la preservacion de la privacidad.

El transformar un atributo sensible en un atributo objetivo permite medir la precision del modelo de aprendizaje maquina creado para predecirlo y por lo tanto medir la preservacion de la privacidad en el conjunto de datos en estudio. De esta manera en unos casos se toma como atributo objetivo el atributo sensible y en otros como atributo objetivo un atributo de interes hipotetico. La evaluacion del uso de modelos de aprendizaje maquina como metrica de preservacion de la privacidad se llevara a cabo en la siguiente seccion.

3. Trabajo relacionado

La seleccion de un algoritmo apropiado para proteger la privacidad cuando se difunden datos es una preocupacion general para la PPDP. Como resultado, la comparacion de multiples algoritmos de preservacion de la privacidad desde la perspectiva de la utilidad de los datos y la efectividad en la preservacion de la privacidad, representa un importante trabajo de investigacion. Algunos autores discuten que la eficacia de la preservacion de la privacidad se evalua mejor por la utilidad que proporciona a las aplicaciones de destino y que las metricas pueden comportarse de manera diferente con diferentes algoritmos de preservacion de la privacidad (Nergiz & Clifton, 2007). Ademas de esto, se presenta un marco de evaluacion en (Bertino, Fovino, & Provenza, 2005) para estimar y comparar diferentes tipos de algoritmos de preservacion de la privacidad especificamente en la mineria de datos. Aun cuando estos estudios estan estrechamente relacionados con la PPDP, las tareas de mineria de datos que se consideran estan estrechamente relacionadas con las soluciones propuestas.

La PPDP publica los datos modificados mediante algoritmos de preservacion de la privacidad a multiples destinatarios que pueden usar los datos de muchas maneras diferentes. Por lo tanto, no seria adecuado evaluar los metodos de preservacion de la privacidad utilizando estudios comparativos que solo tengan en cuenta metricas con fines especificos (es decir, dependientes de la aplicacion). Esto se debe a que las metricas que tienen en cuenta un escenario de uso particular solo pueden capturar la utilidad de los datos protegidos segun los requisitos para ese escenario. En cambio, en (AyalaRivera et al., 2014) se indica que un conjunto de metricas que pueden aplicarse a la mayoria de los escenarios de publicacion proporciona un mejor enfoque para realizar una comparacion sistematica. Aunque este mismo trabajo hace enfasis en las variaciones del rendimiento de los algoritmos, su aporte es importante, pero escaso de discusion sobre la incompetencia de algunas metricas en los distintos contextos.

El objetivo de las metricas de preservacion de la privacidad es medir el grado y la cantidad de proteccion que ofrecen las tecnologias de preservacion de la privacidad. De esta forma, las metricas de preservacion de la privacidad contribuyen a mejorar la privacidad de los duenos de los datos. La diversidad y la complejidad de las metricas de preservacion de la privacidad en la literatura hacen que una eleccion informada de metricas sea desafiante. Como resultado, en lugar de utilizar metricas existentes, se proponen nuevas metricas con frecuencia, y los estudios de privacidad a menudo son incomparables (Wagner & Eckhoff, 2018).

En (Fung et al., 2010) se afirma que para abordar el objetivo de clasificacion, la distorsion debe medirse por error de clasificacion en casos futuros y sugieren que el conocimiento de clasificacion util es capturado por diferentes combinaciones de atributos. La generalizacion y la supresion pueden destruir algunas de estas "estructuras de clasificacion" utiles, pero pueden surgir otras estructuras utiles para ayudar. En algunos casos, la generalizacion y la supresion pueden incluso mejorar la precision de la clasificacion, al eliminar ruido en los datos. Tambien se afirma que es esencial evaluar experimentalmente el impacto de la preservacion de la privacidad mediante la construccion de un clasificador a partir de los datos protegidos y ver como funciona en los casos de prueba. Algunos trabajos (Iyengar, 2002; LeFevre et al., 2006b) han llevado a cabo o analizan tales experimentos, aunque en la practica general se utiliza alguna metrica especifica (Ghinita et al., 2009; Gong, Luo, Yang, Ni, & Li, 2017).

Este enfoque no es abordado al analizar metricas y modelos de privacidad, por ejemplo en (Wagner & Eckhoff, 2018) analizan una seleccion de mas de ochenta metricas de privacidad e introducen caracterizaciones basadas en los aspectos de la privacidad que miden, sus requerimientos de entrada y el tipo de datos que protegen. Ademas, presentan un metodo sobre como elegir las metricas de privacidad basadas en nueve preguntas que ayudan a identificar las metricas de privacidad adecuadas segun un escenario dado. Pero rescatan que se necesita trabajo adicional sobre metricas de privacidad. Esto fundamenta la necesidad de una metodologia de evaluacion de la preservacion de la privacidad como la presentada en este articulo.

4. Evaluacion experimental

La evaluacion experimental tiene como objetivo proporcionar una metodologia de evaluacion de la utilidad y la preservacion de la privacidad. Se describen los pasos de un protocolo experimental para evaluar un algoritmo de preservacion de la privacidad con respecto a un conjunto de datos y se desarrolla un caso de estudio que permite comparar los resultados de varios modelos de aprendizaje maquina creados a partir de publicaciones construidas con diferentes niveles de privacidad y distintas configuraciones de cuasi-identificadores.

4.1. Metodologia

Una forma de evaluar la calidad de la preservacion de la privacidad es creando un modelo de prediccion utilizando los datos anonimizados y luego evaluar el modelo segun la precision en la prediccion tanto del atributo sensible, como del atributo de interes para el estudio. Para lograr este proposito se presenta la siguiente metodologia de evaluacion de la utilidad y la preservacion de la privacidad:

1. Preprocesado de los datos.

2. Categorizacion de los datos en atributos identificadores, cuasi-identificadores, sensibles y no sensibles.

3. Definicion de niveles de preservacion de la privacidad e identificacion de los cuasi-identificadores a utilizar.

4. Anonimizacion de los datos por medio del algoritmo de preservacion de la privacidad (Mondrian Basico).

5. Construccion de conjunto de datos que comprende los datos anonimizados, los datos no sensibles, el atributo de interes y el atributo sensible.

6. Preprocesado y recodificacion del conjunto de datos generado para poder ser utilizado en el algoritmo de aprendizaje maquina.

7. Categorizacion de los atributos como atributos de prediccion y atributos objetivo.

8. Segmentacion del conjunto en datos de entrenamiento y de prueba.

9. Generacion del modelo de prediccion mediante el algoritmo de aprendizaje maquina seleccionado.

10. Evaluacion de la precision de la prediccion del modelo generado.

Esta metodologia propuesta para la evaluacion de la utilidad de los datos y la preservacion de la privacidad de los datos se utiliza en un caso de estudio practico para demostrar su usabilidad. El caso de estudio desarrollado mantiene el atributo de interes y el atributo sensible en los datos a publicar durante las fases de preservacion de la privacidad y durante la creacion del modelo de aprendizaje maquina.

Se utiliza el algoritmo Mondrian Basico implementado en el lenguaje Python como algoritmo de preservacion de la privacidad, asi como implementaciones de los algoritmos de aprendizaje maquina proporcionados por el paquete de software "scikit-learn" (Pedregosa et al., 2011). Especificamente arboles de decision, bosques aleatorios y regresion logistica. El conjunto de datos de prueba es el AdultDatabase (Dheeru & Karra Taniskidou, 2017). Este conjunto contiene 32 561 filas con 15 atributos, una vez finalizado el preprocesado quedaron 30 162 filas. Se definio como atributo sensible (no cuasi-identificador): "race", como atributo de interes (no cuasi-identificador): "income" y se define como atributo no sensible: "education" (para asegurar un grado de utilidad constante, esto aunque es equivalente a el atributo "education-num"). Los demas atributos se utilizan como posibles cuasi-identificadores.

En los experimentos, se vario el tamano del conjunto de atributos cuasi-identificadores en un rango de 1, 6 y 12. Cuando se modifica el numero de atributos cuasi-identificadores, el atributo que deja de ser cuasi-identificador automaticamente pasa a ser no sensible para mantener un mismo numero de entradas en los algoritmos de aprendizaje maquina. Las jerarquias de generalizacion para los atributos categoricos estan disponibles en desarrollos de codigo abierto de GitHub. Tambien, se definio como nivel de privacidad k el rango de valores: 2, 5, 10, 25, 50 y 100.

4.2. Analisis de resultados

El caso de estudio sobre la metodologia propuesta incluye evaluar la utilidad de los datos y la preservacion de la privacidad de los datos a publicar, para esto se crearon modelos de prediccion utilizando los algoritmos de aprendizaje maquina seleccionados. Se distinguen dos tipos de modelos creados, los que realizan prediccion de la variable de interes para comprobar la utilidad de los datos y los que realizan prediccion de la variable sensible para comprobar la preservacion de la privacidad. Como se observa en la Fig. 3, los arboles de decision tienen una perdida en su precision en la utilidad de los datos (prediccion de variable de interes) al aumentar el nivel de privacidad k con doce cuasi-identificadores. Este comportamiento resulta normal si se considera que los datos son generalizados a partir de alguna de las clases de equivalencia. Lo que no resulta consecuente es que la perdida de precision no continua aumentando. Podemos observar que en general la precision de la prediccion del arbol de decision no sufre variaciones conforme se cambia el nivel de privacidad.

Tambien se puede observar en la Fig. 3 que los modelos que miden la preservacion de la privacidad por medio de arboles de decision mantienen una precision superior al 70%. Si bien la medicion de la precision demuestra cambios respecto a los modelos que miden la utilidad, se puede observar que ambos obtienen comportamientos similares y con resultados superiores al 70%.

El comportamiento de la precision en la prediccion de los modelos creados con el algoritmo de bosques aleatorios se presenta en la Fig. 4. Se observa que la variacion de la precision para la medicion de la utilidad de los datos es similar a la de los modelos creados con el algoritmo de arboles de decision.

Los modelos creados con el algoritmo de regresion logistica comparten similitud con los modelos evaluados anteriormente. Se observa en la Fig. 5 que todos los modelos creados tienen una precision superior al 75%. Este resultado es consecuente con los arrojados por los modelos evaluados anteriormente y permiten teorizar que se mantiene una utilidad buena de los datos. Al mismo tiempo se puede teorizar que la preservacion de la privacidad es muy baja. Esto al destacar que ni el numero de cuasi-identificadores utilizado, ni el nivel de preservacion de la privacidad parece influir en el resultado de la prediccion para el dato sensible.

Destaca que la preservacion de la privacidad no cambia significativamente al variar el nivel de privacidad k o el numero de cuasi-identificadores. Al tomar como metrica de privacidad los resultados obtenidos por los algoritmos de aprendizaje maquina, podemos indicar que la precision en la prediccion sobre el atributo sensible es muy alta. Dados los resultados obtenidos se puede indicar que existe una preservacion de la privacidad muy debil.

En particular, como se explico en la seccion 2, es importante contar con una metrica de preservacion de la privacidad. Para contrastar los resultados obtenidos por los modelos de aprendizaje maquina se evaluo la metrica GCP. Los resultados de la metrica GCP en la Fig. 6 indican que la perdida de informacion puede llegar a 40% y este resultado no es consecuente con los resultados de los modelos creados con los algoritmos de aprendizaje maquina.

La metrica GCP reporta un incremento en la perdida de informacion al modificar el nivel de privacidad k, situacion que no se ve reflejada en la precision de la prediccion de los algoritmos de aprendizaje maquina. Es probable que la reduccion de los dominios de los atributos influyera en la conservacion de la precision en las predicciones. Otro aspecto es que la metrica GCP no toma en cuenta la diversidad de valores en el atributo sensible y eso disminuye la calidad de la medicion.

Dados estos resultados se puede afirmar que los modelos creados mediante los algoritmos de aprendizaje maquina mantienen el mismo porcentaje de exito en la prediccion aun cuando los datos han sido procesados por un modelo de preservacion de la privacidad como Mondrian Basico.

5. Conclusiones

La utilidad de los datos es un aspecto fundamental para motivar el uso de tecnicas de preservacion de la privacidad, pero al mismo tiempo es posible que sean la llave para respetar los deseos o derechos de los duenos de los datos. Los algoritmos de preservacion de la privacidad en datos a publicar son ampliamente estudiados en la busqueda de proteger la privacidad pero resulta complicado indicar que datos corren mas riesgo de reidentificacion. Este articulo proporciona indicios sobre la existencia de dificultades para establecer buenos parametros en algoritmos de privacidad como Mondrian Basico. El estudio experimental genera evidencia sobre la poca efectividad de la metrica GCP respecto a la utilidad de los datos anonimizados en modelos de aprendizaje maquina que efectuen predicciones. Ademas, la poca efectividad del GCP esta presente tanto en la prediccion del atributo de interes (midiendo la utilidad), como sobre el atributo sensible (midiendo la preservacion de la privacidad).Los algoritmos de aprendizaje maquina se plantean como un instrumento para asegurar la privacidad y se espera que la metodologia sea base para un aseguramiento de la privacidad mas riguroso.

Agradecimientos

Un agradecimiento especial a la Profesora Ileana Castillo Arias de la UCR por todas sus recomendaciones y revisiones. Este trabajo fue apoyado por el Programa de Posgrado en Computacion e Informatica (PCI), la Escuela de Ciencias de la Computacion e Informatica (ECCI), el Centro de Investigaciones en Tecnologia de la Informacion y la Comunicacion (CITIC)), y el Sistema de Estudios de Posgrado (SEP) todos en la Universidad de Costa Rica (UCR). Asi como tambien por el Ministerio de Ciencia, Tecnologia y Telecomunicaciones (MICITT), y por el Consejo Nacional para Investigaciones Cientificas y Tecnologicas (CONICIT) del Gobierno de Costa Rica.

Referencias

Aggarwal, G., Feder, T., Kenthapadi, K., Motwani, R., Panigrahy, R., Thomas, D., & Zhu, A. (2005). Anonymizing tables. Lecture Notes in Computer Science (Including Subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics), 3363, 246-258. Doi: 10.1007/978-3-540-30570-5_17.

Ayala-Rivera, V., McDonagh, P., Cerqueus, T., & Murphy, L. (2014). A Systematic Comparison and Evaluation of k--Anonymization Algorithms for Practitioners. Transactions on Data Privacy, 7(3), 337-370.

Barbaro, M., & Zeller, T. (2006). A Face Is Exposed for AOL Searcher No. 4417749. New York Times, (4417749), 1-3. Doi: 4417749.

Bayardo, R. J., & Agrawal, R. (2005). Data privacy through optimal k-anonymization. In: Proceedings--International Conference on Data Engineering (pp. 217-228). Doi: 10.1109/ICDE.2005.42.

Bertino, E., Fovino, I. N., & Provenza, L. P. (2005). A Framework for Evaluating Privacy Preserving Data Mining Algorithms. Data Mining and Knowledge Discovery, 11(2), 121-154. Doi: 10.1007/s106i8-005-0006-6.

Brickell, J., & Shmatikov, V. (2008). The cost of privacy: destruction of data-mining utility in anonymized data publishing. In: Proceedings of the 14th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 70-78. Doi: 10.1145/1401890.1401904.

Castillo-Rojas, W., Medina-Quispe, F., & Vega-Damke, J. (2017). Esquema de visualizacion para modelos de clusteres en mineria de datos. RISTI--Revista Iberica de Sistemas e Tecnologias de Informacao, (21), 67-84. Doi: 10.17013/risti.21.67-84.

Chen, B.-C., LeFevre, K., & Ramakrishnan, R. (2008). Adversarial-knowledge dimensions in data privacy. The VLDB Journal, 18(2), 429-467. Doi: 10.1007/S00778-008-0118-x.

Conradie, P., & Choenni, S. (2012). Exploring process barriers to release public sector information in local government. In: Proceedings of the 6th International Conference on Theory and Practice of Electronic Governance--ICEGOV '12 (p. 5). New York, USA: ACM Press. Doi: 10.1145/2463728.2463731.

Dalenius, T. (1977). Towards a methodology for statistical disclosure control. Statistik Tidskrift, 15, 429-444. Doi: 10.1145/320613.320616.

Dheeru, D., & Karra Taniskidou, E. (2017). UCI Machine Learning Repository. Retrieved from: http://archive.ics.uci.edu/ml.

El Parlamento Europeo y el Consejo de la Union Europea. (2016). Reglamento (UE) 2016/679 del parlamento europeo y del consejo de 27 de abril de 2016 relativo a la proteccion de las personas fisicas en lo que respecta al tratamiento de datos personales y a la libre circulacion de estos datos y por el que se deroga la D. Diario Oficial de La Union Europea, 2014(119), 1-88.

Fung, B., Wang, K., Fu, A., & Yu, P. (2010). Introduction to Privacy-Preserving Data Publishing (Vol. 17). CRC Press. Doi: 10.1201/9781420091502.

Ghinita, G., Karras, P., Kalnis, P., & Mamoulis, N. (2009). A framework for efficient data anonymization under privacy and accuracy constraints. ACM Transactions on Database Systems, 34(2), 1-47. Doi: 10.1145/1538909.1538911

Gong, Q., Luo, J., Yang, M., Ni, W., & Li, X. B. (2017). Anonymizing 1:M microdata with high utility. Knowledge-Based Systems, 115, 15-26. Doi: 10.1016/j.knosys.2016.10.012.

Han, J., Kamber, M., & Pei, J. (2012). Data Mining: Concepts and Techniques. San Francisco, CA: Morgan Kaufmann Publishers. Doi: 10.1016/B978-0-12-3814791.00001-0.

Iyengar, V. S. (2002). Transforming data to satisfy privacy constraints. In: Proceedings of the eighth ACM SIGKDD international conference on Knowledge discovery and data mining--KDD '02 (p. 279). New York, USA: ACM Press. Doi: 10.1145/775047.775089.

Khan, N., Yaqoob, I., Hashem, I. A. T., Inayat, Z., Mahmoud Ali, W. K., Alam, M., ... Gani, A. (2014). Big Data: Survey, Technologies, Opportunities, and Challenges. The Scientific World Journal, 2014, 1-18. Doi: 10.1155/2014/712826.

LeFevre, K., DeWitt, D. J., & Ramakrishnan, R. (2006a). Mondrian multidimensional K-anonymity. In: Proceedings--International Conference on Data Engineering (Vol. 2006, p. 25). IEEE.

LeFevre, K., DeWitt, D. J., & Ramakrishnan, R. (2006b). Workload-aware anonymization. In: Proceedings of the 12th ACM SIGKDD international conference on Knowledge discovery and data mining--KDD '06 (p. 277). New York, USA: ACM Press. Doi: 10.1145/1150402.1150435.

Machanavajjhala, A., Kifer, D., Gehrke, J., & Venkitasubramaniam, M. (2007). L -diversity. ACM Transactions on Knowledge Discovery from Data, 1(1), 3-es. Doi: 10.1145/1217299.1217302.

Martinez, F. R. C., Candelaria, A. D. H., Lozano, M. A. R., Zuniga, A. R. R., Pelaez, R. M., & Michel, J. R. P. (2017). Despues de presionar el boton enviar, se pierde el control sobre la informacion personal y la privacidad: Un caso de estudio en Mexico. RISTI --Revista Iberica de Sistemas e Tecnologias de Informacao, (21), 115-128. Doi: 10.17013/risti.21.115-128.

Nergiz, M. E., & Clifton, C. (2007). Thoughts on k-anonymization. Data & Knowledge Engineering, 63(3), 622-645. Doi: 10.1016/J.DATAK.2007.03.009

Norambuena, B. K., & Zepeda, V. V. (2017). Mineria de procesos de software: Una revision de experiencias de aplicacion. RISTI--Revista Iberica de Sistemas e Tecnologias de Informacao, 21(21), 51-66. Doi: 10.17013/risti.2i.5i-66

Ohm, P. (2010). Broken Promises of Privacy: Responding to the Surprising Failure of Anonymization. UCLA Law Review, 57, 1701. Retrieved from: http://www. uclalawreview.org/?p=1353.

Pedregosa, F.,Varoquaux, G., Gramfort, A., Michel, V.,Thirion, B., Grisel, O., ... Duchesnay, E. (2011). Scikit-learn: Machine Learning in Python. J. Mach. Learn. Res., 12, 2825-2830. Retrieved from: http://dl.acm.org/citation.cfm?id=1953048.2078195.

Samarati, P., (2001). Protecting respondents' identities in micro- data release. IEEE Transactions on Knowledge and Data Engineering, 13(6), 1010-1027.

Samarati, P., & Sweeney, L. (1998). Protecting Privacy when Disclosing Information: k-Anonymity and its Enforcement Through Generalization and Suppresion. In: Proceedings of the IEEE Symposium on Research in Security and Privacy, (pp. 384-393). Doi: 10.1145/1150402.1150499.

Sweeney, L. (2002a). Achieving k-anonymity Privacy Protection using Generalization and Suppression. International Journal of Uncertainty, Fuzziness and Knowledge-Based Systems, 10(05), 571-588. Doi: 10.1142/S021848850200165X.

Sweeney, L. (2002b). k-anonymity: a model for protecting privacy. Int. J. Uncertain. Fuzziness Knowl.-Based Syst., 10(5), 557-570. Doi: 10.1142/S0218488502001648.

Wagner, I., & Eckhoff, D. (2018). Technical Privacy Metrics: a Systematic Survey. ACM Computing Surveys, 51(3), 1-38. Doi: 10.1145/3168389.

Xu, J., Wang, W., Pei, J., Wang, X., Shi, B., & Fu, A. W.-C. (2006). Utility-based anonymization using local recoding. In: Proceedings of the 12th ACM SIGKDD international conference on Knowledge discovery and data mining--KDD '06 (Vol. 18, p. 785). JMLR.org. Doi: 10.1145/1150402.1150504.

Recebido/Submission: 20/11/2018

Aceitacao/Acceptance: 14/01/2019

Luis Gustavo Esquivel-Quiros [1], Elena Gabriela Barrantes [3], Fernando Esponda Darlington [3].

luis.esquivel@ucr.ac.cr, gabriela.barrantes@ecci.ucr.ac.cr, fernando.esponda@itam.mx

[1,2] Universidad de Costa Rica, Escuela de Ciencias de la Computacion e Informatica, Sede "Rodrigo Facio Brenes" Montes de Oca, 11501-2060, San Jose, Costa Rica.

[3] Ciencias en Computacion, Instituto Tecnologico Autonomo de Mexico, Rio Hondo #1 Colonia Progreso Tizapan Alvaro Obregon, 01080, Ciudad de Mexico, Mexico.

DOI: 10.17013/risti.31.66-81

Leyenda: Figura 1--Jerarquia de generalizacion con las clases de equivalencia para numeros de o a 99

Leyenda: Figura 3--Evaluacion de modelos creados con arboles de decision

Leyenda: Figura 4--Evaluacion de modelos creados con bosques aleatorios

Leyenda: Figura 5--Evaluacion de modelos creados con regresion logistica

Leyenda: Figura 6--Relacion entre el nivel de privacidad k, el numero de cuasi-identificadores y el valor obtenido por la metrica GCP
COPYRIGHT 2019 AISTI (Iberian Association for Information Systems and Technologies)
No portion of this article can be reproduced without the express written permission from the copyright holder.
Copyright 2019 Gale, Cengage Learning. All rights reserved.

Article Details
Printer friendly Cite/link Email Feedback
Author:Esquivel-Quiros, Luis Gustavo; Barrantes, Elena Gabriela; Esponda Darlington, Fernando
Publication:RISTI (Revista Iberica de Sistemas e Tecnologias de Informacao)
Date:Mar 1, 2019
Words:7235
Previous Article:Influencia de la Teoria de Roles de Belbin en la Medicion de Software: Un estudio exploratorio.
Next Article:Detectando aplicaciones maliciosas en Smartphone con sistema Android a traves del uso de una aplicacion.
Topics:

Terms of use | Privacy policy | Copyright © 2020 Farlex, Inc. | Feedback | For webmasters