Desidentificación (privacidad)

De Wikipedia, la enciclopedia libre
Aunque habitualmente se puede identificar a una persona a partir de una imagen tomada directamente de ella, la tarea de identificarla basándose en datos limitados es más difícil, pero a veces posible.

La desidentificación es un proceso empleado para impedir que se revele la identidad personal de una persona. Por ejemplo, se pueden desidentificar los datos producidos durante un experimento en seres humanos con el fin de preservar la privacidad de los participantes en el experimento.

Cuando se aplica la desidentificación a metadatos o datos generales en cuanto a identificación, el proceso se llama anonimización de datos. Algunas de las estrategias más habituales consisten en borrar o enmascarar identificadores personales, como el nombre, y borrar o generalizar cuasiidentificadores, como la fecha de nacimiento. El proceso inverso, es decir, partir de datos desidentificados para reconstruir la identificación individual, se denomina reidentificación de datos. Las reidentificaciones exitosas plantean dudas sobre la efectividad de la desidentificación.[1][2][3][4]

La desidentificación es una de las principales estrategias a las que se recurre para proteger la privacidad de los datos.[5]​ Es habitual en los campos de las comunicaciones, la biometría, el big data, la computación en la nube, la minería de datos, internet, redes sociales y vigilancia en audio/vídeo.[6]

Ejemplos[editar]

En el diseño de encuestas[editar]

Cuando se realizan encuestas, como un censo, se recopila información sobre un grupo específico de personas. Para fomentar la participación y proteger la privacidad de los encuestados, los investigadores intentan diseñar la encuesta de manera que cuando las personas participen en una, no sea posible hacer coincidir las respuestas individuales de ningún participante con los datos publicados.

Antes de usar la información[editar]

Cuando un sitio web de compras en línea quiere conocer las preferencias y hábitos de compra de sus usuarios, decide recuperar los datos de los clientes de su base de datos y analizarlos. La información de datos personales incluye identificadores personales que se recopilaron directamente cuando los clientes crearon sus cuentas. El sitio web debe manejar previamente los datos mediante técnicas de desidentificación antes de analizar los registros de datos para evitar violar la privacidad de sus clientes.

Anonimato[editar]

El anonimato se refiere a separar irreversiblemente un conjunto de datos de la identidad del contribuyente en un estudio para evitar cualquier reidentificación futura, incluso por parte de los organizadores del estudio bajo cualquier condición.[7][8]​ La desidentificación también puede incluir la preservación de información que solo puede ser vinculada nuevamente por una parte de confianza en determinadas situaciones.[7][8][9]​Existe un debate en la comunidad tecnológica sobre si los datos que pueden volver a vincularse, incluso por parte de una parte confiable, deberían alguna vez considerarse anónimos.

RGPD[editar]

El nuevo Reglamento General de Protección de Datos (RGPD) de la Unión Europea[10]​ exige que los datos almacenados sobre personas en la UE sean sometidos a un proceso de anonimización o pseudonimización. El Considerando del RGPD establece un estándar muy alto para lo que constituye datos anónimos, eximiendo así los datos de los requisitos del RGPD, a saber: "...información que no se refiere a una persona natural identificada o identificable o a datos personales anonimizados de tal manera que el interesado no sea o ya no sea identificable". El Supervisor Europeo de Protección de Datos (EDPS, por sus siglas en inglés) y la Agencia Española de Protección de Datos (AEPD) han emitido orientaciones conjuntas relacionadas con los requisitos de anonimato y la exención de los requisitos del RGPD. Según el EDPS y la AEPD, nadie, incluido el responsable del tratamiento de datos, debería poder volver a identificar a los sujetos de datos en un conjunto de datos debidamente anonimizado.[11]​Investigaciones realizadas por científicos de datos[12]​en el Imperial College de Londres y en la UCLouvain de Bélgica, así como un fallo del juez Michal Agmon-Gonen del Tribunal de Distrito de Tel Aviv.[13]​resaltan las deficiencias de la "anonimización" en el mundo actual del big data. La anonimización refleja un enfoque obsoleto para la protección de datos[14]​que se desarrolló cuando el procesamiento de datos estaba limitado a aplicaciones aisladas (en silos) antes de la popularidad del procesamiento de "big data", que implica el amplio intercambio y combinación de datos.

Leyes de desidentificación en los Estados Unidos de América[editar]

En mayo de 2014, el Consejo de Asesores de Ciencia y Tecnología del Presidente de los Estados Unidos consideró que la desidentificación era "algo útil como salvaguardia adicional", pero no era "una base útil para la política", ya que "no es sólido frente a futuros métodos de reidentificación a corto plazo".

La regla de privacidad de HIPPA proporciona mecanismos para usar y divulgar datos de salud de manera responsable sin la necesidad del consentimiento del paciente. Estos mecanismos se centran en dos estándares de desidentificación de HIPPA: Safe harbor y el Método de Determinación de Expertos. El Safe harbor se basa en la eliminación de identificadores de pacientes específicos (por ejemplo, nombre, número de teléfono, dirección de correo electrónico, etc.), mientras que el Método de Determinación de Expertos requiere de conocimiento y experiencia con principios y métodos estadísticos y científicos, generalmente aceptados, para que la información no sea identificable individualmente.[15]

Safe harbor[editar]

El método safe harbor utiliza un enfoque de lista para la desidentificación y tiene dos requisitos:

  1. La eliminación o generalización de 18 elementos de los datos
  2. La Entidad Cubierta o el Socio Comercial no tiene conocimiento real de que la información residual en los datos podría usarse sola, o en combinación con otra información, para identificar a un individuo. Safe Harbor es un enfoque altamente prescriptivo para la desidentificación. Según este método, todas las fechas deben generalizarse al año y los códigos postales deben reducirse a tres dígitos. Se utiliza el mismo enfoque con los datos independientemente del contexto, incluso si la información se va a compartir con un investigador confiable que desea analizar los datos para detectar variaciones estacionales en casos respiratorios agudos y, por lo tanto, requiere el mes de ingreso hospitalario, esta información no se puede proporcionar; sólo se conservaría el año de admisión.

Determinación de expertos[editar]

La determinación de expertos adopta un enfoque de desidentificación basado en el riesgo que aplica los estándares actuales y las mejores prácticas de la investigación para determinar la probabilidad de que una persona pueda ser identificada a partir de su información de salud protegida. Este método requiere que una persona con un adecuado conocimiento y experiencia en los principios y métodos estadísticos y científicos, generalmente aceptados, para que la información no sea identificable individualmente. Esto requiere de:

  1. El riesgo es muy pequeño de que la información pueda ser utilizada sola, o en combinación con otra información razonablemente disponible, por un destinatario previsto para identificar a un individuo que es sujeto de la información.
  2. Documentos de métodos y resultados del análisis que justifican tal determinación.

Referencias[editar]

  1. Sweeney, L. (2000). «Simple Demographics Often Identify People Uniquely». Data Privacy Working Paper 3. 
  2. de Montjoye, Y.-A. (2013). «Unique in the crowd: The privacy bounds of human mobility». Scientific Reports 3. Bibcode:2013NatSR...3E1376D. doi:10.1038/srep01376. 
  3. de Montjoye, Y.-A. (2015). «Unique in the shopping mall: On the reidentifiability of credit card metadata». Science 347. 
  4. Narayanan, A. (2006). «How to break anonymity of the netflix prize dataset». arXiv:cs/0610105. 
  5. Simson., Garfinkel. De-identification of personal information : recommendation for transitioning the use of cryptographic algorithms and key lengths. OCLC 933741839. 
  6. Ribaric, Slobodan; Ariyaeeinia, Aladdin; Pavesic, Nikola (September 2016). «De-identification for privacy protection in multimedia content: A survey». Signal Processing: Image Communication 47: 131-151. doi:10.1016/j.image.2016.05.020. 
  7. a b Godard, Béatrice; Schmidtke, Jörg; Cassiman, Jean-Jacques; Aymé, Ségolène (2003-12). «Data storage and DNA banking for biomedical research: informed consent, confidentiality, quality issues, ownership, return of benefits. A professional perspective». European Journal of Human Genetics (en inglés) 11 (2): S88-S122. ISSN 1476-5438. doi:10.1038/sj.ejhg.5201114. 
  8. a b Fullerton, Stephanie M.; Anderson, Nicholas R.; Guzauskas, Greg; Freeman, Dena; Fryer-Edwards, Kelly (20 de enero de 2010). «Meeting the Governance Challenges of Next-Generation Biorepository Research». Science translational medicine 2 (15): 15cm3. ISSN 1946-6234. PMC 3038212. PMID 20371468. doi:10.1126/scitranslmed.3000361. 
  9. McMurry, Andrew J.; Gilbert, Clint A.; Reis, Ben Y.; Chueh, Henry C.; Kohane, Isaac S.; Mandl, Kenneth D. (2007). «A Self-scaling, Distributed Information Architecture for Public Health, Research, and Clinical Care». Journal of the American Medical Informatics Association : JAMIA 14 (4): 527-533. ISSN 1067-5027. PMC 2244902. PMID 17460129. doi:10.1197/jamia.M2371. 
  10. Skiera, Bernd (2022). The impact of the GDPR on the online advertising market. Klaus Miller, Yuxi Jin, Lennart Kraft, René Laub, Julia Schmitt. Frankfurt am Main. ISBN 978-3-9824173-0-1. OCLC 1303894344. 
  11. «INTRODUCTION TO THE HASH FUNCTION AS A PERSONAL DATA PSEUDONYMISATION TECHNIQUE». 
  12. Kolata, Gina (23 de julio de 2019). «Your Data Were 'Anonymized'? These Scientists Can Still Identify You». The New York Times. 
  13. «Attm (TA) 28857-06-17 Nursing Companies Association v. Ministry of Defense». 
  14. «Data is up for grabs under outdated Israeli privacy law, think tank says». The Times of Israel. 
  15. «Privacy Analytics - De-Identification 201: The Basics of Data De-identification». Privacy Analytics (en inglés canadiense).