Carlos J. Vila Vergara
DISEÑO DE UN PRODUCTO QUE UTILICE TECNOLOGIA MACHINE LEARNING QUE CUMPLA CON GDPR
Actualizado: 3 feb 2020
El RGPD (Reglamento General de Protección de datos o GDPR por sus siglas en inglés) entró en vigor a nivel de la Eurozona el 25 de mayo de 2016 y será aplicable partir del 25 de mayo de 2018 directamente sin necesidad de trasposición en todos sus países miembros y deroga la Directiva 95/46/CE: Reglamento general de protección de datos (DOUE L 119, de 4-5-2016). Presenta novedades de elevado impacto técnico, operativo y de negocio con respecto a la LOPD actual. (El texto completo de la directiva puede descargarse de GPDR-es.pdf ). Este nuevo reglamento implanta un nuevo concepto de privacidad y seguridad de los datos personales en base a los siguientes criterios fundamentales:
● De la gestión de los datos al gobierno responsable de la información.
● Protección de datos más allá del territorio UE
● Aproximación a la protección de datos basada en el riesgo
● Responsabilidad proactiva (art. 24)
● Privacidad desde el diseño (art. 25)
● Privacidad por defecto (art. 25)
● Registro de las actividades de tratamiento (art. 30)
● Nuevo modelo de seguridad (arts. 32-34)
Desde el punto de vista de la tipología de las empresas afectadas por esta regulación, se establece que deben cumplirla todas las empresas que almacenan y/o procesen los datos obtenidos de sus clientes individuales, incluidas las que utilicen sistemas CRM y KYC (es decir, utilizan y procesan los datos obtenidos de su relación con sus clientes con fines comerciales).
Tipos de datos sujetos a regulación en GDPR
Datos personales: se trata de información relativa a una persona física identificada o identificable (un «sujeto de datos» en jerga GDPR). En otras palabras, es cualquier información, almacenada electrónicamente o en forma documental, que permite identificar a una persona individual específica. Ejemplos de datos personales
Nombre, dirección, fecha y lugar de nacimiento, sexo, información conyugal
ID / número de pasaporte, identificación fiscal
Número de cuenta bancaria, historial de transacciones bancarias, historial de crédito
Condiciones de empleo, salario
Datos de salud, minusvalías, dependencia,…
Datos sensibles: dentro de los datos personales, son aquellos que hacen referencia a la orientación sexual, salud, ideología, religión, raza o etnia. Requieren una protección superior al resto y tienen limitaciones en su uso.
Junto a los datos sensibles citados que ya estaban regidos como tales en la LOPD, GDPR incluye nuevos datos con la calificación de sensibles:
Tarjetas de pago, preferencias de compra
dentificación de los dispositivos del usuario: IP, números SIM
Propiedades (bienes inmuebles, bienes muebles)
ADN, información médica, biométrica
Decisiones de derecho público: sentencias de los tribunales (civiles, penales, administrativas), etc.
A modo de resumen, los datos personales protegidos por GDPR son los siguientes:

Impacto en el diseño, desarrollo, despliegue y operación
Derechos de los titulares:
Consentimiento: GPDR hace hincapié en la necesidad de obtener un Consentimiento expreso por parte del titular de los datos tanto a su recogida como a su tratamiento, incluyendo tratamientos automatizados como la elaboración de perfiles u otros tendentes a la toma de decisiones automatizada (denegación automática de un crédito o servicio, …). Para que un consentimiento sea considerado válido de acuerdo a la GDPR tiene que tener las siguientes características:
El titular debe ser informado claramente sobre el fin, tipo de tratamiento y la forma en que dicho tratamiento le afectará personalmente (ofertas, recomendación de productos personalizada, mejor servicio, trato personalizado, estudios sanitarios para mejora de la salud de la sociedad, investigación...)
El consentimiento debe recogerse en el momento de la captura de los datos.
No se puede realizar el tratamiento de datos antes de haber informado al usuario y recabado su consentimiento.
No se considera válido un consentimiento obtenido para un propósito indefinido.
El consentimiento debe ser revalidado cuando se produzcan cambios significativos en los fines o las circunstancias en las cuales el titular otorgó inicialmente su consentimiento. Se debe volver a informar al usuario y obtener de nuevo el consentimiento.
No obstante, si los datos se utilizan para un propósito compatible con el que el titular autorizó mediante su consentimiento, no es necesario recabar de nuevo dicho consentimiento expreso.
El titular podrá retirar en cualquier momento su consentimiento sin necesidad de justificación alguna, debiendo cesar inmediatamente el proceso de sus datos.
En el caso de menores de edad, si el interesado tiene menos de 16 años, sólo podrá realizarse de forma lícita el tratamiento de datos si se obtiene consentimiento por parte de su tutor legal. La edad mínima para que el consentimiento sea proporcionado por el propio menor varía de un país miembro a otro, pero nunca podrá ser inferior a 13 años. P.e. en España esta edad está fijada en 14 años.
Derecho a la portabilidad:El interesado tendrá derecho a recibir los datos personales que le incumban en un formato estructurado, de uso común y a transmitirlos a otro responsable del tratamiento de su elección. Se deberá disponer un mecanismo sencillo para que los titulares puedan solicitar esta portabilidad, debiéndose cesar el tratamiento de los datos del titular de inmediato y proceder a eliminar la información de carácter personal de las bases de datos, ficheros y resto de repositorios.
El derecho al olvido: Es un caso particular de la portabilidad. Impone la obligación de que los datos personales sean suprimidos cuando ya no sean necesarios, cuando se haya retirado el consentimiento por parte del titular o cuando los datos se hayan recogido de forma ilícita.
Realización de evaluaciones de impacto sobre la protección de datos
Una Evaluación de Impacto en la Privacidad es un análisis de los riesgos que un producto o servicio puede entrañar para la protección de datos y la adopción de las medidas idóneas para eliminarlos o reducirlos. Es un proceso que debería comenzar en las etapas más iniciales que sea posible, cuando todavía hay oportunidades de influir en el resultado del proyecto.
Aquellas situaciones que requieren la realización de un EIPD detallado durante la fase de conceptualización de un nuevo producto o servicio son:
Cuando se enriquezca la información existente sobre las personas mediante la recogida de nuevas categorías de datos o se usen las existentes con nuevas finalidades o en formas que antes no se usaban.
Cuando se lleve a cabo un tratamiento significativo no incidental de datos de menores o dirigido especialmente a tratar datos de estos, en particular si tienen menos de catorce años.
Cuando se vaya a llevar a cabo un tratamiento destinado a evaluar o predecir aspectos personales relevantes de los afectados, su comportamiento, su encuadramiento en perfiles determinados.
Cuando se traten grandes volúmenes de datos personales a través de tecnologías como Big Data o Internet de las Cosas.
Cuando el tratamiento afecte a un número elevado de personas o, alternativa o adicionalmente, se produzca la acumulación de gran cantidad de datos respecto de los interesados.
Cuando se cedan o comuniquen los datos personales a terceros.
Cuando se vayan a transferir los datos a países que no forman parte del Espacio Económico Europeo y que no hayan sido objeto de una declaración de adecuación por parte de la Comisión Europea o de la Agencia Española de Protección de Datos.
Cuando se vayan a utilizar formas de contactar con las personas afectadas que se podrían considerar especialmente intrusivas.
Una decisión importante a la hora de realizar una EIPD es la de quiénes deben formar parte del equipo. Normalmente un EIPD será un ejercicio multidisciplinar que debe involucrar a responsables funcionales del proyecto, sistema o servicio objeto de análisis, pero también a expertos en materias de protección de datos (incluyendo por supuesto al delegado de protección de datos), seguridad de la información y a los responsables técnicos del proyecto, incluyendo a los desarrolladores de software. Por otro lado, también puede ser conveniente involucrar a cualquier empresa externa con la que se vayan a compartir los datos.
Las fases principales de un Evaluación de Impacto en la Protección de Datos son:
Análisis del cumplimiento normativo. Verificación de que el proyecto cumple con las distintas regulaciones que le aplican y que incluyen requisitos de protección de datos, entre ellas obviamente está la regulación de protección de datos, pero también habrá que considerar otras leyes sectoriales, reglamentos u otras obligaciones que puedan ser de aplicación. Análisis de la necesidad En esta fase se verifica la necesidad de llevar a cabo o no una EIPD, de acuerdo con los criterios descritos.
Gestión de los riesgos identificados. Determinación de los controles para aceptar, eliminar, mitigar o transferir los riesgos identificados
Informe final. Generación del documento final que recoge los resultados del análisis con las recomendaciones para gestionar los riesgos identificados y que será distribuido a la alta dirección.
Implantación de recomendaciones. La alta dirección, a partir de las conclusiones presentadas en el informe final, toma las decisiones necesarias y asigna los recursos necesarios para la implantación de las recomendaciones.
Revisión y retroalimentación. Análisis para verificar la efectividad final de las medidas de control implantadas y llevar a cabo los ajustes que sean necesarios.
Privacidad y protección de Datos por Diseño
El concepto de Privacidad por Diseño (Privacy by Design) implica que el impacto en la privacidad de cualquier nuevo sistema, proceso o servicio es considerado desde las fases iniciales del ciclo de vida de su desarrollo. Para poner en práctica este enfoque es esencial la realización de un análisis preliminar para identificar todos los posibles riesgos para la privacidad que puede implicar el nuevo proceso y a los que habrá que poner remedio. Como consecuencia, el diseño incorpora desde su propia concepción controles para mitigar las posibles vulnerabilidades de protección de datos y privacidad.
El enfoque de Privacidad por Diseño, si se aplica de manera genuina, asegura el diseño de controles más efectivos, más sencillos y baratos y más difíciles de vulnerar, al formar parte intrínseca del propio sistema. En lo relativo al diseño técnico, el resultado de este enfoque es el desarrollo de Tecnologías Optimizadas para la Privacidad o PETs (siglas de Privacy Enhanced Techniques) que incorporan funcionalidades y características que permiten reducir o eliminar el riesgo de incumplimiento de la legislación y favorecen la preservación del derecho de privacidad de los individuos:
Minimizar el volumen de datos personales requeridos para una determinada operación (diferenciando claramente los datos mínimos obligatorios y los opcionales e indicando las ventajas en caso de decidir facilitar los datos opcionales).
Incorporando desde diseño que titular puede especificar de manera sencilla los derechos concretos de acceso que quiere conceder a terceros para acceder a su información (como por ejemplo, el propósito para el cual ha proporcionado los datos, la validez temporal del acceso concedido, y los datos concretos a los que permite acceso).
Incorporando desde el diseño el ejercicio de derechos del titular, especialmente en relación con la oposición al tratamiento, la cancelación y rectificación de datos y el derecho al olvido…
Incorporando el cumplimiento de requisitos de control de accesos y trazabilidad a la información, especialmente en el caso de datos catalogados como sensibles.
Facilitando la aplicación de controles de seguridad adecuados al nivel de sensibilidad de la información; por ejemplo, el uso de técnicas criptográficas.
Consideraciones específicas a la hora de la Elaboración de perfiles y uso de Big Data / Machine Learning
Dado que las tecnologías cognitivas están provocando la continua aparición de nuevos productos y servicios totalmente personalizados basados en los datos del usuario en ámbitos como el marketing, los servicios financieros, retail, seguros, recursos humanos, etc (este proceso se ha denominado en GDPR “Client Profiling”), el GDPR ha prestado especial atención a regular estas prácticas. En su definición:
Elaboración de perfiles significa la acumulación de datos de clientes específicos o grupos de ellos (clusters), llevando a cabo una clasificación de los mismos en base a criterios específicos con el fin de tomar decisiones de negocio relacionadas con los clientes individualmente.
Más concretamente, el artículo 4(4) del GDPR establece que el procesamiento de datos de cliente se considera “elaboración de perfiles” cuando se dan estas dos condiciones simultáneamente:
Se realiza un proceso automatizado de los Datos Personales que incluye la monitorización de la actividad de los usuarios en Internet con fin de aplicar técnicas de proceso de datos para tomar decisiones sobre ellas o predecir su comportamiento, preferencias o actitudes.
Los Datos Personales procesados de la forma descrita se utilizan para evaluar ciertos aspectos personales relativos a una persona concreta.
Para clarificar más el alcance, el Regulador proporciona algunos ejemplos tales como analizar o predecir el comportamiento de las personas en el trabajo, su situación económica, su salud, preferencias personales, intereses, fiabilidad, comportamiento, localización o sus movimientos. Igualmente establece que su jurisdicción sobre este tema se extiende a Operadores establecidos fuera de UE cuando éstos monitorizan el comportamiento de personas cuando estas realizan sus actividades dentro de la Unión Europea.
Por tanto elaboración de perfiles no es equivalente a monitorización puesto que requiere que, además del tracking de la actividad del usuario en Internet, la finalidad sea la toma de decisiones o realización de predicciones del comportamiento y preferencias de las personas de forma automática sin intervención humana.
Si se dan estas condiciones, las empresas y entidades que la realicen deben realizar el correspondiente Data Protection Impact Assesment para poder realizar esta actividad.
En la práctica, esto implica:
Utilizar procedimientos matemáticos o estadísticos adecuados
Implementar medidas técnicas y organizativas para corregir errores o inexactitudes en los datos personales manejados
Securizar todos los datos personales utilizados
Minimizar el riesgo de discriminación contra personas a causa de su raza, opinión política, creencias religiosas, orientación sexual o estado de salud.
Los usuarios tienen el derecho de ser informados de que se está realizando una elaboración de perfiles sobre sus datos, indicando además si se realiza un proceso de toma de decisiones automatizada o predicciones en base a ellos y una explicación de las consecuencias previsibles de estas acciones para ellos. El usuario tiene el derecho a impedir ser objeto de tomas de decisión basadas exclusivamente en mecanismos automáticos incluyendo el elaboración de perfiles, si éstas implican consecuencias legales o le afectan con un impacto sobre él significativo o similar. (Artículo 22-1). Ejemplos podrían ser la denegación de un crédito, un seguro o toma decisiones en el ámbito de RRHH realizadas de forma automática sin intervención humana.
Sin embargo, el regulador en el siguiente artículo (22-2) abre una puerta a este tipo de proceso automático si es imprescindible para la contratación o prestación del servicio contratado o a contratar, obviamente respetando la no discriminación o vulneración de derechos individuales. No obstante, el usuario siempre podrá recurrir la decisión automática tomada según el artículo 22-3.
Finalmente, el usuario podrá retirar su permiso para la utilización de sus datos a efectos de proceso o elaboración de perfiles en cualquier momento pese a que anteriormente hubiera proporcionado su consentimiento expreso.
Para la realización de elaboración de perfiles no se pueden utilizar los siguientes tipos de datos ( artículo 22--4): aza, etnia, religión, salud, orientación sexual, salvo en las siguientes excepciones:
El usuario de consentimiento explícito para realizarlo específicamente para uno o más fines concretos.
El proceso sea necesario por razones de bien común de acuerdo a la legislación local del Estado miembro.
Uso de técnicas de Seudonimización
GPDR incluye un nuevo concepto respecto a las regulaciones anteriores respecto a la gestión de datos anónimos debido a las nuevas capacidades de proceso y gestión de datos proporcionadas por las herramientas y tecnologías relacionadas con Big Data, data processing, machine learning, Deep Learning etc.
La GPDR introduce el concepto de seudonimización: El proceso de datos personales de tal forma que dichos datos no pueden ser asociados a una persona concreta, sin el uso de información adicional. Para garantizar esto, los datos ‘adicionales’ necesarios para identificar a la persona debe mantenerse separados de los datos personales anonimizados y deben someterse a medidas técnicas y organizativas que aseguren que no puedan ser utilizados en la práctica para identificar a una persona concreta.
La información anónima utilizada en el proceso de seudonimización tiene la consideración por el Regulador de datos personales, aunque en teoría es anónima, debido a que con el uso de información adicional podría ser posible relacionarla con una persona en concreto. Por tanto, debe declararse y gestionarse como datos personales normales de acuerdo a su tipología. Al proceso de identificar a un individuo a partir de la combinación de piezas de información separada se le denomina re-identificación. Es muy importante cuando se vaya a llevar a cabo la anonimización de un un fichero se evalúe concienzudamente el riesgo de re-identificación, tomando en cuenta quién será el destinatario de la información y su nivel de acceso a información adicional presente y futura.
La pseudonimización consiste en reemplazar un atributo de un set de datos (normalmente un atributo único que funciona de identificador directo, como el nombre y los apellidos) por otro atributo (como por ejemplo, el DNI, el número de Seguridad Social, o un código aleatorio que no pueda ser descifrado, de modo que no pueda conocerse a quién se refiere).
Los métodos más extendidos de pseudonimización son la encriptación y la tokenización:
La encriptación con una clave secreta permite que el dueño de la clave re-identifique a los sujetos desencriptando la clave (por ejemplo, volviendo a asociar cada número de la Seguridad Social con el nombre de la persona).
Por su parte, la tokenización se aplica principalmente en el sector financiero para el procesamiento de tarjetas de crédito. Normalmente, la creación del identificador (token) consiste en sustituir los números de DNI a través de un sistema de encriptado unidireccional que genera un número aleatorio.
Así, a pesar de que tradicionalmente los datos pseudonimizados eran considerados datos anónimos, en la actualidad la pseudonimización ya no se considera un método de anonimización, pues la persona es todavía identificable, aunque sea de forma indirecta.
En la medida en que reduce la asociación («linkability») entre la información y el sujeto de la que proviene, la pseudonimización es una medida de seguridad útil, aunque en todo caso continúa permitiendo la identificación de los sujetos. Así, actualmente se considera que los datos pseudonimizados son todavía datos de carácter personal y están sujetos a la normativa sobre protección de datos de carácter personal.
No obstante estas limitaciones, el uso de seudonimización reduce de forma muy significativa los riesgos regulatorios del proceso automatizado de datos manteniendo una muy buena utilidad y usabilidad de los resultados de dicho proceso y debe utilizarse siempre que sea posible.
El propio GDPR proporciona incentivos al uso de esta forma de gestión de datos y proporciona recomendaciones para la gestión de los datos:
La seudonimización puede facilitar el proceso de datos personales más allá del fin para el que fueron almacenados, pese a que se mantiene la obligación de almacenar datas sólo para fines específicos, explícitos y legítimos.
La seudonomización es un punto clave para implementar la “protección de datos desde el diseño”.
El uso de seudonimización ayuda a cumplir con los requisitos de securización de los datos personales: bajo el artículo 32 se requiere que las compañías y entidades que manejan información personal incluyan seudonimización y encriptación para la salvaguarda de dicha información ante ataques o uso malicioso.
Si se utiliza seudonimización adecuadamente, es decir, se toman las medidas necesarias para que la información no pueda ser asociada a una persona específica, no es necesario permitir a los usuarios el derecho de portabilidad de la información, rectificación o derecho al olvido. Si pese al uso de seudonimización existiese la posibilidad de identificar a una persona concreta, tales derechos continuarán vigentes.
EL GPDR recomienda el uso de seudononimización por defecto como forma óptima de gestión datos para su procesamiento y elaboración de perfiles.
Checklist general de actividades para garantizar cumplimiento GDPR
A modo de resumen, la siguiente tabla proporciona un checklist de las acciones a tomar en cada una de las fases del ciclo de vida de un proyecto basado en machine learning o big data de forma que estemos seguros que el producto o servicio resultante cumpla con los requisitos establecidos en la normativa GDPR.

