La IA médica puede exponer la privacidad de pacientes con enfermedades raras y grupos minoritarios
La protección de la privacidad en el desarrollo de modelos de inteligencia artificial (IA) sanitaria no se aplica de manera uniforme a todos los grupos. Un estudio publicado en Nature destaca que ciertos colectivos de pacientes corren un mayor riesgo de exposición de datos cuando sus registros se utilizan para entrenar estos sistemas.
Un equipo conformado por la Universidad Técnica de Múnich, el Imperial College London y otras instituciones llevó a cabo una auditoría centrada en el riesgo individual asociado a pacientes. Analizaron siete conjuntos de datos clínicos reales que incluían imágenes médicas, electrocardiogramas e historiales electrónicos de salud.
Esta investigación se centra en los llamados ataques de inferencia de pertenencia o membership inference attacks (MIA), técnicas diseñadas para determinar si los datos de una persona concreta fueron utilizados para entrenar un modelo de IA. Contrario a estudios anteriores que evaluaban el riesgo agregado, los autores analizaron la vulnerabilidad individual de cada paciente.
Los resultados muestran que ciertos participantes pueden ser identificados con una alta precisión, incluso cuando las métricas globales sugieren un bajo riesgo. Moritz Knolle, autor principal del estudio e investigador en IA médica, privacidad de datos y ciberseguridad, explica: “Al principio nos sorprendió este resultado; solo después de estudiar distintos subgrupos vimos que muchos de los pacientes con mayor riesgo pertenecían a colectivos infrarrepresentados”.
Entre estos grupos vulnerables se encuentran personas con enfermedades raras, individuos de minorías raciales y colectivos socioeconómicamente menos representados. El estudio destaca que la información más distinta en sus registros clínicos facilita que los modelos de IA los identifiquen del resto de participantes.
Estos hallazgos tienen implicaciones sociales significativas, ya que colectivos minoritarios podrían asumir una parte desproporcionada de los riesgos asociados a la privacidad. Si estos grupos perciben que los modelos funcionan peor para ellos y sus datos están más expuestos, pueden mostrar menos disposición a participar en futuras bases de datos médicas, lo que dificultaría su representación en el entrenamiento y podría perpetuar desigualdades sanitarias.
El estudio también advierte sobre la naturaleza delicada del riesgo. Los ataques de inferencia no buscan acceder a toda la historia clínica de una persona, sino averiguar si sus datos formaron parte del entrenamiento de un modelo. En ciertas circunstancias, esta información puede revelar diagnósticos o condiciones médicas confidenciales.
Knolle proporciona un ejemplo: “Imagina un modelo de IA que predice la respuesta a una inmunoterapia a partir de análisis de sangre. Si un atacante informático determina que un paciente formó parte del conjunto de entrenamiento, puede inferir que tiene cáncer, lo cual es información médica sensible”.
Las implicaciones del estudio son relevantes en el contexto del creciente desarrollo de modelos IA más grandes y poderosos. El autor concluye que las evaluaciones de privacidad deben pasar a incorporar análisis individuales además de métricas promedio y propone medidas como la privacidad diferencial para proteger información confidencial.
La primera medida recomendada es evaluar cada caso concreto, identificando qué información confidencial podría obtener un atacante. Si se detectan riesgos relevantes, las instituciones sanitarias deben adoptar medidas adicionales como limitar el acceso a los modelos o aplicar mecanismos de privacidad diferencial a nivel individual.
El estudio “Disparate privacy risks from medical AI” ha sido publicado en Nature.