Sans données, les systèmes d’IA ne peuvent pas apprendre et donc ne fonctionnent pas. La donnée est le carburant des algorithmes, mais pas n’importe laquelle.

Elle doit remplir des critères d’échange, de standardisation… mais aussi éviter les biais et être utilisée dans le respect de la protection des données personnelles, rappelle la CNIL. C’est pourquoi les autorités sont intervenues ces dernières années pour faciliter l’exploitation secondaire de données de santé, tout en l’encadrant.

La donnée doit être… organisée à partir de multiples bases

La structuration des données en bases de données (BDD) est impérative pour l’IA. Le travail d’un algorithme nécessite souvent un chaînage entre diverses bases : par exemple, entre des BDD d’essais cliniques, le dossier patient informatisé, des entrepôts de données hospitalières et issus de solutions de start-up, le fichier des causes de décès, les dossiers de l’Assurance maladie… Dans l’immense majorité des cas, la donnée provient de bases très différentes. Et dans certaines circonstances, les bases devront être interopérables. La loi de modernisation du système de santé de 2016 a créé le Système national des données de santé (SNDS, composé de BDD existantes), puis le Health Data Hub (HDH) fondé en 2019, pour faciliter l’accès aux données et leur croisement, de manière sécurisée et structurée (voir article "Du Health Data Hub français à l'Espace européen des données de santé"). En 2022, le ministère de la Santé a décidé d’appuyer la constitution des entrepôts de données au sein des établissements de santé.

La donnée doit être… standardisée, qualifiée, cataloguée

Autre impératif pour faire tourner un algorithme : qualifier et standardiser la donnée de santé et la manière dont est codée une variable (par exemple : fumeur/non-fumeur). Le Health Data Hub plaide pour que cette question des normes soit traitée dès la collecte des données, et ce, tout au long du parcours de soins. Sans parler de la nécessité de catalogues de données qui restent à créer.

Partageons quelques exemples :

  • le projet Oncolab, dont l’objectif est d’architecturer les données afin d’améliorer les méthodes de traitement du langage naturel (technique de Deep Learning) pour l’analyse de milliers de documents médicaux ;
  • le projet ConSoRe, piloté par Unicancer, qui vise à organiser des données massives afin de favoriser le travail des chercheurs à partir d’un moteur de recherche ;
  • ou encore celui de l’annotation de données par des radiologues, sous forme d’images médicales, qui se développe également pour faciliter l’entraînement d’algorithmes.

La donnée doit être… anonymisée, minimisée

Un autre enjeu est de s’assurer des conditions de recueil des données, de leur anonymisation ou pseudonymisation(6). Conformément au principe de « Privacy by design » au cœur du RGPD (article 25), la protection des données personnelles doit être pensée dès la conception d’un modèle algorithmique, et pas seulement lors de sa mise en œuvre.

La minimisation des données aux seules données strictement nécessaires doit également être appliquée. « Mais minimisation ne s’oppose pas à mégadonnées ! », précise Valérie Peugeot, commissaire responsable des données de la santé à la CNIL jusqu’en 2024. « Et même si un certain nombre de textes dans notre droit peuvent laisser entendre qu’il y aurait une contradiction entre IA et usage des données à caractère personnel, à la CNIL, nous sommes convaincus du contraire », ajoute-t-elle, insistant sur le rôle d’accompagnement de la CNIL pour sécuriser les porteurs de projets d’IA en santé sur ces aspects.

(6) Le RGPD (art. 4) définit la pseudonymisation comme « le traitement de données à caractère personnel de telle façon que celles-ci ne puissent plus être attribuées à une personne concernée précise sans avoir recours à des informations supplémentaires, pour autant que ces informations supplémentaires soient conservées séparément et soumises à des mesures techniques et organisationnelles afin de garantir que les données à caractère personnel ne sont pas attribuées à une personne physique identifiée ou identifiable ».

La donnée doit être…représentative

L’Agence européenne du médicament (EMA) a mis en garde contre le risque de biais humains dans les algorithmes, dus à la dépendance aux données existantes. Il recommande d’obtenir des ensembles de données d’entraînement équilibrés et de documenter toutes les étapes du traitement de ces données de manière détaillée et traçable, conformément aux exigences GxP(7), et si des limitations subsistent dans les données d’apprentissage, elles doivent être clairement présentées dans la documentation du modèle algorithmique.

Des biais ont déjà été observés dans l’IA en santé, comme le manque de représentativité géographique ou de balance homme-femme dans l’imagerie médicale. Des études scientifiques ont également soulevé ces préoccupations, qui peuvent avoir un impact sur l’apprentissage des systèmes d’IA et provoquer une perte de chance pour les populations sous-représentées. De plus, les « données grises » provenant de diverses sources, y compris les applications grand public liées au bien-être, échappent souvent à la réglementation.

(7) Le terme GxP désigne les directives et réglementations proposant des « bonnes pratiques ».

La donnée doit être… à jour

Enfin, une grande partie des systèmes d’IA sont développés à partir de données historiques. Or, la performance d’un algorithme a tendance à dériver dans le temps (le « data drift ») en raison de l’évolution des pratiques médicales, des standards de soins, de la prévalence des pathologies… Cette évolution des données nécessitera donc, à l’avenir, de mesurer des seuils de performance des algorithmes, ce que, a priori, l’on ne sait pas faire aujourd’hui.

 

Un enjeu accru d’intégrité de cybersécurité

Compte tenu de l’impératif d’avoir en permanence des données fiables, représentatives, à jour (voir ci-dessous), la question de l’intégrité des données est fondamentale en matière de sécurisation des algorithmes. Il est impératif de prévenir les systèmes et entrepôts de données, de l’insertion de datas erronées (sciemment ou non).

De plus, le développement des services et outils numériques, favorisé par l’IA, augmente la surface d’exposition aux risques de cyberattaques, qui ont déjà connu une forte croissance depuis le début 
de la crise sanitaire, constate l’Agence du numérique en santé. C’est pourquoi le CERT Santé (Cellule d’accompagnement en cybersécurité des structures de santé) a publié en avril 2021 un plan d’action préventif des cyberattaques, avec des procédures fondamentales à respecter dans les systèmes d’information. Cela étant, les fuites de données sont encore nombreuses et le plus souvent dues au « hacking social » : un e-mail, un coup de fil d’un soi-disant fournisseur qui vous pousse à une action compromettant le SI (divulgation de mot de passe, démarche non sécurisée…). Mais l’Agence européenne du médicament met aussi en garde contre le problème insidieux des fuites de données de test durant la formation et la validation des modèles algorithmiques, que ce soit intentionnellement ou non.

 Pour éviter la fuite de données sensibles :

 • utiliser des méthodes de chiffrement pour sécuriser les données lorsqu’elles sont stockées ou transmises ;

• limiter l’accès aux données en utilisant des contrôles d’accès appropriés et en donnant l’accès uniquement aux personnes autorisées ;

• former le personnel sur les bonnes pratiques de gestion et de protection des données, y compris sur la sensibilisation aux menaces telles que le phishing ;

• effectuer régulièrement des audits de sécurité pour détecter les vulnérabilités et les faiblesses dans les systèmes et les processus de gestion des données.

En savoir plus

Consultez : Se protéger contre les menaces du CERT Santé