.png)
La qualification juridique d'un ensemble de données conditionne l'ensemble du régime applicable à un projet de recherche. Lorsqu'un établissement de santé transmet à des fins scientifiques une extraction dont les noms ont été remplacés par des codes, tout en conservant les dates de soins et les codes postaux, une question préalable s'impose : ces données doivent-elles être regardées comme anonymes, et donc soustraites au règlement général sur la protection des données (RGPD), ou demeurent-elles des données à caractère personnel astreintes à l'ensemble des formalités correspondantes ? La réponse détermine la base légale mobilisable, l'obligation d'information des personnes, les démarches préalables auprès de la CNIL et, en dernière analyse, la licéité même de l'étude. Nous allons revenir sur deux décisions , l'une de la Cour de justice de l'Union européenne (CJUE) et l'autre plus récente du Conseil d'État, conjuguées à la refonte des méthodologies de référence de la CNIL, ont sensiblement redessiné la frontière entre anonymisation et pseudonymisation. Cet article en tire les conséquences pratiques pour la conduite des recherches mobilisant des données de santé.
Pour le juriste, la distinction peut paraître subtile. Pour le chercheur, elle est décisive, car elle commande l'applicabilité du RGPD. Des données réellement anonymes sortent du champ du règlement et peuvent être traitées, partagées et publiées à des fins statistiques ou scientifiques. Des données seulement pseudonymisées demeurent des données à caractère personnel et, lorsqu'elles concernent la santé, des données sensibles soumises à un régime renforcé.
Le RGPD ne définit pas l'anonymisation. En revanche, il définit la pseudonymisation : l'article 4, paragraphe 5, la décrit comme un traitement des données à caractère personnel empêchant de les attribuer à une personne précise sans informations supplémentaires. Ces informations doivent être conservées séparément. Elles doivent aussi être protégées par des mesures techniques et organisationnelles.
La clé de lecture figure au considérant 26 du règlement. Celui-ci pose d'abord que les données pseudonymisées, qui pourraient être attribuées à une personne par le recours à des informations supplémentaires, sont des informations concernant une personne identifiable. Pseudonymiser ne fait donc jamais sortir les données du champ du RGPD : la technique suppose, par construction, le maintien quelque part d'une clé permettant la ré-attribution. Le considérant énonce ensuite le test décisif :
Pour déterminer si une personne physique est identifiable, il convient de prendre en considération l'ensemble des moyens raisonnablement susceptibles d'être utilisés par le responsable du traitement ou par toute autre personne pour identifier la personne physique directement ou indirectement.
Cette appréciation repose sur des facteurs objectifs : le coût et le temps nécessaires à l'identification, compte tenu des technologies disponibles et de leur évolution. C'est seulement lorsque ces moyens raisonnables sont épuisés que l'on bascule dans l'information anonyme, à laquelle le RGPD ne s'applique pas, y compris à des fins statistiques ou de recherche.
Deux idées doivent être retenues de ce socle. D'abord, anonymiser est un standard exigeant : il suppose une impossibilité, ou une quasi-impossibilité, d'identification, et non la simple suppression des identifiants directs. Ensuite, l'identifiabilité ne s'apprécie pas dans l'absolu mais à l'aune des moyens raisonnablement mobilisables, un critère relatif que la CJUE avait déjà éclairé. Dans son arrêt OC c. Commission du 7 mars 2024 (C-479/22), elle a admis que des techniques de pseudonymisation peuvent aboutir à un résultat équivalent à l'anonymat lorsque le risque d'identification devient insignifiant, c'est-à-dire lorsque la ré-identification exigerait un effort démesuré en temps, en coût et en main-d'œuvre. Ce raisonnement inscrit la matière dans une logique d'appréciation concrète, au cas par cas, du risque résiduel.
L'arrêt EDPS c. CRU du 4 septembre 2025 (C-413/23) [https://eur-lex.europa.eu/legal-content/FR/TXT/PDF/?uri=CELEX:62023CJ0413] a déjà fait l'objet d'une analyse détaillée sur ce blog [https://www.squairlaw.com/fr/blog/pseudonymisation-un-levier-juridique-sous-conditions] ainsi que l'analyse de l'avis de l'Avocat Général [https://www.squairlaw.com/fr/blog/anonymisation-vs-pseudonymisation-quel-est-le-veritable-statut-de-donnees-codees]. On se bornera ici à en rappeler la portée pour mieux la confronter à la décision récente du Conseil d'État.
L'affaire trouvait sa source dans la procédure de résolution de la banque espagnole Banco Popular. Des observations recueillies auprès d'actionnaires et de créanciers avaient été pseudonymisées par suppression des identifiants directs et attribution d'un code alphanumérique, puis transmises à un cabinet d'analyse, sans que les personnes en soient informées. La CJUE a dégagé deux enseignements majeurs. D'une part, la qualification de donnée personnelle s'apprécie de manière contextuelle, au regard des moyens raisonnablement accessibles à chaque acteur : une même donnée peut ainsi être personnelle pour celui qui détient la clé de correspondance et non personnelle pour le destinataire qui en est dépourvu. D'autre part, cette relativité ne libère pas le responsable initial de son obligation d'information: le fait qu'un destinataire ultérieur ne puisse réidentifier les personnes ne le dispense en rien de ses obligations de transparence, qui s'apprécient de son propre point de vue au moment de la collecte.
L'arrêt porte un message double pour un projet scientifique. D'un côté, il ouvre une marge de manœuvre : un partenaire qui reçoit des jeux de données robustement pseudonymisés, sans identifiants directs ni clé de réidentification, et qui agit en responsable autonome sans jamais chercher à enrichir les données, peut se trouver hors du champ du RGPD. De l'autre, cette anonymisation relative côté destinataire ne déteint pas sur le responsable initial : tant qu'il conserve la table de correspondance, il traite des données personnelles et en assume toutes les obligations, à commencer par l'information des personnes et la documentation de son analyse de risque.
La pseudonymisation devient ainsi un levier juridique, mais un levier sous conditions, qui suppose une gouvernance technique rigoureuse, des engagements contractuels de non-réidentification et une cartographie soignée des flux de données.
Là où l'arrêt SRB raisonnait sur des opinions transmises à un tiers, la décision du Conseil d'État du 13 février 2026 (n° 498628) [https://www.conseil-etat.fr/fr/arianeweb/CE/decision/2026-02-13/498628] se place au cœur de la donnée de santé et de son exploitation commerciale. Étaient en cause des sociétés du groupe Cegedim et du GERS exploitant de vastes bases de données de santé sanctionnées par la CNIL en 2024 pour plusieurs manquements au RGPD. Une base était alimentée par des données de consultation collectées auprès de professionnels de santé via un logiciel métier, une autre par des données issues d'officines pharmaceutiques. Les volumes étaient considérables, de l'ordre de plusieurs millions de codes patients et d'identifiants clients. À partir de ces données, le responsable réalisait et commercialisait des études : recherche épidémiologique, analyse des prescriptions, suivi des trajectoires de soins, études de marché.
Les sociétés soutenaient que les données avaient été rendues anonymes et échappaient au RGPD, au motif qu'elles ne mentionnaient qu'un code patient ou un code client. La CNIL soutenait qu'il s'agissait de données seulement pseudonymisées. Ses contrôles avaient mis en évidence des traitements portant sur les ordonnances, les visites médicales et les pathologies, retraçant les parcours de soins. Si les identifiants directs avaient été supprimés, certaines combinaisons d'informations restaient susceptibles d'identifier indirectement des individus, particulièrement en présence de maladies rares. La formation restreinte de la CNIL a prononcé plusieurs sanctions pécuniaires à l'encontre des sociétés
La question soumise était nette : des données de santé pseudonymisées peuvent-elles être qualifiées d'anonymes lorsqu'un risque de réidentification par croisement persiste ? La réponse est négative. Le Conseil d'État rejette les recours et confirme les sanctions de la CNIL.
Le raisonnement consolide le standard du considérant 26 du RGPD : l'anonymisation n'est effective que lorsque l'identification de la personne est rendue impossible ou quasiment impossible. Cette appréciation est menée in concreto, en tenant compte des informations détenues, des possibilités de recoupement et des ressources raisonnablement mobilisables, eu égard aux outils disponibles ainsi qu'au temps et aux moyens nécessaires. La suppression du nom ne suffit pas : pseudonymiser est une mesure de sécurité destinée à réduire les risques, non à effacer tout rattachement à la personne.
En l'espèce, les bases de données contenaient des renseignements médicaux précis, des historiques de traitement, des informations sur les prescriptions et des données chronologiques et géographiques : date et heure de la visite ou de l'achat, localisation, identification possible des professionnels via leur numéro RPPS ou ADELI. Un simple tableur couplé à une table de correspondance suffisait à isoler un patient, le risque étant accru pour les personnes souffrant de pathologies rares. Le danger de réidentification n'était donc pas négligeable.
La décision dialogue utilement avec l'arrêt SRB. La CJUE avait montré qu'une donnée peut changer de nature selon l'acteur qui la détient. Le Conseil d'État rappelle que cette relativité ne joue pas en faveur du responsable qui conserve, dans son propre écosystème, les clés et les moyens du recoupement. Le test est identique ; le résultat diffère parce que la situation de fait diffère.
L'enjeu de ces décisions dépasse le contentieux : il commande la conception d'un projet de recherche dès l'amont. Si les données ne sont pas réellement anonymes, ce qui sera la règle dans la grande majorité des recherches mobilisant des données de soins, de prescriptions ou de parcours, le RGPD et la loi Informatique et Libertés (LIL) s'appliquent pleinement.
Le réflexe méthodologique consiste à qualifier l'étude, identifier le cadre applicable, puis accomplir les formalités correspondantes. Deux voies structurent l'accès aux données de santé à des fins de recherche :
L'ampleur du dispositif est concrète : la CNIL indique avoir traité, en 2025, plusieurs centaines de demandes d'autorisation dans le domaine de la santé, dont une large majorité en recherche.
C'est précisément l'absence de tout cadre, ni consentement, ni MR, ni autorisation, qui a été reprochée dans les affaires Cegedim / GERS. Faute de consentement, les sociétés devaient se placer sous une MR ou sous autorisation. En exploitant et en commercialisant des bases de données de santé pseudonymisées sans ormalité valable, elles ont méconnu l'article 66 de la LIL. La leçon est limpide : croire à tort que ses données sont anonymes conduit à faire l'impasse sur les formalités, et donc à exposer le projet et l'institution à un risque de sanction et de remise en cause des résultats.
La décision du Conseil d'Etat comporte un enseignement complémentaire sur la frontière entre soin et recherche. Certaines données de prise en charge des organismes d'assurance maladie, destinées à la consultation par le médecin lors des soins avec l'accord du patient, étaient conservées au-delà dans le logiciel des praticiens. Réutiliser des données initialement collectées pour le soin suppose une vigilance particulière sur la finalité, la base légale et la durée de conservation.
Avant de se demander quelle formalité accomplir, il faut trancher une question préalable : les données sont-elles personnelles ? La réponse s'apprécie à la lumière des critères dégagés par les deux décisions : possibilité d'individualisation, recoupements envisageables, moyens raisonnablement mobilisables et sensibilité accrue des pathologies rares.
Ces évolutions jurisprudentielles s'accompagnent d'une refonte du cadre de référence. Par quatre délibérations du 19 mars 2026 (n° 2026-049 à 2026-052), la CNIL a actualisé ses deux méthodologies phares : la MR-001 [https://www.cnil.fr/fr/methodologie-de-reference-mr-001-recherches-sante-avec-recueil-du-consentement], applicable aux recherches en santé avec recueil du consentement, et la MR-003 [lie : https://www.cnil.fr/fr/methodologie-de-reference-mr-003-recherches-dans-le-domaine-de-la-sante-sans-recueil-du-consentement], applicable aux recherches sans recueil du consentement. Ces référentiels, qui couvrent les recherches impliquant la personne humaine, les essais cliniques de médicaments et les investigations sur dispositifs médicaux, ont vu leur structure modernisée et leur contenu précisé sur le champ d'application, les catégories de données, les destinataires, l'information, la sécurité, les transferts hors Union européenne et la sous-traitance.
L'apport le plus structurant des MR tient à l'ajout de deux annexes communes : une annexe contrôle qualité, qui encadre notamment le monitoring à distance, et surtout une annexe sécurité. Le contexte justifie ce renforcement : le secteur de la santé a connu, d'après la CNIL, une augmentation marquée des notifications de violations de données ces dernières années. Parmi les jalons à anticiper, l'authentification multifacteur (MFA) deviendra obligatoire pour l'accès aux systèmes, services et outils de la recherche, à compter du 1er janvier 2027. Plus largement, les mesures de l'annexe s'imposent aux recherches initiées à compter du 23 mai 2026 lorsque le responsable souhaite s'inscrire dans une déclaration de conformité ; pour les recherches en cours, un plan d'action doit être défini au plus tard sous un an.
Au cœur de cette annexe de sécurité figure une notion appelée à devenir centrale : le code non signifiant. Lorsqu'il est nécessaire de relier entre elles les données se rapportant à une même personne, au sein d'un jeu pseudonymisé ou entre plusieurs jeux, l'indexation doit se faire uniquement au moyen d'un tel code. La logique répond directement aux critères de réidentification dégagés par la jurisprudence : couper les ponts entre les données de recherche et les identifiants préexistants, tout en préservant, si besoin, la possibilité de refaire le lien de manière strictement encadrée et limitée.
Conformément à cette annexe, un code non signifiant ne doit révéler aucune information sur la personne ni reprendre d'identifiants préexistants. Il ne peut contenir ni les traits d'identité (initiales, date de naissance), ni les identifiants liés au soin (NIR-INS, IPP, IEP), ni ceux liés à la phase de collecte des données (numéro d'inclusion, numéro de tube d'un prélèvement biologique), ni l'identifiant de la personne dans un jeu source, pas davantage sous forme de troncature ou de concaténation. Il doit être généré spécifiquement pour le jeu de données concerné, selon l'une de deux méthodes : soit à l'aide d'un générateur de valeurs aléatoires, soit par dérivation d'un identifiant préexistant au moyen d'une fonction de hachage cryptographique à l'état de l'art, paramétrée par une clé secrète encadrée par une politique de gestion de clé.
L'annexe encadre enfin les moyens de réidentification eux-mêmes. Le responsable doit s'assurer qu'il est impossible de relier un code non signifiant à d'autres identifiants sans accès à une information supplémentaire, table de correspondance ou clé secrète de hachage. Cette information n'est conservée que si le lien ultérieur est strictement nécessaire ; son accès doit être limité à un nombre restreint de personnes habilitées. On reconnaît là, transposée en exigences techniques opposables, l'architecture même de la pseudonymisation telle que la définit l'article 4, paragraphe 5, du RGPD, à savoir le traitement de données personnelles de manière à ce qu'elles ne puissent plus être rattachées à une personne précise sans informations supplémentaires qui sont conservées séparément et protégées par des mesures techniques et organisationnelles.
De ces évolutions se dégage une ligne directrice cohérente, et notre pratique le confirme au quotidien dans l'accompagnement des projets de recherche. La frontière entre anonymisation et pseudonymisation ne se mesure pas à la suppression des identifiants directs, mais au risque résiduel de réidentification apprécié in concreto, à l'aune des moyens raisonnablement mobilisables. La CJUE a montré qu'une donnée peut changer de nature selon l'acteur qui la détient, sans libérer le responsable initial de ses obligations de transparence. Le Conseil d'État a confirmé que des données de santé riches en informations contextuelles restent personnelles dès lors qu'un simple recoupement permet d'individualiser un patient. La CNIL, enfin, traduit ces principes en exigences pratiques à travers ses MR actualisées et le code non signifiant.
Pour le chercheur en santé, trois réflexes s'imposent. D'abord, ne jamais présumer l'anonymat : documenter, en amont du projet, une analyse de risque de réidentification tenant compte des pathologies rares, des données chronologiques et géographiques et des possibilités de croisement. Ensuite, qualifier correctement l'étude et choisir la bonne voie, consentement, méthodologie de référence ou autorisation, sans jamais faire l'économie des formalités au prétexte d'un anonymat supposé. Enfin, sécuriser les traitements conformément à l'état de l'art et aux nouvelles annexes de la CNIL, en s'appuyant sur le code non signifiant pour relier les jeux de données sans rouvrir la porte à la réidentification. Avant tout dépôt d'engagement de conformité, faites valider l'analyse de réidentification par un référent indépendant de l'équipe qui exploite les données.
Pseudonymiser consiste à remplacer les identifiants directs par un code tout en conservant, ailleurs, une clé permettant la ré-attribution : les données restent personnelles et soumises au RGPD. Anonymiser suppose de rendre l'identification impossible ou quasiment impossible, même par recoupement : les données sortent alors du champ du règlement. La suppression du nom seule ne suffit jamais à anonymiser.
Non, pas automatiquement. Comme l'a jugé le Conseil d'État le 13 février 2026 (n° 498628), des données médicales précises associées à des informations chronologiques et géographiques permettent d'individualiser un patient par recoupement, surtout en cas de pathologie rare. Tant qu'une réidentification reste raisonnablement possible, les données demeurent personnelles.
Le code non signifiant, prévu par l'annexe sécurité des MR actualisées le 19 mars 2026, sert à relier entre elles les données d'une même personne sans révéler aucune information sur elle ni reprendre d'identifiant préexistant. Il est généré aléatoirement ou par hachage cryptographique avec clé secrète. Il traduit en exigence technique l'architecture de la pseudonymisation définie à l'article 4, paragraphe 5, du RGPD.
Oui, selon l'arrêt de la CJUE du 4 septembre 2025 (C-413/23 P). Un destinataire qui reçoit des données pseudonymisées sans clé de réidentification et sans moyen raisonnable de réidentifier peut se situer hors du champ du RGPD. Mais le responsable initial, qui conserve la table de correspondance, traite des données personnelles et reste tenu d'informer les personnes.
Il s'expose à avoir omis les formalités obligatoires, consentement, MR ou autorisation de la CNIL, ce qui constitue une violation de l'article 66 de la LIL. Le risque est double : une sanction administrative, comme dans l'affaire Cegedim, et la remise en cause de la licéité de l'étude, donc de la valeur des résultats. Une analyse de risque de réidentification documentée en amont est la meilleure protection.
.png)