Construction d'un identifiant national anonymisé

Principe général

Un identifiant national invariant et anonymisé est construit en s'appuyant sur les états civils disponibles dans les Fichiers Fonciers. Cette construction comprend deux phases :

sélection de l’état civil le plus récent et application à tous les millésimes,
construction de l’identifiant et anonymisation.

Les données d’entrée sont les Fichiers fonciers non anonymisés sur la période 2011–2020 (2009 est exclue car on ne dispose pas du millésime 2010 des Fichiers fonciers).

Note : le travail présenté n’est pas restreint aux propriétaires de logements. Le travail de construction de l’identifiant ne fait aucun choix sur les propriétaires (type de droit notamment) ainsi que les types de biens possédés. L’identifiant peut donc être exploité pour s’intéresser à la propriété foncière.

Dans un premier temps, on détaille le choix retenu sur l’état civil (et le SIREN pour les propriétaires moraux). Dans un second temps, nous détaillons la construction de l’identifiant unique à partir de l’état civil.

Association d'un état civil à chaque identifiant personnel idpersonne

La méthode repose sur le choix de l'idpersonne (identifiant de personne départementalisé MAJIC3) comme variable unique pour identifier sur la version originale des Fichiers Fonciers les individus uniques. L’hypothèse d’identification repose sur le fait que cet identifiant est associé à une seule personne dans un même millésime. Les personnes uniques changeant d’idpersonne au cours du temps ne posent pas de problème car on considère qu’elles conservent le même état civil au cours du temps. On suppose que les erreurs, qui correspondraient à un identifiant personnel unique idprodroit définissant différents idpersonne dans le temps, sont négligeables.

L'état civil est défini par l’ensemble des variables suivantes :

nom de naissance (en opposition au nom d’usage),
prénom de naissance,
date de naissance.

Ainsi, le nouvel identifiant unique propriétaire produira un identifiant erroné si une personne possède le même nom, le même prénom et la même date de naissance, ce qui nous semble être négligeable.

Puisque l’identifiant actuel idpersonne, identifie par hypothèse une personne unique (là où en revanche une personne unique peut avoir plusieurs idpersonne), nous allons assigner un état civil unique dans le temps à chaque idpersonne.

Pour ce faire, nous sélectionnons les idpersonne disponibles pour le millésime 2020, ainsi que les états civils correspondants. Puis, nous sélectionnons les idpersonne non présents dans le millésime 2020 mais disponibles dans le millésime 2019, ainsi que les états civils associés. Nous répétons cette procédure jusqu’à l’année 2011 pour obtenir une table contenant l'ensemble des identifiants présents dans au moins un millésime.

Note : nous prenons en compte le changement de nom de variable pour le nom de naissance sur la période 2011–2014. Pour les propriétaires moraux, on remplace l’état civil par le numéro de SIREN.

Cette manière de procéder a deux avantages majeurs :

On retient l’état civil le plus récent, ainsi si des modifications s’appliquent (rectification par exemple), elles se diffusent à l’ensemble des millésimes.
On diminue la taille des données à traiter avec comme unité d’observation un idpersonne actif sur la période 2011–2020 (plutôt que chaque compte idpersonne par année).

On obtient donc à l'issue de cette étape une table unique de correspondance entre idpersonne et l’état civil (ou le numéro SIREN).

Construction de l'identifiant

À partir de cette table unique de correspondance, on commence le travail de construction d’identifiant unique. Toutefois, nous imposons une troncature sur les états civils afin de traiter les potentiels erreurs de typographie, la présence (ou non) des deuxièmes prénoms, etc. On augmente ainsi la probabilité d’assigner un identifiant unique à deux propriétaires différents, mais ainsi on diminue la probabilité d’avoir un propriétaire avec plusieurs identifiants uniques. Ce choix s’appuie sur des tests de différents identifiants uniques (menés sur l’échantillon complet), proposant 12 versions. Les choix retenus sont les suivants :

première partie du nom (LEI demeure LEI, BOCQUET demeure BOCQUET alors que BOCQUET-LEI devient BOCQUET). Toutefois, une attention est portée sur les particules. Ainsi, si la première partie du nom contient deux lettres, nous prenons la seconde partie si celle-ci existe. Dans le cas où il n’y a qu’une chaîne de caractères, on conserve la première partie. Ainsi LE-BOCQUET devient BOCQUET alors que LE demeure LE,
le prénom suit la même logique que le nom de naissance,
date de naissance complète.

L’identifiant concatène ces informations pour former une chaîne de caractères unique pour chaque propriétaire unique. Les tests réalisés sur les personnes ayant un état civil complet est négligeable (taux d’erreur potentiel inférieur à 0,01 %).

Toutefois, la méthode est mise en difficulté lorsque les états civils ne sont pas complets. Compte tenu des variables sélectionnées, cela représente 1 % des identifiants personnes retenus. On appelle "erreur" une absence de nom ou prénom, ou une date de naissance non standard (type 00/12/1987). On remarque aussi des dates avec un nombre anormal d’observations tels que 01/01/1850 et 01/01/1900. Pour ces observations, le risque d’introduire des erreurs (un identifiant pour 100 personnes par exemple) étant accru, nous choisissons de conserver l’identifiant actuel idpersonne comme identifiant unique. Ce choix permet d'éviter la constitution de patrimoines artificiellement importants (un identifiant pour 100 propriétaires par exemple), mais démultiplie le nombre de propriétaires potentiels pour un seul propriétaire avec un état civil incomplet.

Une fois obtenu cet identifiant unique, nous passons à la phase d’anonymisation. Dans notre cas, nous générons un nombre entier aléatoire. Des processus plus robustes (fonction de hachage) peuvent par ailleurs être adoptés.

De cette étape, il ressort une table idpersonne – id_ano avec un id_ano invariant dans le temps.

La dernière étape constitue en une jointure entre cette table et les idprodroit pour chaque millésime et obtenir des tables idprodroit – id_ano annuelles.

Tables annexes

Sur la base de cet identifiant, nous récupérons l’ensemble des communes de résidence associées à l’identifiant national propriétaire. On obtient ainsi pour chaque année, une liste des communes de résidence potentielles.

Dans la majorité des cas (plus de 95 %), le résultat renvoie une seule commune de résidence, ce qui contribue à la crédibilité de l’identifiant national.

Dans le cas où les correspondances sont multiples, on fiabilise l’information par une approche multi-millésime. Ainsi, si on observe plusieurs correspondances pour l'année n mais une seule pour l'année n + 1, on conserve cette commune pour l’année n. Dans les cas marginaux où la multiplicité perdure, on choisit une commune et on conserve celle-ci sur l’ensemble des millésimes concernés.

Méthodologie et ressources

Notice méthodologique

Construction d'un identifiant national anonymisé

Principe général

Association d'un état civil à chaque identifiant personnel idpersonne

Construction de l'identifiant

Tables annexes