République
Française
Le patrimoine immobilier des personnes physiques
Un éclairage inédit à partir des données foncières
Un identifiant national invariant et anonymisé est construit en s'appuyant sur les états civils disponibles dans les Fichiers Fonciers. Cette construction comprend deux phases :
Les données d’entrée sont les Fichiers fonciers non anonymisés sur la période 2011–2020 (2009 est exclue car on ne dispose pas du millésime 2010 des Fichiers fonciers).
Note : le travail présenté n’est pas restreint aux propriétaires de logements. Le travail de construction de l’identifiant ne fait aucun choix sur les propriétaires (type de droit notamment) ainsi que les types de biens possédés. L’identifiant peut donc être exploité pour s’intéresser à la propriété foncière.
La méthode repose sur le choix de l'idpersonne
(identifiant de personne départementalisé
MAJIC3) comme variable unique pour identifier sur la
version
originale des Fichiers Fonciers les individus uniques. L’hypothèse d’identification repose sur le fait
que cet identifiant est associé à une seule personne dans un même millésime. Les personnes
uniques changeant
d’idpersonne
au cours du temps ne posent pas de problème car on considère qu’elles
conservent le même état civil au cours du temps. On suppose que les erreurs, qui correspondraient à un
identifiant personnel unique idprodroit
définissant différents idpersonne
dans le temps, sont
négligeables.
L'état civil est défini par l’ensemble des variables suivantes :
Ainsi, le nouvel identifiant unique propriétaire produira un identifiant erroné si une personne possède le même nom, le même prénom et la même date de naissance, ce qui nous semble être négligeable.
Puisque l’identifiant actuel idpersonne
, identifie par hypothèse une personne unique (là où
en revanche une personne unique peut avoir plusieurs idpersonne
), nous allons assigner un
état civil
unique dans le temps à chaque idpersonne.
Pour ce faire, nous sélectionnons les idpersonne
disponibles pour le millésime 2020, ainsi
que les états
civils correspondants. Puis, nous sélectionnons les idpersonne
non présents dans le
millésime 2020 mais
disponibles dans le millésime 2019, ainsi que les états civils associés. Nous répétons cette procédure
jusqu’à l’année 2011 pour obtenir une table contenant l'ensemble des identifiants présents dans au moins
un millésime.
Note : nous prenons en compte le changement de nom de variable pour le nom de naissance sur la période 2011–2014. Pour les propriétaires moraux, on remplace l’état civil par le numéro de SIREN.
Cette manière de procéder a deux avantages majeurs :
idpersonne
actif
sur la période 2011–2020 (plutôt que chaque compte idpersonne
par année).On obtient donc à l'issue de cette étape une table unique de correspondance entre idpersonne
et l’état civil (ou le numéro SIREN).
À partir de cette table unique de correspondance, on commence le travail de construction d’identifiant unique. Toutefois, nous imposons une troncature sur les états civils afin de traiter les potentiels erreurs de typographie, la présence (ou non) des deuxièmes prénoms, etc. On augmente ainsi la probabilité d’assigner un identifiant unique à deux propriétaires différents, mais ainsi on diminue la probabilité d’avoir un propriétaire avec plusieurs identifiants uniques. Ce choix s’appuie sur des tests de différents identifiants uniques (menés sur l’échantillon complet), proposant 12 versions. Les choix retenus sont les suivants :
LEI
demeure LEI
, BOCQUET
demeure
BOCQUET
alors que BOCQUET-LEI
devient BOCQUET
).
Toutefois, une attention est portée sur les particules. Ainsi, si la première partie du nom contient
deux
lettres, nous prenons la seconde partie si celle-ci existe. Dans le cas où il n’y a qu’une chaîne de
caractères, on conserve la première partie. Ainsi LE-BOCQUET
devient
BOCQUET
alors
que LE
demeure LE
,
L’identifiant concatène ces informations pour former une chaîne de caractères unique pour chaque propriétaire unique. Les tests réalisés sur les personnes ayant un état civil complet est négligeable (taux d’erreur potentiel inférieur à 0,01 %).
Toutefois, la méthode est mise en difficulté lorsque les états civils ne sont pas complets. Compte tenu
des
variables sélectionnées, cela représente 1 % des identifiants personnes retenus. On appelle "erreur"
une
absence
de nom ou prénom, ou une date de naissance non standard (type 00/12/1987
). On remarque
aussi
des
dates avec un
nombre anormal d’observations tels que 01/01/1850
et 01/01/1900
. Pour ces
observations, le risque d’introduire
des erreurs (un identifiant pour 100 personnes par exemple) étant accru, nous choisissons de conserver
l’identifiant actuel idpersonne
comme identifiant unique. Ce choix permet d'éviter la
constitution de patrimoines artificiellement importants (un identifiant pour 100 propriétaires par
exemple), mais démultiplie le nombre de propriétaires potentiels pour un seul propriétaire avec un état
civil incomplet.
Une fois obtenu cet identifiant unique, nous passons à la phase d’anonymisation. Dans notre cas, nous générons un nombre entier aléatoire. Des processus plus robustes (fonction de hachage) peuvent par ailleurs être adoptés.
De
cette étape, il ressort une table idpersonne
– id_ano
avec un
id_ano
invariant dans le temps.
La dernière étape constitue en une jointure entre cette table et les idprodroit
pour chaque
millésime
et
obtenir des tables
idprodroit
– id_ano
annuelles.
Sur la base de cet identifiant, nous récupérons l’ensemble des communes de résidence associées à l’identifiant national propriétaire. On obtient ainsi pour chaque année, une liste des communes de résidence potentielles.
Dans la majorité des cas (plus de 95 %), le résultat renvoie une seule commune de résidence, ce qui contribue à la crédibilité de l’identifiant national.
Dans le cas où les correspondances sont multiples, on fiabilise
l’information par une approche multi-millésime. Ainsi, si on observe plusieurs correspondances pour
l'année n
mais une seule pour l'année n + 1
, on conserve cette commune pour
l’année n
. Dans les cas
marginaux où la multiplicité perdure, on choisit une commune et on conserve celle-ci sur l’ensemble des
millésimes concernés.