République
Française
Documentation Datafoncier
Toutes les ressources sur les données foncières
Bien démarrer avec DV3F
Ce guide a pour objectifs :
Elles contiennent de véritables bases pour débuter avec DVF+/DV3F.
Ce guide a été rédigé par Magali Journet, Antoine Herman et Olivier Dussart (Cerema).
Dernière mise à jour : juin 2021
Tous les contenus proposés sont sous licence Creative Commons CC-BY-NC-SA.
DVF est une base de données fiscale produite par la Direction Générale des Finances Publiques (DGFiP). Elle permet l’obtention gratuite des données présentant les valeurs foncères de l’ensemble des transactions immobilières et foncières à titre onéreux des 5 dernières années ainsi que de certaines de leurs caractéristiques :
Depuis avril 2019 et suite au décret du 28 décembre 2018 relatif à la publication des informations portant sur les valeurs foncières, les données DVF ont été ouvertes à l'ensemble du public. Les données sources sont disponibles sur le site data.gouv.fr. Les différentes évolutions législatives liées à la mise à disposition gratuite des données sur les transactions immobilières s'inscrivent dans une démarche croissante de l’administration française au service d'une meilleure transparence des marchés et d’une meilleure gestion des territoires.
En terme de périmètre géographique, DVF est disponible pour la France métropolitaine, hors Alsace et Moselle, ainsi que les DROM, excepté Mayotte.
(source GnDVF)
DVF est constituée à partir de 2 sources de données fiscales produites par la DGFiP.
Le traitement DVF récupère, à la fois, des informations renseignées par les services de la publicité foncière dans la base de données FIDJI (Fichier Informatisé des Données Juridiques Immobilières) et des informations issues de la base de données MAJIC (Mise à Jour des Informations Cadastrales) pour produire des fichiers actualisés et accessibles à un rythme semestriel.
DVF regroupe toutes les mutations onéreuses en France, hors Alsace, Moselle, Mayotte à trois exceptions :
La donnée DVF livrée se présente sous la forme de fichiers textes, encodés en UTF-8, lisibles sous différentes éditeurs de textes ou tableurs.
Les différentes lignes de ces fichiers sont composées de 43 champs séparées par le caractère "|". Elles décrivent tout ou partie des éléments d'information d'une transaction immobilière (ou mutation).
A noter que les données DVF ouvertes et les données DVF "historiques" (avant la mise en open-data) sont structurées de la même manière mais certains champs ont été masqués (cf tableau ci-après).
L'illustration ci-dessous présente un échantillon d'un fichier source DVF :
Les 43 champs présents dans DVF sont les suivants :
Libellé | Exemple | Observation |
---|---|---|
Code du service CH | 5914P01 | masquée depuis l’ouverture publique de la donnée |
Référence document | 2009P00999 | masquée depuis l’ouverture publique de la donnée |
1er Article CGI | 1594D*1 | masquée depuis l’ouverture publique de la donnée |
2e Article CGI | 257-7-1*2 | masquée depuis l’ouverture publique de la donnée |
3e Article CGI | masquée depuis l’ouverture publique de la donnée | |
4e Article CGI | masquée depuis l’ouverture publique de la donnée | |
5e Article CGI | masquée depuis l’ouverture publique de la donnée | |
Numéro de disposition | ||
Date de mutation | 16/01/2010 | |
Nature de mutation | Vente | |
Valeur foncière | 200 000 € | |
Numéro de voie | 01 | |
B/T/Q | T | |
Type de voie | Rue | |
Code voie | 4242 | |
Voie | Jean Jaures | |
Code postal | 59000 | |
Commune | LILLE | |
Code du département | 59 | |
Code de la commune | 350 | |
Préfixe de section | 298 | |
Section | AB | |
Numéro de plan | 100 | |
Numéro de volume | - | |
1er lot | - | |
Surface Carrez 1er lot | - | |
2e lot | - | |
Surface Carrez 2e lot | - | |
3e lot | - | |
Surface Carrez 3e lot | - | |
4e lot | - | |
Surface Carrez 4e lot | - | |
5e lot | - | |
Surface Carrez 5e lot | - | |
Nombre de lots | - | |
Code du type de local | 2 | |
Type du local | Maison | |
Identifiant du local | 999999 | masquée depuis l’ouverture publique de la donnée |
Surface réelle bâti | 88 | |
Nombre pièces princ | 4 | |
Nature de culture | S | |
Nature de culture spéc. | ||
Surface de terrain | 140 |
Les données DVF présentent plusieurs atouts. Elles sont :
Les données DVF présentent toutefois quelques limites :
La mise en place de modèles de données tels que DVF+ et DV3F cherchent à repousser ces limites en proposant notamment une structuration et un enrichissement de la donnée source.
Les travaux autour de la création d’un modèle permettant de faciliter le passage des données DGFiP, « Demande de valeurs foncières » (DVF), en base de données aisément exploitable s’inscrivent dans un processus qui a débuté en 2011 à l’initiative d’un groupe technique lancé par l’ADEF, aujourd'hui devenu le Groupe National DVF (GnDVF).
Ce groupe a associé, dès 2013, le CETE Nord-Picardie (aujourd’hui Direction Hauts-de-France du Cerema) afin de produire un modèle de données pour l’import des données natives de DVF partagé.
Le Cerema a ensuite travaillé, pour le compte de la DGALN, à étoffer ce modèle en y ajoutant de nouvelles variables au sein d’un premier modèle, baptisé DVF+.
Aujourd'hui, et depuis l'ouverture des données DVF en 2019, le Cerema et la DGALN mettent à disposition les données DVF préparées sous ce modèle DVF+. Ces données sont téléchargeables sur le site Datafoncier.
Les données DVF brutes fournies par la DGFiP sont livrées sous un format texte lisible depuis un éditeur de texte ou un tableur classique. Chaque ligne du fichier source est souvent une décomposition partielle d'une vente et comporte 43 champs qui mélangent des informations liées à différentes notions fiscales. Il devient très vite difficile de travailler à une analyse sérieuse à partir d'un tel fichier.
La mise en place d'une structuration de la donnée est vite nécessaire pour travailler efficacement sur cette donnée et l'enrichir plus aisément.
En terme de structuration de la donnée initiale, chaque table du modèle partagé DVF+ représente une unique notion de DVF à laquelle sont affectées les données qui y sont directement liées. Cette structuration permet de supprimer les données dupliquées et de mettre en place des liaisons plutôt intuitives entre les tables.
Par ailleurs, le modèle DVF+ ajoute, à une donnée d'origine fiscale, des variables issues de ces même données mais transformées ou agrégées pour permettre une exploitation plus aisée pour l'observation foncière et immobilière.
Dans la version DVF+ - open-data proposée depuis l'ouverture des données d'avril 2019, différents champs géométriques issus du PCI Vecteur sont également intégrés pour offrir une base de données géolocalisée.
Le modèle DVF+ est composé de 12 tables (dont 3 principales) et de 5 tables annexes.
Les 12 tables principales ou secondaires sont les suivantes :
Nom de la table | Description |
---|---|
mutation | Table des mutations |
mutation_art_cgi | Table des articles du code général des impôts attachés à la mutation |
disposition | Table des dispositions |
disposition_parcelle | Table des parcelles attachées à la disposition |
parcelle | Table des parcelles |
local | Table des locaux |
suf | Table des subdivisions fiscales |
volume | Table des volumes |
lot | Table des lots |
adresse | Table des adresses |
adresse_dispoparc | Table de liaison entre la table adresse et la table disposition_parcelle |
adresse_local | Table de liaison entre la table adresse et la table local |
Les tables mutation, disposition_parcelle et local sont dites "principales" dans le sens où les principales variables ont y été recentrées afin de faciliter l'utilisation du modèle par des utilisateurs peu aguerris dans l'exploitation de bases de données. La grande majorité des analyses liées à l'observation foncière et immobilière peut être réalisée à partir des données issues de ces trois tables.
Les 5 tables annexes sont les suivantes :
Nom de la table | Description |
---|---|
ann_nature_mutation | Table contenant les natures de mutation |
ann_cgi | Table contenant les articles CGI |
ann_type_local | Table contenant les types de locaux |
ann_nature_culture | Table contenant les natures de culture |
ann_nature_culture_speciale | Table contenant les natures de culture spéciales |
Un schéma simplifié du modèle est présenté ci-dessous :
Plusieurs catégories de variables existent au sein de "DVF+":
Catégorie | Description | Exemples |
---|---|---|
Identifiants de clef primaire | Entiers ou chaînes de caractère permettant de désigner une et une seule entité d’une table. L’identifiant de clef primaire de la table apparait au début de chacune des tables. | idmutation, iddispo, iddispoloc, etc. |
Données brutes | Données provenant des données sources de la DGFiP et intégrées sans transformation dans le modèle. | refdoc, coddep, scarrez, etc. |
Données brutes transformées | Données provenant des données sources de la DGFiP et intégrées sous une forme transformée (par concaténation, découpage, etc.). | anneemut, idpar, idloc, etc. |
Données calculées et/ou agrégées | Données issues de calculs (mathématique, conditionnel, etc.) ou d’agrégations effectués à partir d’autres données du modèle. | vefa, nbsufidt, dcnt01, nbparmut, etc. |
Chacune des variables du modèle DVF+ est calculée uniquement à partir des données brutes de DVF, ces dernières étant d'ailleurs intégralement restituées par le modèle. Il n’y a pas de données exogènes à ce stade. Les variables calculées visent à pouvoir s’appliquer sur l’ensemble du territoire et à relever d’une méthodologie ne pouvant être remise en cause.
Ces variables restent plutôt intitutives pour correspondre à des éléments d’analyse représentatifs des besoins courants des utilisateurs. Elle permettent, à la fois, d’effectuer rapidement des calculs d’indicateurs mais aussi d’aboutir à la mise en œuvre de méthodologies locales ou nationales plus complexes (ex: typologie de bien).
Quelques règles syntaxiques ont été mises en place sur les variables pour donner quelques repères à l'utilisateur :
Si la variable commence par... | Alors il s'agit d'un(e)... |
---|---|
id | identifiant |
cod | code (postal, insee, etc...) |
s | surface |
nb | denombrement |
l_ | liste (type array) |
lib | libellé |
A noter que toutes les variables comportent au maximum 10 caractères de manière à faciliter l'exportation au format shp.
A savoir qu'un guide d'accompagnement sur DVF, co-construit par une large communauté d'utilisateurs, existe. Il est disponible ou téléchargeable sur le site du Groupe national DVF.
Une littérature détaillée concernant les Fichiers fonciers est également disponible sur le site Datafoncier
Une fois le travail de structuration de la donnée accomplie avec le modèle DVF+, et toujours dans l'objectif de faciliter l'observation foncière et immobilière, la DGALN a demandé au Cerema d'engager un travail d'enrichissement de la donnée DVF à partir de données exogènes.
Ainsi, une étude expérimentale réalisée en 2015 et financée par l'EPF Nord Pas-de-Calais et la DGALN, a permis de mesurer la faisabilité d'un croisement de DVF avec les Fichiers fonciers. Les résultats de cette étude, très encourageants, ont posé les bases de la construction d'un modèle de données dit "DV3F", reproductible à l'échelle nationale, qui élargit fortement les possibilités d'analyse. Ce modèle de données est en développement depuis mi-2015.
Ce modèle de données DV3F permet désormais de produire et de diffuser une base de données nationale gratuite, actualisée au moins une fois par an, sans réel équivalent pour l'analyse des marchés fonciers et immobiliers. Il fait l'objet d'améliorations continues issues des différents retours d'expérience des utilisateurs et validées par un Comité Technique (COTECH).
Les conditions d'accès à DV3F sont, depuis 2020, communes à celles des Fichiers fonciers. La procédure d'obtention est décrite sur le site Datafoncier.
Le modèle DV3F a d'abord pour objectif d'enrichir la donnée source DVF avec les variables des Fichiers fonciers intéressantes pour l'observation. Cet enrichissement est possible par le lien évident qui existe entre ses deux sources de données d'origine fiscale ; en effet, la donnée DVF provient des bases de données FIDJI et MAJIC de la DGFiP tandis que les Fichiers fonciers proviennent quasi-exclusivement de MAJIC. Les identifiants des différents biens sont communs et facilitent les rapprochement.
Le principal frein à ses rapprochements réside dans le fait que les Fichiers fonciers font état d'un "stock" au 1er janvier de l'année tandis que les Demandes de Valeurs Foncières retranscrivent plutôt le "flux" des ventes.
Les caractéristiques des biens renseignés dans la donnée source DVF sont peu détaillées. Pour les locaux notamment, DVF fournit uniquement le type du local, la surface du bâti et le nombre de pièces principales.
Avec DV3F et les variables rapatriées des Fichiers fonciers, les informations sur les biens échangés sont plus précises et permettent ainsi d'aller plus loin dans la caractérisation de certains biens. A titre d'exemple, pour les locaux, DV3F permet d'obtenir l'année de construction, de préciser le nombre et les types de dépendance ou encore de mieux identifier l'usage des locaux.
Un des principaux intérêts de DV3F réside également dans la géolocalisation des données sources. L'apport de la géométrie parcellaire accroit fortement les potentiels d'usage : représentations cartographiques, croisements avec d'autres périmètres (PLU par exemple), requêtes géométriques variées, etc.
Les géométries proviennent d'un historique de parcelles constitué majoritairement à partir de différents millésimes de la BD Parcellaire (IGN) ainsi que du PCI Vecteur (ouvert au public). Cela permet, dans DV3F, de géolocaliser des parcelles qui auraient disparu à la suite d'une vente et ainsi d'obtenir des taux de géolocalisation très satisfaisants.
DV3F vise à pallier l'absence d'informations sur les acquéreurs et vendeurs dans DVF. En travaillant à partir de plusieurs millésimes des Fichiers fonciers, il est en effet possible de retrouver le propriétaire d'un bien avant et après une vente et ainsi d'en déduire le vendeur et l'acheteur.
Les informations sur les propriétaires pouvant être récupérées à partir des millésimes disponibles des Fichiers fonciers sont donc rapatriées dans DV3F et accompagnées d'une estimation de la fiabilité liée au rapatriement.
Ces informations sont désormais anonymisées pour les personnes physiques et morales (suite à l'évolution des CGU depuis l'ouverture de DVF). Des catégories d'acteurs sont néanmoins proposées pour permettre des analyses sur certains segments de marchés.
Les différents millésimes des Fichiers fonciers fournissent une information annuelle de l'évolution des biens sur le territoire. Ainsi, par les croisements avec les Fichiers fonciers, DV3F permet, lorsque le recul temporel est suffisant, d'identifier la destination des biens vendus. Ces éléments de contexte de la vente, observés a posteriori, apportent des informations précieuses pour certaines analyses (constructions ou démolition de locaux suite à la vente, aménagement de parcelles, stabilité, etc.).
Le modèle DV3F conserve la même structure et les mêmes variables que le modèle DVF+.
Les 2 évolutions par rapport à DVF+ sont liées à l'apport des Fichiers fonciers :
Le diagramme du modèle DV3F est accessible ici. Il décrit les champs des 18 tables du modèle et les relations entre elles.
Comme pour DVF+, la volonté est de concentrer les informations principales sur les tables principales mutation, disposition_parcelle et local qui comptent chacune plus d'une centaine de variables.
En plus des catégories de variables déjà présentes dans DVF+, trois autres catégories existent dans DV3F:
Catégorie | Description | Exemples |
---|---|---|
Données Fichiers fonciers | Données provenant directement des Fichiers fonciers | ffancst, ffshab, ffsterr, etc. |
Données de fiabilité | Indicateurs permettant de s'assurer de la qualité ou de l'exhaustivité d'un rapatriement de données issues des Fichiers fonciers | rapatffloc, fiabilitea, fiabmaxv, etc |
Données issues des croisements DVF/FF | Données qui ont pu être déterminées en rapprochant les informations DVF avec celle des Fichiers fonciers | anciennete, segmtab, etc. |
De nouvelles règles syntaxiques viennent également completer celles déjà existantes pour DVF+:
Si la variable commence par... | Alors il s'agit d'un(e)... |
---|---|
ff | donnée directement issue des Fichiers fonciers |
l_ff | liste (type array) de données issues des Fichiers fonciers |
Si la variable se termine par... | Alors il s'agit d'un(e)... |
---|---|
a | donnée liée à l'acheteur |
v | donnée liée au vendeur |
Chaque nouvelle version de DV3F intégre de nouvelles données sources DVF et/ou des nouveaux millésimes des Fichiers fonciers. Elle s'accompagne dun certain nombre d'évolutions (ajout d'indicateurs, amélioration de méthodologies, etc.). Il n'est donc pas nécessaire de conserver d'anciennes versions de DV3F et il est préférable de travailler avec la dernière version disponible.
Il est important de bien définir les limites temporelles pour le type d'observation que l'on souhaite réaliser. En particulier, lorque l'on effectue des analyses quantitatives (nombre de mutations ou volume de transactions, par exemple), il faut éviter de regarder l'évolution sur les derniers trimestres du fait des temps de latence liés à l'enregistrement des actes de vente et à leurs appartitions dans DVF.
Autre exemple, si l'on travaille sur les jeux d'acteurs dans DV3F, que l'on souhaite une bonne fiabilité et un taux de remplissage optimum sur les acheteurs/vendeurs, il sera préférable de travailler sur la période couverte par les Fichiers fonciers.
Le détail des différentes versions de DV3F produites est décrit dans Note des versions de DV3F