Process d'appariement d'adresses

Pour construire la base IMOPE, URBS analyse, fusionne et redresse plus de 80 sources de données différentes. Une étape clé dans ce processus est celle de l’appariement des adresses des différentes bases. C’est le point d’entrée pour construire le référentiel de données unifié à l’adresse qu’est IMOPE.

Les référentiels adresses

U.R.B.S construit sa propre base d’adresses. Celle-ci repose sur plusieurs référentiels d’adresses reconnus et qualifiés : les fichiers fonciers, lesquels constituent notre principal référentiel ; la base adresse nationale (BAN), en tant que référentiel secondaire ; et la base de l’autorité de régulation des communications électroniques, des postes et de la distribution de la presse (ARCEP) en tant que référentiel tertiaire.

Grâce à ces trois référentiels, et au process de standardisation des adresses décrit ci-après, la base d’adresses construite par U.R.B.S. comprend 29 300 692 adresses là où par exemple la BAN n’en recense qu’un peu plus de 26 millions.

Les sources de données appariées

Parmi les sources de données que nous utilisons pour construire la base IMOPE, plusieurs sources font l’objet d’un appariement à l’adresse. On a notamment :

  • DVF, demande de Valeur Foncière
  • DPE, Diagnostic de Performance Energétique
  • SITADEL, Système d’Information et de Traitement Automatisé des Données Elémentaires sur les Logements et les locaux
  • RPLS, Répertoire des Logements Sociaux
  • Fichiers des Personnes Morales
  • RNIC, Registre National d’Immatriculation des Copropriétés
  • SIRENE, Système national d’identification et du répertoire des entreprises et de leurs établissements
  • Electricité, Données locales de consommation d’électricité
  • Gaz, Données locales de consommation de gaz
  • Chaleur urbaine, Données locales de consommation de chaleur urbaine
  • Annuaires du tertiaires (7 annuaires de d’administrations)
  • Données locales fournies par les territoires. N’hésitez pas à nous contacter à l’adresse contact@urbs.fr si vous êtes intéressés par cette prestation.

Le process étape par étape

Le process d’appariement se décompose en cinq étapes : la création du référentiel adresse, le nettoyage, la standardisation des adresses, l’appariement BAN - bases sources, l’appariement référentiel adresse - bases sources.

Création du référentiel adresses

Création de la liste d’adresses

Le référentiel adresses sur lequel s’appuie la base IMOPE est construit à partir de trois autres référentiels adresses. Nous commençons par récupérer la totalité des couples uniques adresse/parcelle présents dans la table local des fichiers fonciers. De cette manière, il est possible qu’une même adresse soit associée à plusieurs parcelles différentes. Elle apparaitra sous la forme de plusieurs lignes dans notre référentiel adresse.

Nous récupérons ensuite de nouvelles adresses via la BAN selon deux contraintes : le ban_id ne doit pas être présent dans la table des locaux des fichiers fonciers et l’adresse standardisée obtenue à partir de la BAN ne doit également pas être présent dans la table des locaux des fichiers fonciers.

Définition de la géométrie

Enfin, nous utilisons la base ARCEP afin de récupérer les géométries du point d’adresse. Bien que la BAN et les FF aient aussi des informations de géométries, nous considérons que celles contenues dans la base ARCEP sont plus précises. Généralement, les points adresses sont localisés à l’intérieur des bâtiments auxquels ils se rapportent ce qui facilite aussi la compréhension de l’information (plutôt qu’un point sur la rue ou au bout de celle-ci). Si aucune géométrie n’a été trouvée dans la base ARCEP, nous utilisons ensuite celles de la BAN puis celles des fichiers fonciers.

En résumé

Le référentiel adresses produit par URBS est construit à partir des Fichiers Fonciers desquels nous récupérons 24 475 112 adresses (chiffres pour le millésime 2025) et à partir de la BAN de laquelle nous récupérons 4 807 727 adresse. Les géométries utilisées sont celles de la base ARCEP, puis à défaut les géométries de la BAN et enfin si toujours manquantes les géométries des fichiers fonciers.

Nettoyage

Chacune des adresses traitées dans notre process doit faire l’objet d’un nettoyage et d’une identification de ses différentes composantes :

  • Récupération du code postal sur 5 caractères
  • Récupération du commune INSEE et/ou du nom de commune
  • Récupération des numéros de l’adresse
  • Suppression des informations supplémentaires comme l’identifiant du bâtiment ou le nom de la copropriété. Cette suppression se fait grâce à l’identification de « pattern » via des expressions régulières établissant des règles. Par exemple on supprime les groupes de chiffres de plus de 5 caractères en début d’adresse.
  • Suppression des doublons d’informations dans les champs d’adressage
  • Extraction de l’information sur le type de voies en utilisant notamment la base FANTOIR pour décoder les noms de voies abrégées dans les fichiers fonciers.

Standardisation des adresses

La standardisation des adresses vise à faire parler les adresses entre elles afin qu’il y ait le moins de bruit possible lors de l’appariement sémantique. Pour se faire, nous déployons la méthodologie suivante :

  • Standardisation du numéro de voies sur 4 chiffres ;
  • Standardisation des compléments (bis, ter, etc.) en b, t, etc.
  • Standardisation des types de voie en type plus court en utilisant notamment les types de voies de la base FANTOIR
  • Standardisation certains noms de voies qui dans l’usage sont raccourcis. Par exemple : « Docteur », « Général », « Maréchal », etc.
  • Suppression des déterminants « des », « le », « la », « de », « du », « d’ », etc qui dans l’usage sont parfois oubliés.

Appariement BAN - bases sources

L’étape suivante consiste à réaliser un appariement des différentes bases sources avec la BAN. L’objectif de cette étape est de récupérer les « ban_id ». Ceux-ci sont ensuite utilisés dans l’étape suivante afin de fiabiliser l’appariement entre les différentes bases sources et notre référentiel d’adresses.

Appariement référentiel adresses - bases sources

Enfin, l’étape finale est celle de l’appariement entre notre référentiel d’adresses et les différentes bases de données à apparier. Pour cet étape, on doit avoir récupéré l’identifiant de la commune, lequel constitue une donnée indispensable à l’appariement.

Pour une bonne précision de l’appariement, on doit également connaître le numéro de voie, l’éventuel complément d’adresse, le type de voie et le nom. On peut aussi utiliser l’identifiant BAN, l’identifiant parcelle, même si ces variables se révèlent moins précises. En priorité, on cherche donc à réaliser l’appariement en utilisant les informations textuels (numéro de voie, type de voie, nom). Si ces informations sont incomplètes ou ne permettent pas un appariement, on utilise ensuite les « BAN_id » récupérés à l’étape précédente.

Enfin, et pour tenir compte d’éventuelles erreurs de saisie, on permet au process d’appariement de permuter des caractères (2 permutations sont permises).

Foire aux questions

Sur quelles données s’appuie votre géocodeur d’adresse ?

:gear: Réponse, en bref

Nous utilisons la BAN/BAL pour les appariements et, lorsque cela n’est pas possible, un appariement géospatial. Toutefois, avant de recourir à la BAN/BAL, nous appliquons un processus rigoureux de standardisation et de redressement des adresses.

Ce procédé nous permet d’associer, en moyenne, 20 à 30 % de données supplémentaires (selon les bases) par rapport à nos confrères, tout en améliorant significativement la fiabilité des appariements.

Est-ce que ce nettoyage d’adresse est disponible dans la version gratuite de l’ONB ?

:gear: Réponse, en bref

Les appariements qui permettent de relier les données open disponibles dans l’ONB bénéficient de ce processus de nettoyage. Ainsi, les adresses présentes dans l’ONB sont systématiquement « nettoyées » et standardisées.