Retour sur le webinaire consacré aux DPE et données prédictives (18/12/2024)

Vous étiez plus de 350 inscrits au Webinaire de présentation de l’ONB+ ce mercredi 18 décembre 2024. Retour en vidéo sur ce temps de présentation, d’échanges et sur votre participation active.

Vidéo

Contexte du webinaire

Le Diagnostic de Performance Énergétique (DPE) est devenu un enjeu central pour les propriétaires et investisseurs. Avec l’entrée en vigueur des restrictions sur la location des passoires thermiques, il est crucial de maîtriser les subtilités de ces informations et comprendre comment la donnée peut accompagner ces enjeux.

:point_right: Mais comment exploiter ces données pour anticiper efficacement ? Quelle fiabilité leur accorder ?

Dans un monde où l’IA façonne de plus en plus notre quotidien, nombreux sont les acteurs qui vantent la performance de leurs modèles. Pourtant, peu d’entre eux partagent ouvertement les détails de leurs modèles prédictifs ou la validité scientifique des méthodologies employées.

Stop aux arguments sans fondement ! Chez U.R.B.S, nous avons toujours fait le choix de la rigueur scientifique, de la validation par les pairs, et d’une démarche qui se veut intègre et robuste.

:books: Notre approche s’appuie sur des travaux validés et publiés :

:point_right: Programme de recherche avec l’École des Mines de Saint-Etienne (Institut Mines Telecom) depuis 2016

:point_right: Publications scientifiques reconnues et évaluées par des pairs :

Article 1 : Enhancing buildings' energy efficiency prediction through advanced data fusion and fuzzy classification - Archive ouverte HAL

Article 2 : Predicting missing Energy Performance Certificates: Spatial interpolation of mixture distributions - Archive ouverte HAL

:bulb: Ce qui nous différencie véritablement :

Nos algorithmes ne se limitent pas à prédire les DPE : ils reconstruisent également les sources d’énergie et les types de chauffage des bâtiments non diagnostiqués (90% des adresses avec des données manquantes), offrant ainsi une visibilité complète sur l’ensemble du parc immobilier français (99-100% d’adresses qualifiées).

Ces méthodologies ne sont pas de simples « boîtes noires » : elles sont publiées, validées et documentées garantissant une transparence totale à nos utilisateurs et partenaires. :white_check_mark:

Vos questions

De nombreuses questions ont été posées au cours du webinaire. Nous les avons récapitulées, classées par thématique, et avons complété les réponses apportées lors des échanges oraux.

:left_speech_bubble: Bonjour, Est il possible de procéder à des exports de jeux de données à différents pas de temps dans une logique d’observatoire?

Oui, dans le cadre d’un accompagnement ONB+ Territoire (sur une ou plusieurs années), nous fournissons une base de données complète et actualisée à plusieurs pas de temps. Cette base est conçue pour alimenter les observatoires locaux ou existants.

Pour plus d’informations, vous pouvez consulter le lien suivant : Quelles différences entre ONB, ONB+ et ONB+ Territoire ?

En tant que tiers bénéficiaires, nous avons également la possibilité d’inclure et de travailler sur des données soumises à convention (fichiers fonciers, RNIC, etc.). Ces données permettent de caractériser précisément des éléments tels que l’occupation, les propriétaires, le parc dégradé, les surfaces, les taux d’impayés, et bien plus encore.

N’hésitez pas à nous contacter pour que nous puissions répondre plus précisément à vos besoins : contact@urbs.fr

Questions sur les DPE

:left_speech_bubble: L’appariement à l’adresse des DPE est aussi lié à l’identifiant BAN directement disponible dans les fichiers XML envoyés à l’ADEME. Ces données ne sont pas exploitables ?

En effet. Toutefois, à notre connaissance, les adresses des DPE dans la base ADEME ne font pas l’objet d’un nettoyage préalable. Cela peut donc impacter la qualité du lien avec la BAN.

C’est pourquoi nous n’utilisons pas directement le lien fourni par la BAN. Nous restructurons les adresses et régénérons un lien avec la BAN après un processus de standardisation et de redressement. Ce lien peut donc différer du lien initial.

Nos études comparatives montrent néanmoins une nette amélioration de la qualité et de la fiabilité des appariements grâce à notre processus en amont.

:left_speech_bubble: Vous prédisez les DPE logements uniquement ou tertiaire également ?

Pour le moment, nous réalisons uniquement des prédictions pour les DPE logements. Les DPE tertiaires ne sont donc pas produits à ce stade.

Comme vous le constaterez dans la présentation, nos prédictions se basent sur les données existantes. Il est également important de noter que, pour le tertiaire, la base des DPE disponibles est significativement plus réduite que celle du résidentiel, ce qui peut limiter les possibilités de modélisation dans ce domaine.

Pour en savoir + : IMOPE tertiaire, base de données du parc bâti tertiaire

:left_speech_bubble: Dans la base des DPE, comment traitez vous les DPE manifestement faux pour entrainer vos modèles?

Tous les DPE ne sont pas sélectionnés pour alimenter le modèle. Notamment, les outliers sont écartés afin de limiter les biais dans les prédictions.

Cela dit, la notion de « manifestement faux » mériterait d’être discutée pour élaborer une méthode consensuelle et rigoureuse de détection. Il convient également de rappeler que les DPE sont opposables et, dès qu’ils sont remontés à l’ADEME, ils deviennent la valeur officielle de référence.

:left_speech_bubble: Est-ce que le poids des variables utilisées pour prédire les DPE est par ordre de priorité ?

Les poids présentés dans la slide précédente sont donnés à titre d’exemple. Toutefois, le modèle classe effectivement les variables par ordre d’importance, cette importance étant notamment représentée par les poids attribués.

Il est important de noter que les variables sélectionnées et leurs poids peuvent varier en fonction des régions françaises. Ainsi, le modèle est adapté aux spécificités des différents territoires afin d’atteindre un maximum de fiabilité.

:left_speech_bubble: Dans votre méthode prédictive, vous n’avez pas accès à la consommation des logements qui permettrait d’être au plus juste? En effet, si un logement proche a fait l’objet d’un DPE récent avec une bonne valeur de DPE alors que le logement d’à côté est à l’abandon, on va l’estimer à bonne car le plus proche voisin est bon.

Les données de consommations réelles ne sont malheureusement pas accessibles pour tous les bâtiments en France. Dans le secteur résidentiel, par exemple, il est nécessaire de disposer d’au moins 9 Points de Livraison (PDL) pour obtenir des données réelles de consommation. Par conséquent, seules les structures de logement collectif peuvent bénéficier d’un apprentissage basé sur ces données.

Par ailleurs, le concept de « plus proche voisin » dans le modèle ne repose pas uniquement sur une proximité géographique. Par exemple, si un bien est abandonné, il sera probablement classé comme vacant et/ou associé à un mauvais indice d’insalubrité. Le modèle est conçu pour détecter ces différences et ajuster les prédictions en conséquence.

:left_speech_bubble: Le DPE qualifie une utilisation standardisée. La consommation réelle n’est plus prise en compte avec 3CL.

En effet, nous prédisons une étiquette DPE (accompagnée des valeurs associées pour l’énergie et les GES) basée sur les données des DPE existants. Par conséquent, notre modèle retranscrit intrinsèquement une valeur issue d’une utilisation standardisée, conformément aux méthodologies des DPE.

:left_speech_bubble: Dans votre modèle DPE IA, vous donnez toujours une note quelque soit votre taux de confiance, ou bien avez vous une catégorie « non prédis »? Donnez vous le taux de confiance pour une prédiction donnée?

Le modèle prédit une probabilité d’appartenance à chacune des étiquettes (A à G). L’étiquette ayant la probabilité la plus élevée est considérée comme la plus représentative de l’adresse étudiée.

Pour chaque prédiction, nous fournissons également ce degré d’appartenance, permettant une meilleure compréhension de la précision et de la fiabilité des résultats.

:left_speech_bubble: Pour les DPE « Faux » on voit bien des erreurs dans les données remontées (des sommes qui ne se font pas, des incohérences si on relance les calculs en sens inverse avec les mêmes paramètres d’entrées en respectant la méthode 3CL etc.)

En effet, l’analyse de certains DPE peut révéler des incohérences. Le développement de modèles d’analyse spécifiques permettrait de détecter la « qualité » des DPE, ce qui serait bénéfique pour nos modèles. Cela permettrait notamment de sélectionner les DPE les plus qualitatifs, améliorant ainsi la fiabilité des prédictions.

:left_speech_bubble: Comment les rénovations énergétiques sont elles prises en compte ?

À ce jour, il n’existe pas de base de données publiques recensant la réalisation de rénovations pour un logement, ni le détail de ces rénovations.

L’accès à ce type de données serait particulièrement pertinent, notamment pour améliorer l’efficacité et la précision de notre modèle prédictif.

:left_speech_bubble: Les consommations réelles à l’adresse pour le gaz sont quand même très utiles pour identifier les chaudières collectives (=mode de chauffage)…

Oui, la consommation réelle d’énergie, comme celle du gaz, pourrait être utilisée comme un paramètre pour détecter la présence d’une chaudière collective.

:left_speech_bubble: Est ce que l’épaisseur des murs est prise en compte maintenant entre un murs de 10cm et un murs de 60 - 80 cm ?

L’épaisseur des murs n’est pas une donnée disponible à grande échelle. Cependant, deux bâtiments qui présentent des similitudes importantes selon les variables mentionnées peuvent être considérés comme proches sur le plan structurel.

:left_speech_bubble: prévoyez-vous également un appariement avec les données des Audits 3CL publiés sur l’ADEME ?

Oui, cela est prévu à terme.

API

:left_speech_bubble: Peut-on lancer un requête par API qui correspond à ce qui a été présenté en interactif ?

Oui, depuis notre API+. Cependant, à ce jour, seule la table de référence (les adresses) est interrogeable. En d’autres termes, vous ne pouvez pas consulter la liste complète ou l’historique de tous les DPE associés à une adresse donnée. Seuls le DPE de référence existant ou le DPE prédit sont accessibles : https://app.urbs.fr/resources/api-doc/abstract

N’hésitez pas à nous contacter pour accéder au catalogue complet de l’API et pour préciser vos besoins : contact@urbs.fr

Le catalogue de données complet IMOPE est disponible ici : Data - U.R.B.S

Généralités sur la base de données IMOPE

:left_speech_bubble: Tous les indicateurs de l’ONB+ sont-ils disponibles en opendata ?

La base disponible en open data ne représente qu’une partie de notre base de données. La base IMOPE est en réalité bien plus riche que ce qui est accessible sur Data.gouv.

Les données inédites (enrichies et prédites) sont disponibles dans les services augmentés proposés par U.R.B.S. (ONB+, ONB+ Territoire, API+, extraction sur mesure/études).

Le catalogue complet des données IMOPE est accessible ici : https://www.urbs.fr/data.

:left_speech_bubble: Sur quelles données s’appuie votre géocodeur d’adresse?

Nous utilisons la BAN/BAL pour les appariements et, lorsque cela n’est pas possible, un appariement géospatial. Toutefois, avant de recourir à la BAN/BAL, nous appliquons un processus rigoureux de standardisation et de redressement des adresses.

Ce procédé nous permet d’associer, en moyenne, 20 à 30 % de données supplémentaires (selon les bases) par rapport à nos confrères, tout en améliorant significativement la fiabilité des appariements.

:left_speech_bubble: Est-ce que ce nettoyage d’adresse est disponible dans la version gratuite de l’ONB ?

Les appariements qui permettent de relier les données open disponibles dans l’ONB bénéficient de ce processus de nettoyage. Ainsi, les adresses présentes dans l’ONB sont systématiquement « nettoyées » et standardisées.

:left_speech_bubble: Quelles sont les données socio démographiques présentent dans les filtres ?

Il s’agit de données carroyées fournies par l’INSEE, incluant : la part des individus de plus de 65 ans, la part des ménages pauvres et le revenu moyen des individus.

À noter que nous travaillons actuellement sur la modélisation de données plus précises, à l’échelle de l’adresse, sur ces thématiques.

:left_speech_bubble: Quelles sont les sources de données utilisées pour :
- La date de construction de logement ,
- Le type de chauffage principal utilisé ?

Pour consulter la méthodologie complète relative aux années de construction, vous pouvez vous référer à cette fiche : https://app.urbs.fr/docs/annee-de-construction.pdf.

De même, voici le lien vers la fiche méthodologique sur les sources de chauffage : https://app.urbs.fr/docs/energie-chauffage.pdf.

:left_speech_bubble: En tant que bailleur social, nous avons notre base de données patrimoniales. Comment lier nos données avec celles de l’ONB ? On s’est posé la question pour GORENOVE. Il nous faudrait une table de correspondance avec les identifiants bâtiment

La liaison peut être effectuée via les différents identifiants de référence, à condition qu’ils soient inclus dans vos données : identifiant BAN et, très prochainement, identifiant RNB.

En complément, IMOPE (multi-objets) intègre également différents objets géographiques et cadastraux. Cela permet de renforcer la robustesse des liaisons en prenant en compte le parcellaire, l’unité foncière, etc.

Nous travaillons notamment sur une table propriété afin de mieux gérer les spécificités des résidences situées sur plusieurs parcelles ou adresses. Cependant, comme le souligne Valentin, l’échelle élémentaire de l’adresse reste celle qui offre les liaisons les plus fines possibles. Tous les identifiants officiels sont conservés dans la base de données.

À noter que notre granularité de référence est celle de l’adresse. Vous trouverez davantage de précisions sur ce sujet sur notre forum : Granularité des données.

:left_speech_bubble: A qui adresser notre liste d’adresses postales pour obtenir les identifiants bâtiment ?

Vous pouvez nous contacter à l’adresse suivante : contact@urbs.fr