EMMA : Données socio-économiques à l'adresse

:bulb: En résumé :

Les données socio-économiques décrivent les caractéristiques des ménages. Dans la base de données IMOPE, deux types de données socio-économiques sont disponibles à l’adresse :

  • Les données socio-économiques carroyées issues de la base FILOSOFI produite par l’INSEE. Ces données carroyées sont directement imputées aux adresses des logements IMOPE présentes sous le carreau d’appartenance et ce par jointure spatiale. La donnée affichée à l’adresse représente une valeur moyenne statistique du carreau.

  • Les données socio-économiques EMMA prédites par U.R.B.S. Pour chaque adresse « logement » du territoire, un profil socio-économique représentant les caractéristiques des ménages est attribué. La base EMMA permet une descente d’échelle à l’adresse inégalée pour une finesse dans l’analyse des profils des habitants.

1. Méthodologie

1.1. Données carroyées FILOSOFI (approche statistique)

Les données carroyées FILOSOFI sont inférées à la maille du bâtiment et de l’adresse. En d’autres termes, chaque adresse et bâtiment a pour information l’indicateur correspondant à la zone dans laquelle la propriété bâtie se situe. Toutes les adresses appartenant au même carreau possèdent donc les mêmes informations et ce indépendamment des caractéristiques des logements.
Ainsi et par exemple, si des logements en copropriété et des logements sociaux appartiennent au même carreau, les informations socio-économiques attribuées à ces derniers seront les mêmes. L’approche basée sur les données carroyées est alors une représentation moyenne zonale des caractéristiques des ménages ce qui tend à uniformiser les informations au sein d’un même carreau.

1.2. Données socio-économiques prédites à l’adresse : EMMA

Dans la table annexe EMMA (Évaluation Modélisée des Ménages à l’Adresse) accessible dans la base IMOPE, les caractéristiques socio-économiques (profil des ménages) sont attibués à chaque logement de manière indépendante. L’attribution des caractéristiques socio-économiques à une maille plus fine permet de donner une dimension nouvelle à la connaissance du parc bâti et de venir concrètement en appui aux politiques publiques de l’habitat (notamment le aller/vers). Par exemple, cela permet d’affiner les stratégies de rénovation énergétique des bâtiments avec un ciblage en fonction de la structure de la population, du niveau de revenu, de la taille des ménages et du DPE.

a) Méthodologie

Afin de prédire les caractéristiques socio-économiques pour chacune des adresses avec logement d’habitation de la base IMOPE, nous nous fondons sur l’hypothèse selon laquelle il existe une corrélation significative entre les caractéristiques d’un logement et le profil des ménages qui l’occupe.

Connaissant les caractéristiques des ménages, on cherche donc à les associer à des logements dont on connait également les caractéristiques/spécificités. Pour se faire, nous nous appuyons notamment sur les deux bases de données suivantes :

  • La base de données IMOPE, développée par U.R.B.S et caractérisant de manière extrêmement fine et fiable le parc de locaux sous toutes ses dimensions (technique, énergétique, urbanistique, …) . Dans cette base les logements sont géolocalisés à l’adresse. Le millésime utilisé est le millésime 2025 de la base IMOPE.
  • La base des fichiers détails des logements de l’INSEE. Cette base décrit le parc de logement et y associe les caractéristiques socio-démographiques des ménages qui y habitent. Dans cette base, les logements sont décrits unitairement et sont nativement géolocalisés à l’échelle de l’IRIS. Dans la base EMMA, le millésime utilisé est le millésime INSEE 2021. Ce dernier étant le plus récent millésime disponible à date. A chaque évolution des données INSEE, la base EMMA sera mise à jour.

Process de prédiction des caractéristiques socio-économiques

Pour maximiser la qualité de nos prédictions, nous utilisons un indice permettant de calculer les similarités entre les logements issus des fichiers détails de l’INSEE et les locaux de la base IMOPE. Cette similitude est calculée sur une sélection de variables présentes dans les deux bases (IMOPE Vs INSEE) et parmi lesquelles nous pouvons citer la période constructive, la typologie de logement ou encore la classe de surface. Dans un second temps nous définissons une stratégie permettant d’optimiser les affectations. Dans le cas où plusieurs logements de la base INSEE sont affectés au même local de la base IMOPE, nous attribuons celui maximisant l’indice de similarité. Une fois l’affectation des logements réalisée et optimisée, les caractéristiques socio-économiques sont connectées à IMOPE et constituent la table annexe EMMA.

La table annexe EMMA concerne uniquement le périmètre suivant : logements d’habitation en résidence principale, non vacants, de type maison ou appartement.
À l’échelle de la France métropolitaine, la base EMMA caractérise ainsi 30 millions de logements sur un peu plus de 18 millions d’adresses.

b) Fiabilité

Afin de qualifier et valider le process de prédiction des attributs socio-économiques, différents indicateurs sont produits : l’indice de similarité, l’accuracy et la probabilité de bon choix.

- Indice de similarité

À l’adresse, l’indice de similarité est défini comme la moyenne des indices de similarité des locaux. Cet indice varie de 0 à 1. Si l’indice est égal à 1, alors les caractéristiques sont exactement les mêmes. À l’inverse, un indice de similarité plus bas, signifie un écart plus ou moins important entre les caractéristiques des logements INSEE et ceux des locaux IMOPE.
L’indice de similarité peut être considéré comme une mesure synthétique de la qualité de l’appariement entre les deux bases. À l’échelle nationale, l’indice de similarité moyen est de 0,94, soit une valeur de similarité extrêmement élevé

- Probabilité de bon choix

Nous avons souhaité définir un indicateur permettant de qualifier la pertinence des choix des caractéristiques socio-économiques dans le cas où plusieurs logements maximisent l’indice de similarité. Par exemple, dans le cas ou 2 logements INSEE sont attribués au même logement IMOPE et possèdent la même valeur de similarité. Deux cas peuvent alors se présenter :

  1. Les « candidats » possèdent le même indice de similarité ET les caractéristiques socio-économiques sont identiques. Dans ce cas la probabilité de faire le bon choix est très élevé.
  2. Les « candidats » possèdent le même indice de similarité ET une a plusieurs caractéristiques socio-économiques de ces candidats sont différentes. Dans ce cas la probabilité de faire le bon choix est plus faible.
    L’indicateur de « probabilité de bon choix » dépend donc du nombre de candidats et de la diversité des modalités des différents indicateurs socio-économiques de ces derniers.

La probabilité de bon choix se définie pour chaque local IMOPE comme l’inverse du nombre de logement INSEE candidats dont les caractéristiques socio-économiques diffèrent au moment de l’affectation.
La probabilité de bon choix selon les différents attributs se définie quant à elle pour chaque local IMOPE comme le produit de l’inverse du nombre de modalités différentes pour chaque attributs prédits.

Exemple de statistiques locales

- Accuracy

Nous avons pu réaliser des comparaisons issues du terrain entre nos prédictions et les données réelles constatées pour chaque adresse d’un territoire. Nous présentons ci-dessous les résultats « accuracy » obtenus sur l’attribut « âge des propriétaires » accessibles sur les territoires partenaires via les fichiers fonciers non anonymisés.

Cette étude conduite sur deux territoires partenaires (département de l’Isère et département des Pyrénées Atlantiques) se concentre sur le parc de locaux, non vacant, en logement principal, occupés par leur propriétaire et n’ayant pas muté depuis 2021 (dernier millésime des fichiers détail de l’INSEE disponible à date).

Les résultats sont les suivants :

La fiabilité à +/- une classe dépasse les 70% (Bonne réponse dans 7 cas sur 10). Soit un niveau de fiabilité jugé « bon ».

2. Limites

Pour les donnée socio-économiques issues des fichiers INSEE carroyés :

  • Il est important d’avoir en tête que ces données sont imputées depuis les carreaux INSEE. Il s’agit donc de moyennes et celles-ci peuvent masquer des situations particulières. Par exemple, une adresse à laquelle un niveau de revenus faible a été associé pourra en réalité héberger un ménage avec des revenus élevés.

Pour les données socio-économiques modélisées EMMA :

  • Pour un groupe de maison les prédictions s’avèrent, néanmoins à l’échelle individuelle des écarts pourront être constatés notamment dans le cadre de visite terrain et ce pour différentes raisons :
    • Il existe un décalage de millésime entre les données issues des fichiers détail de l’INSEE (actuellement millésime 2021, donc des données recensées entre 2019 et 2023) et les observations de terrain réalisées après.
    • Il peut s’agir d’un cas non modélisé par l’hypothèse principal du modèle. En effet notre hypothèse se base sur le principe que les caractéristiques des logements déterminent le profil du ménage. Cependant, lorsque nous avons des profils hétérogènes de ménages à affecter et au contraire des bâtiments homogènes, cette hypothèse n’est plus suffisante pour réaliser une bonne affectation des caractéristiques socio-économiques.
  • À l’inverse, les résultats sur les adresses avec beaucoup de logements sont bien plus robustes puisqu’ils réagrègent les données de plusieurs logements.

3. Variable(s) de la table EMMA

Six variables sont modélisées dans la table annexe EMMA de la base IMOPE :

  • Le nombre de personnes des ménages (5 modalités : 1, 2, 3, 4, 5 ou plus)
  • L’âge de la personne de référence du ménage (6 modalités : moins de 24 ans, 25-39 ans, 40-54 ans, 55-64 ans, 65-79 ans, plus de 80 ans)
  • Le statut d’activité de la personne de référence du ménage (6 modalités : emploi sans limite de durée, emploi avec limite de durée, emploi non salarié, retraité, chomeur, autre inactif)
  • Le statut conjugal du ménage (3 modalités : famille monoparentale, couple sans enfant, couple avec enfant)
  • Le nombre d’enfant(s) dans le ménage (3 modalités : 1 enfant, 2 enfants, 3 enfants ou plus)
  • Le nombre d’actif(s) dans le ménage (3 modalités : 1 actif, 2 actifs, 3 actifs ou plus)

Dans la table EMMA, chaque modalité fait l’objet d’une colonne et renseigne le nombre de logement de l’adresse concernée par la modalité.

4. Disponibilité dans les outils

Les données socio-économiques carroyées issues de l’INSEE sont des attributs grand public.

En revanche les données socio-économiques prédites et accessibles dans la table EMMA sont des attributs sous licence.

:envelope_with_arrow:
Intéressé par ces données ?

:arrow_forward: Contactez-nous ! :arrow_backward:

5. Cas d’usage

Plusieurs usages des données socio-économiques prédites ont été identifiés. La liste ci-dessous n’est pas exhaustive et nous vous invitons à l’enrichir en partageant vos cas d’usage en réponse à ce message.

  • Identification des ménages potentiellement pauvres : en combinant le nombre de personnes des ménages (pour identifié les personnes seules), l’âge de la personne de référence (pour identifier les jeunes ménages), le statut familial (pour repérer les familles monoparentales), le nombre d’actifs et/ou le statut d’activité (pour repérer les ménages inactifs) ou encore le nombre d’enfants (pour repérer les familles nombreuses).
  • Agrégation des données socio-économiques sur des périmètres de projet : afin de réaliser des diagnostics il est possible d’agréger l’ensemble des données socio-économiques sur des périmètres de projet (ZAC, îlot urbain) ou lié à une politique publique (OPAH, PIG, …).
  • Identification des logements sous et sur-peuplés en mobilisant le nombre de personnes des ménages et la typologie de logement (nombre de pièces, surface…).
  • Etude des zones de chalandise aussi bien dans le domaine des transports (caractéristiques de la population dans le périmètre de 500 mètres autour d’une station de transports en commun) que dans le commerce (caractéristique de la population dans la zone de chalandise d’un commerce).
  • *Maintien à domicile des ainés : Par le couplage des caractéristiques des logements (présence d’ascenseur, distance à un équipement (médecin, …) et de l’âge des habitants.

:grey_exclamation: Votre contribution est la bienvenue pour compléter cette section ! N’hésitez pas à partager vos cas d’usage en réponse à ce message.

Source(s)

:page_facing_up: Documentation de la base FILOSOFI sur le site de l’INSEE
Calvo, M., Hananel, J., Loubet, A., & Richet-Mastain, L. (2019). Conditions et dépenses de logement selon le niveau de vie des ménages. Les dossier de la DREES, 32, 106.
:page_facing_up: Centre d’observation de la société. (2020, novembre). Les catégories modestes vivent trois fois plus souvent que les plus aisés dans des logements trop petits. https://www.observationsociete.fr/modes-de-vie/logement-modevie/surpeuplement_logement/
:page_facing_up: Demaison, C., Grivet, L., Maury-Duprey, D., Mayo-Simbler, S., & Tagnani. (2017). Les conditions de logement en France.
:page_facing_up: Podani, J. (1999). Extending Gower’s general coefficient of similarity to ordinal characters. TAXON, 48(2), 331‑340. https://doi.org/10.2307/1224438
:page_facing_up: Seilles, M. (2025, avril). En 2022, la moitié des ménages locataires du parc social ont plus de 53 ans. INSEE Première, 2047. https://www.insee.fr/fr/statistiques/8392029
:page_facing_up: Viry, S., & Elimas, N. (2020). Rapport d’information sur l’adaptation de la politique familiale française aux défis de la société du XXIème siècle. https://www.assemblee-nationale.fr/dyn/opendata/RINFANR5L15B3168.html?utm_source=chatgpt.com#_Toc256000060

Foire aux questions

J'aurais besoin de la donnée âge des ménages, ou puis-je la trouver ?

:gear: Réponse, en bref
Cette donnée, comme d’autres données socio-démographiques, est disponible dans le géopackage, mais pas encore sur l’applicatif. Elle le sera sur un prochain versioning de la géo plateforme. Vous retrouverez d’ailleurs dans les géopackages téléchargeable sur data.gouv toutes les données issues de FiLoSofi (caractéristiques socio-démographiques).

:grey_exclamation: Une suggestion ? Une question ? Nous sommes preneurs ! N’hésitez pas à partager vos remarques et à enrichir cette fiche descriptive avec vos questions en réponse à ce message.

:envelope_with_arrow:
Intéressé par ces données ?

:arrow_forward: Contactez-nous ! :arrow_backward: