Google Analytics 4 : modélisation des données et attribution

Google Analytics 4 : modélisation des données et attribution

🎛 Control panel (This is hidden from your site)

Content databases →

Site pages →

Using this template →

Avant-propos

GA4 introduit le concept de modélisation. À travers les données collectées (appelées données observées), l'outil est capable de modifier et enrichir les rapports pour combler les pertes de données liées aux évolutions technologiques. On pense notamment aux navigateurs qui protègent davantage les utilisateurs (ITP), mais aussi au cadre réglementaire, comme le RGPD pour les annonceurs qui conditionnent GA4 au consentement de l'utilisateur.

Dans cette note, nous passons en revue les différentes fonctionnalités liées à la modélisation et vous présentons les résultats de nos premières analyses.

Définitions et distinctions

icon
Point d’attention

La modélisation des conversions et la modélisation du comportement sont deux fonctionnalités distinctes.

1. Modélisation des conversions

GA4 intègre dans les rapports principaux et les rapports d'exploration des données de conversions modélisées de manière automatique. Concrètement, cette fonctionnalité permet d'associer la "bonne" source d'acquisition aux différents événements et conversions pour lesquels les informations liées à la source (UTM/gclid, etc.) ne sont pas directement disponibles.

Comment ça marche ?

"Les modèles Google recherchent des tendances entre les conversions directement observées ou non. Par exemple, si les conversions attribuées sur un navigateur sont similaires aux conversions non attribuées d'un autre navigateur, le modèle de machine learning prédit l'attribution globale. Les conversions sont ensuite agrégées sur la base de cette prédiction, et regroupent à la fois les conversions modélisées et les conversions observées."

Cette fonctionnalité permet d'améliorer l'attribution des conversions et de contrer notamment les politiques des navigateurs qui limitent la fenêtre de temps des cookies propriétaires.

Cette fonctionnalité se veut respectueuse des données personnelles :

Google n'autorise pas les identifiants d'empreintes digitales ou d'autres tentatives d'identification d'utilisateurs individuels. Au lieu de cela, Google agrège des données (telles que les taux de conversion historiques, le type d'appareil, l'heure de la journée, la géographie, etc.) pour prédire la probabilité de conversions.”

2. Modélisation du comportement

Cette fonctionnalité est liée à l'implémentation de Google Consent Mode et concerne les éditeurs qui ont soumis GA4 au consentement de l'utilisateur.

Consent Mode permet de collecter des données de navigation sur les utilisateurs qui n'ont pas donné leur consentement. Il s'agit d'un mode qui permet d'adapter les informations envoyées à Google en fonction du consentement de l'utilisateur :

  • Lorsque les utilisateurs donnent leur consentement, les balises fonctionnent normalement.
  • Lorsque les utilisateurs n'ont pas donné leur consentement positif, les balises continuent d'envoyer des "pings" sans cookie à GA4.

Les données liées aux utilisateurs qui ont donné leur consentement apparaissent dans les rapports GA4, et on parle de données observées. Celles liées aux utilisateurs qui n'ont pas donné leur consentement permettent d'activer les données modélisées (modélisation des comportements) si les conditions préalables sont respectées (il faut un certain volume de données pour être éligible). La modélisation du comportement (liée à l'implémentation de Consent Mode) permet concrètement de faire apparaître dans les rapports GA4 les données des utilisateurs qui n'ont pas donné leur consentement positif. La modélisation des conversions (fonctionnalité 1) va être appliquée à ces données observées et permettre d'avoir la bonne attribution.

icon
Point d’attention

Consent Mode est une solution proposée par Google mais n'est pas officiellement validée par la CNIL. Chaque acteur, avec le concours de ses partenaires juridiques et analytiques, doit construire sa propre stratégie de collecte en fonction de son appréciation du risque (cf. notre note d'experts dédiée au sujet RGPD et Google Analytics).

Conditions pour activer la modélisation du comportement :

  • Implémenter correctement Consent Mode (envoyer le ping à GA4 avant le déclenchement de la CMP et sans consentement).
  • La propriété collecte au moins 1 000 événements par jour, avec le paramètre analytics_storage='denied' défini pendant au moins sept jours.
  • La propriété a au moins 1 000 utilisateurs par jour envoyant des événements, avec le paramètre analytics_storage='granted' défini pendant au moins 7 des 28 jours précédents.
  • À partir du moment où le seuil de données est atteint, il peut s'écouler plus de 7 jours dans cette période de 28 jours avant que le modèle ne soit bien entraîné. Cependant, il est possible que même les données supplémentaires ne puissent pas permettre à Analytics d'entraîner le modèle.

3. Identité pour le reporting

Cette fonctionnalité, paramétrable dans l'administration de GA4, permet de choisir la méthode pour définir la notion d'utilisateur. C'est également grâce à cette fonctionnalité que l'on peut activer ou désactiver la modélisation du comportement (si celle-ci est éligible après l'implémentation du Consent Mode).

image

Nous pouvons jouer avec trois options :

Option 1 : Mélangé (Blended)

  • L'utilisateur est d'abord défini par l'utilisation du user_id (paramètre que l'on peut envoyer à Google lorsque l'utilisateur se connecte, par exemple). Cela permet notamment de considérer un même utilisateur qui se connecte via différents appareils
  • Si l'utilisateur n'a pas de user_id (par exemple, s'il n'y a pas d'espace de connexion), Google utilisera ses propres signaux (si vous avez activé Google signals) pour identifier l'utilisateur. Comme pour le user_id, cela permet d'unifier un même utilisateur, mais cette fois-ci, c'est Google qui fournit l'information (notamment si l'utilisateur est connecté à un compte Gmail).
  • Si l'utilisateur n'entre pas dans les deux premiers cas, il est défini par l'ID de l'appareil (pour le Web, il s'agira du cookie Google Analytics "cid" pour les initiés).
  • Enfin, si l'utilisateur n'a pas donné son consentement, Google active la modélisation du comportement (si celle-ci est éligible après l'implémentation du Consent Mode).

Option 2 : Observé (Observed)

L'utilisateur est défini comme pour l'option "Mélangé", mais sans la modélisation du comportement.

Option 3 : Basé sur l'appareil (Device-based)

L'utilisateur est uniquement défini par l'ID de l'appareil (pour le Web, il s'agira du cookie Google Analytics "cid" pour les initiés).

➜ Cette fonctionnalité est cruciale à appréhender car elle a un impact majeur sur les données remontées dans les rapports. Elle présente des subtilités :

  • Le paramétrage est rétroactif, c'est une méthode de calcul qui n'affecte pas la mécanique de collecte.
  • L'identité pour le reporting influence les rapports standards, les rapports d'exploration, mais aussi l'API GA4 (si vous connectez Google Analytics à un outil BI ou si vous exportez les données via une API à l'aide d'un ETL, par exemple).
icon
Point d’attention

Lorsque vous utilisez les méthodes 1 et 2 et que Google signals est activé, vous serez confronté à la problématique des seuils de données (Thresholding).

  • Google va retirer des données des rapports pour éviter de fournir des données trop précises qui permettraient l'identification d'un utilisateur.
  • Selon nos analyses récentes, cela impacte les rapports d'exploration même sans alerte spécifique (ticket en cours côté Google).
  • Nous estimons la perte liée à l’activation de Google signals entre 5% et 10% sur les événements lors de nos derniers tests.

image

icon
Notre recommandation

Si Google Consent Mode est activé et que vous souhaitez bénéficier de la modélisation du comportement, nous recommandons de désactiver Google signals au niveau du reporting pour ne pas être impacter par les seuils de données.

image

4. Attribution GA4

Enfin, GA4 introduit une nouvelle fonctionnalité qui permet de choisir le modèle d'attribution qui sera appliqué sur les métriques "conversion" et "revenu" en lien avec les dimensions "Attributions" :

À ce jour, il existe 7 modèles d'attribution :

  • Basé sur les données (Data Driven)
  • Dernier clic multicanal (Last Click)
  • Premier clic multicanal
  • Linéaire multicanal
  • Multicanal basé sur la position
  • Multicanal avec dépréciation dans le temps
  • Dernier clic Ads de préférence

Cette nouvelle fonctionnalité permet de sortir du seul modèle Last Click (hors direct) que proposait GA UA et incite les éditeurs de sites à utiliser le modèle basé sur les données. Ce modèle d'attribution permet de distribuer une conversion et le revenu aux différents leviers qui sont intervenus dans le parcours de l'utilisateur. Il s'appuie sur du machine learning et sur les données de l'éditeur pour distribuer de manière optimale la conversion. Cette fonctionnalité a pour objectif de faire ressortir des leviers qui interviennent dans le parcours de l'utilisateur qui n'étaient pas forcément identifiés dans le modèle Last Click de GA UA, et ainsi permettre aux éditeurs de sites de mieux piloter leurs achats médias et efforts marketing.

Cette fonctionnalité, comme les précédentes, a un impact sur la restitution des données dans l'interface GA4 et le flux de travail lié aux données traitées par l'outil.

Note : Google a annoncé vouloir déprécier la plupart des modèles pour ne conserver que le Data Driven et le Last Click.

Analyses : impact de la modélisation et de l'attribution

Voici une étude sur l'impact de ces fonctionnalités sur le volume de conversion et le poids du levier Google CPC :

image

Etude réalisée sur un groupe de nos partenaires clients - données non échantillonnées - période mars 2023.

Impact de la modélisation et de l'attribution GA4 :

  • Impact de la modélisation des conversions (GA4 vs GA UA) : la modélisation des conversions GA4 permet de faire passer Google/CPC à 36% contre 27% sur GA UA soit un uplift de 30%.
  • Estimation de l'impact de la modélisation du comportement (Observé vs Mélangé) : la modélisation permet de récupérer près de 30% en volume de conversion au total et 17% sur le levier Google/CPC.
  • Estimation de l'impact de Google signals sur la perte de données (Basé sur l'appareil vs Observé) : on perd 11% des conversions.
  • Estimation de l'impact du modèle Data-Driven Attribution : pour ces clients, l'attribution basée sur les données fait varier le poids de Google/CPC à la marge (+ ou - 1%).

Conclusion

Cette étude permet de confirmer que les nouvelles fonctionnalités GA4 modifient la manière d'appréhender les données et elles répondent sur le papier aux défis techniques (navigateurs) et réglementaires (RGPD).

Ces fonctionnalités sont relativement techniques et subtiles et le modèle sous-jacent demeure également plutôt opaque (comparable à une "boîte noire"). Cela peut constituer un frein pour les éditeurs qui ne possèdent pas un niveau de maturité suffisant ou qui éprouvent de la méfiance envers Google.

Pour bénéficier de ces fonctionnalités, il vous faudra utiliser les données traitées par GA4 et non l'export BigQuery (données brutes) et dans ce cas, nous recommandons d'utiliser le workflow suivant pour tirer parti de ces fonctionnalités :

  • Ingestion et stockage : Exporter les données GA4 dans votre data warehouse (par exemple BigQuery) à partir de l'API GA4 en utilisant un ETL comme Airbyte.
  • Transformation : enrichir et structurer les données avec d'autres sources (ex : données média).
  • Activation : Connecter un outil de visualisation de données (ex : Google Looker Studio).

Exemple de dashboard mise en place grâce à notre solution Capture (qui repose sur ce workflow) :

image

Envie d’approfondir le sujet avec nos experts ? Prenez contact avec nous >