Ben Mazue

Qu’est-ce qu’la différence entre les données d’identité déterministes et probabilistes ?

Partager l'article

Les données d’identité « déterministes » et « probabilistes » sont devenues les nouveaux mots à la mode dans les cercles publicitaires numériques.

Ces termes sont familiers aux annonceurs numériques, aux éditeurs et aux responsables des technologies publicitaires depuis des années. Mais maintenant que l’ensemble de l’industrie est à la recherche d’alternatives au cookie tiers, ils semblent être jetés plus fréquemment, en particulier dans les descriptions du fonctionnement de la nouvelle génération d’identifiants dits sans cookie.

La technologie publicitaire, bien sûr, est truffée de terminologie inventée. Pas cette fois. Les méthodes déterministes et probabilistes pour établir des connexions de données identifiables existent depuis des années et concernent une variété de domaines qui n’ont absolument rien à voir avec la publicité numérique – de la santé publique à l’éducation en passant par l’analyse des risques.

Mieux encore : les mots reflètent réellement leur sens. (Mieux encore, pas d’acronymes !)

Qu’est-ce qu’une donnée déterministe ?
Les données déterministes sont des informations connues pour être vraies et exactes car elles sont fournies directement par des personnes ou sont personnellement identifiables, telles que des noms ou des adresses e-mail. On parle souvent de données authentifiées.

Qu’est-ce qu’une donnée probabiliste ?
Les données probabilistes sont basées sur des probabilités. Il est composé d’éléments d’information individuels, tels que le système d’exploitation ou l’adresse IP d’un appareil, et compilé pour aboutir à une conclusion. Dans le cas de la technologie publicitaire, des données probabilistes peuvent être utilisées pour créer un identifiant.

Comment les données déterministes sont-elles utilisées pour l’identité publicitaire ?
Les identifiants déterministes utilisent des données déterministes pour attribuer une identité à une personne en ligne ou à l’aide d’un appareil mobile afin de suivre cette personne identifiée sur des sites Web ou des applications à des fins de ciblage ou de mesure publicitaires. L’ingrédient clé de l’identité déterministe est généralement l’information que quelqu’un a elle-même fournie, généralement en se connectant avec un nom, une adresse e-mail ou un numéro de téléphone.

Alors, les données déterministes sont-elles les mêmes que les données de première partie ?
Eh bien, parfois. Les données de première partie recueillies directement auprès des personnes par une marque ou un éditeur incluent des données déterministes telles que des noms, des e-mails ou des numéros de téléphone. Mais les données de première partie comprennent également une variété d’autres informations reflétant les actions entreprises sur un site Web, les articles lus, les transactions d’achat ou d’autres données comportementales.

Alors, comment les données déterministes sont-elles utilisées pour attribuer une identité ?
L’identité déterministe est obtenue lorsqu’une adresse e-mail fournie par un éditeur ou un annonceur est associée à la même adresse e-mail dans un graphique d’identité ou une base de données d’utilisateurs connectés. Ou bien, une correspondance d’ID déterministe peut se produire si deux entités reconnaissent toutes deux un ID et peuvent les faire correspondre avec précision. Parfois, trois informations déterministes peuvent être utilisées pour relier les points. Par exemple, s’il est connu que ID1234 est johndoe@johndoe.com et johndoe@johndoe.com est ID6789, alors ID1234 est une correspondance déterministe avec ID6789. En fin de compte, pour obtenir une correspondance déterministe, les champs de données doivent s’accorder.

Alors, qu’est-ce que les données probabilistes et comment sont-elles utilisées pour la publicité ?

Tout d’abord, un peu sur pourquoi les données probabilistes sont utilisées. Les données déterministes sont difficiles à obtenir. Très souvent, les systèmes de technologie publicitaire ne peuvent pas faire correspondre les identités parce que quelqu’un n’est pas connecté ou qu’une adresse e-mail ou une autre donnée déterministe n’est pas disponible. Lorsque les annonceurs se plaignent des faibles taux de correspondance, c’est parce qu’il y a un manque de liaisons de données déterministes.

Les systèmes utilisant des méthodes probabilistes utilisent une variété de points de données pour déchiffrer qui pourrait être un utilisateur. La façon la plus simple de penser à ces méthodes est qu’elles attribuent une identité qui est Probablement exact. Fondamentalement, ils prennent leur meilleure estimation pour déduire l’identité.

Lorsque les éditeurs souhaitent attribuer une identité à une personne qui n’est pas connectée, ou qu’une plate-forme côté demande ou un fournisseur de graphiques d’identité souhaite déterminer s’il existe une correspondance entre un visiteur du site et un autre ID existant, ils utilisent des méthodes probabilistes pour attribuer une identité en fonction de une variété de points de données probabilistes.

Les entreprises communiquent-elles si une identité a été attribuée sur la base de données déterministes ou probabilistes ?
Alors que les entreprises de technologie d’identité fournissent des informations sur la façon dont elles créent ou relient les identifiants dans la documentation technique et les matériaux fournis aux clients, leurs identifiants eux-mêmes ne révèlent pas si des méthodes déterministes ou probabilistes sont utilisées. En fait, certaines entreprises adoptent une approche hybride pour créer ou faire correspondre les identifiants.

Quels types d’informations sont utilisés pour attribuer une identité probabiliste ?
Certaines entreprises de technologie d’identité appellent les informations utilisées pour reconstituer l’identité probabiliste des « signaux logiciels » ou des « caractéristiques non uniques de l’appareil ». Les points de données typiques utilisés incluent l’adresse IP, les horodatages, la version du navigateur ou la résolution de l’écran.

Ce n’est pas juste une prise d’empreintes digitales ?
Les empreintes digitales triangulent également une variété de points de données pour établir l’identité, mais les responsables des technologies de la publicité et de l’identité soulignent souvent qu’il existe des distinctions entre les deux. Ils sont particulièrement obligés de faire des distinctions parce que la pratique des empreintes digitales est tombée en disgrâce, en particulier depuis 2019, lorsque Google a déclaré que son navigateur Chrome restreindrait son utilisation et que la société interdit aux partenaires fournisseurs de technologies publicitaires d’utiliser les empreintes digitales pour l’identification. D’autres navigateurs comme Safari et Firefox restreignent également les empreintes digitales.

Les entreprises qui utilisent des méthodes d’identification probabilistes donnent diverses raisons pour lesquelles leurs techniques sont distinctes de la prise d’empreintes digitales. Mais les distinctions peuvent sembler alambiquées ou sémantiques.

Par exemple, certaines entreprises de technologie d’identité affirment que la prise d’empreintes digitales se produit généralement principalement du côté de l’annonceur, lorsque les annonceurs ou les entreprises de technologie publicitaire veulent créer des identifiants persistants à l’insu ou sans l’approbation des personnes ou des éditeurs. D’autres, cependant, disent que la prise d’empreintes digitales se produit du côté de l’éditeur, lorsque les éditeurs souhaitent créer des identifiants. D’autres suggèrent que la distinction réside dans le fait que la prise d’empreintes digitales ne se produit qu’au niveau de l’appareil.

« C’est juste dans la langue et ça me rend furieux », a déclaré à Digiday un responsable de la technologie publicitaire qui a parlé de manière anonyme. « La plupart des entreprises de technologie publicitaire, la plupart des solutions d’identité, les identifiants probabilistes, sont basés sur la technologie des empreintes digitales – mais ils ne l’appellent pas empreintes digitales. »

Les derniers articles