Fiabilité statistique ou marge d’erreur (AB Testing)

Vous ĂŞtes ici :

La fiabilité statistique est un indicateur de confiance qui intervient dans le cadre de la réalisation d’un test A/B ou d’un test multivarié. Il sert à confirmer que les différences enregistrées entre les versions A et B testées ne sont pas le fruit du hasard. La plupart des plateformes d’AB Testing procurent cet indicateur.

Un critère à prendre en compte dans les procédures d’AB Testing

Un AB Testing est un test qui vise Ă  comparer deux versions d’un mĂŞme objet et Ă  mesurer la performance de l’une par rapport Ă  l’autre. Par exemple, l’on souhaite mesurer l’impact d’un changement sur une page web auprès des utilisateurs. La version initiale A est mise en concurrence avec une version B comportant une variable ; chacune est dĂ©livrĂ©e Ă  un Ă©chantillon d’utilisateurs distinct sur une pĂ©riode donnĂ©e.

La plateforme logicielle mesure les rĂ©sultats enregistrĂ©s par l’une et l’autre de ces pages web, notamment en ce qui concerne leur taux de transformation. L’on pourra conclure que A bat B ou que B bat A. Mais dans quelle proportion cette interprĂ©tation des rĂ©sultats est justifiĂ©e ? C’est ce que permet l’indicateur de confiance, lequel traduit la fiabilitĂ© statistique du test.

Généralement, on estime que cet indicateur doit atteindre 95 %, soit laisser au minimum une marge d’erreur de 5 %. L’on admet ainsi que le résultat du test a 95 % de chances de se reproduire dans la réalité avec un même résultat.

De son utilité

Dans un test AB, la fiabilité statistique, ou statistical significance, permet donc de valider ou d’invalider les hypothèses d’optimisation d’un site internet, d’une page web, d’une application mobile… Il fournit une valeur mathématique sur laquelle on pourra s’appuyer pour savoir si oui ou non l’on peut mettre en production un changement sur un site. Le test est suffisamment probant pour affirmer que ce changement a un véritable impact sur la performance du site et donc, que le gain de conversion est garanti.

Les précautions à garder

Si l’indicateur de confiance est une valeur importante à prendre en compte dans une procédure d’AB Testing, encore faut-il savoir l’interpréter et surtout, le croiser avec d’autres données. Le but étant de limiter les prises de risques et, surtout, d’éviter de prendre une décision qui serait contraire à ses intérêts.

D’autres facteurs sont Ă  regarder de près pour valider les rĂ©sultats d’un test :

  • La durĂ©e du test : elle dĂ©pend de la taille de l’échantillon. Plus il y a de trafic sur un site, moins le test est long. Il est par ailleurs recommandĂ© qu’elle recouvre un ou plusieurs cycles commerciaux, c’est-Ă -dire le temps nĂ©cessaire en moyenne Ă  un visiteur pour parvenir Ă  la dĂ©cision d’achat.
  • La pĂ©riode sur laquelle a lieu le test : il est conseillĂ© d’éviter de faire un test sur les pĂ©riodes de soldes, pendant des campagnes d’acquisition, au moment d’une grosse campagne emailing… Les comportements de navigation et d’achat ne sont pas les mĂŞmes que le reste de l’annĂ©e, ce qui pourrait fausser les rĂ©sultats et vous induire en erreur.
  • La taille de l’échantillon: en statistiques, on estime que plus l’échantillon est important, plus les rĂ©sultats seront fiables. C’est la loi des grands nombres. Pour autant, il existe des solutions pour les sites Ă  faible trafic, basĂ©es sur d’autres mĂ©thodes de calcul statistique laissant l’avantage Ă  la probabilitĂ© de rĂ©sultats (mĂ©thode bayĂ©sienne). Dans ce cas, l’AB Testing devra se faire sur une longue durĂ©e pour « avoir du recul Â» sur l’historique du site, les informations et les donnĂ©es relatives aux internautes et Ă  leurs comportements d’achat.
  • La reprĂ©sentativitĂ© de l’échantillon: une notion difficile Ă  apprĂ©hender. Souvent, on estime que plus le test s’étale dans le temps, plus on a de chance de capter tous les profils d’internautes et qu’ils se rĂ©partissent Ă©quitablement dans l’échantillon. Il est aussi possible de segmenter le trafic ; par exemple, d’exclure du test les internautes arrivant sur le site via un lien posĂ© sur une newsletter.
  • L’appareil testĂ© : le taux de conversion n’est souvent pas le mĂŞme sur tablette, sur PC, sur smartphone… Par exemple, une rĂ©servation d’hĂ´tel se prĂ©pare sur un smartphone au bureau mais la confirmation de commande ne se fera que le soir sur l’ordinateur familial.

La fiabilité statistique est donc un élément clé de l’AB Testing, pour avoir foi en ses résultats. Pour autant, il doit être pris en considération à la lumière d’autres critères qu’il s’agit de croiser avant de prendre une quelconque décision.