Maison >développement back-end >Tutoriel Python >tea-tasting : un package Python pour l'analyse statistique des tests A/B

tea-tasting : un package Python pour l'analyse statistique des tests A/B

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBoriginal: 2024-08-12 22:35:321304parcourir

tea-tasting: a Python package for the statistical analysis of A/B tests

Introduction

J'ai développé tea-tasting, un package Python pour l'analyse statistique des tests A/B comprenant :

Test t de Student, Bootstrap, réduction de la variance avec CUPED, analyse de puissance et autres méthodes et approches statistiques prêtes à l'emploi.
Prise en charge d'un large éventail de backends de données, tels que BigQuery, ClickHouse, PostgreSQL/GreenPlum, Snowflake, Spark, Pandas et plus de 20 autres backends pris en charge par Ibis.
API extensible : définissez des métriques personnalisées et utilisez les tests statistiques de votre choix.
API pratique pour réduire le travail manuel et un cadre pour minimiser les erreurs.
Documentation détaillée.

Dans cet article de blog, j'explore chacun de ces avantages de l'utilisation de la dégustation de thé dans l'analyse des expériences.

Si vous avez hâte de l'essayer, consultez la documentation.

Méthodes statistiques

dégustation de thé comprend des méthodes et techniques statistiques qui couvrent la plupart de ce dont vous pourriez avoir besoin dans l'analyse des expériences.

Analysez les moyennes métriques et les proportions avec le test t de Student et le test Z. Ou utilisez Bootstrap pour analyser toute autre statistique de votre choix. Et il existe une méthode prédéfinie pour l'analyse des quantiles à l'aide de Bootstrap. La dégustation de thé détecte également les discordances dans les ratios d'échantillonnage des différentes variantes d'un test A/B.

dégustation de thé applique la méthode delta pour l'analyse des ratios de moyennes. Par exemple, nombre moyen de commandes par nombre moyen de sessions, en supposant que cette session n'est pas une unité de randomisation.

Utilisez des données préalables à l'expérience, des prévisions métriques ou d'autres covariables pour réduire la variance et augmenter la sensibilité d'une expérience. Cette approche est également connue sous le nom de CUPED ou CUPAC.

Le calcul des intervalles de confiance pour le pourcentage de variation du test t et du test Z de Student peut être délicat. Le simple fait de prendre l'intervalle de confiance pour le changement absolu et de le diviser par la moyenne de contrôle produira un résultat biaisé. dégustation de thé applique la méthode delta pour calculer l'intervalle correct.

Analysez la puissance statistique pour le test t et le test Z de Student. Il y a trois options possibles :

Calculez la taille de l'effet, en fonction de la puissance statistique et du nombre total d'observations.
Calculez le nombre total d'observations, en fonction de la puissance statistique et de la taille de l'effet.
Calculez la puissance statistique, compte tenu de la taille de l'effet et du nombre total d'observations.

Apprenez-en plus dans le guide d'utilisation détaillé.

La feuille de route comprend :

Test d'hypothèses multiples :
- Taux d'erreur par famille : méthode Holm-Bonferroni.
- Taux de fausse découverte : procédure Benjamini-Hochberg.
Tests et simulations A/A pour analyser la puissance de tout test statistique.
Plus de tests statistiques :
- Tests asymptotiques et exacts pour les données de fréquence.
- Test de Mann-Whitney U.
Tests séquentiels : valeur p toujours valide avec mSPRT.

Vous pouvez définir une métrique personnalisée avec un test statistique de votre choix.

Backends de données

Il existe de nombreuses bases de données et moteurs différents pour stocker et traiter les données expérimentales. Et dans la plupart des cas, il n'est pas efficace d'extraire les données expérimentales détaillées dans un environnement Python. De nombreux tests statistiques, tels que le test t de Student ou le test Z, ne nécessitent que des données agrégées pour l'analyse.

Par exemple, si les données expérimentales brutes sont stockées dans ClickHouse, il est plus rapide et plus efficace de calculer les décomptes, les moyennes, les variances et les covariances directement dans ClickHouse plutôt que de récupérer des données granulaires et d'effectuer des agrégations dans un environnement Python.

Interroger manuellement toutes les statistiques requises peut être une tâche ardue et sujette aux erreurs. Par exemple, l'analyse des mesures de ratio et la réduction de la variance avec CUPED nécessitent non seulement le nombre de lignes et la variance, mais également les covariances. Mais ne vous inquiétez pas : la dégustation de thé fait tout cela pour vous.

dégustation de thé accepte les données sous forme de Pandas DataFrame ou de Ibis Table. Ibis est un package Python qui sert d'API DataFrame pour divers backends de données. Il prend en charge plus de 20 backends, dont BigQuery, ClickHouse, PostgreSQL/GreenPlum, Snowflake et Spark. Vous pouvez écrire une requête SQL, l'envelopper sous forme de table Ibis et la transmettre à tea-tasting.

Gardez à l'esprit que la dégustation de thé suppose que :

Les données sont regroupées par unités de randomisation, telles que les utilisateurs individuels.
Il y a une colonne indiquant la variante du test A/B (généralement étiquetée comme A, B, etc.).
Toutes les colonnes nécessaires aux calculs de métriques (comme le nombre de commandes, les revenus, etc.) sont incluses dans le tableau.

Certaines méthodes statistiques, comme Bootstrap, nécessitent des données granulaires pour l'analyse. Dans ce cas, tea-tasting récupère également les données détaillées.

Apprenez-en plus dans le guide sur les backends de données.

API pratique

Vous pouvez effectuer toutes les tâches répertoriées ci-dessus en utilisant uniquement NumPy, SciPy et Ibis. En fait, la dégustation de thé utilise ces emballages sous le capot. Ce que tea-tasting offre en plus, c'est une API pratique de niveau supérieur.

C'est plus facile à montrer qu'à décrire. Voici l'exemple de base :

import tea_tasting as tt


data = tt.make_users_data(seed=42)

experiment = tt.Experiment(
    sessions_per_user=tt.Mean("sessions"),
    orders_per_session=tt.RatioOfMeans("orders", "sessions"),
    orders_per_user=tt.Mean("orders"),
    revenue_per_user=tt.Mean("revenue"),
)

result = experiment.analyze(data)
print(result)
#>             metric control treatment rel_effect_size rel_effect_size_ci pvalue
#>  sessions_per_user    2.00      1.98          -0.66%      [-3.7%, 2.5%]  0.674
#> orders_per_session   0.266     0.289            8.8%      [-0.89%, 19%] 0.0762
#>    orders_per_user   0.530     0.573            8.0%       [-2.0%, 19%]  0.118
#>   revenue_per_user    5.24      5.73            9.3%       [-2.4%, 22%]  0.123

L'approche en deux étapes, avec paramétrisation et inférence séparées, est courante dans la modélisation statistique. Cette séparation contribue à rendre le code plus modulaire et plus facile à comprendre.

dégustation de thé effectue des calculs qui peuvent être délicats et sujets aux erreurs :

Analyse des métriques de ratio avec la méthode delta.
Réduction de la variance avec CUPED/CUPAC (également en combinaison avec la méthode delta pour les mesures de ratio).
Calcul des intervalles de confiance pour la variation absolue et en pourcentage.
Analyse de la puissance statistique.

Il fournit également un cadre pour représenter les données expérimentales afin d'éviter les erreurs. Le regroupement des données par unités de randomisation et l'inclusion de toutes les unités dans l'ensemble de données sont importants pour une analyse correcte.

De plus, tea-tasting fournit des méthodes et fonctions pratiques, telles qu'un joli formatage du résultat et un gestionnaire de contexte pour les paramètres métriques.

Documentation

Dernier point mais non le moindre : la documentation. Je pense qu'une bonne documentation est cruciale pour l'adoption d'un outil. C'est pourquoi j'ai écrit plusieurs guides d'utilisation et une référence API.

Je recommande de commencer par l'exemple d'utilisation de base dans le guide de l'utilisateur. Vous pourrez ensuite explorer des sujets spécifiques, tels que la réduction de la variance ou l'analyse de puissance, dans le même guide.

Consultez le guide sur les backends de données pour apprendre à utiliser un backend de données de votre choix avec dégustation de thé.

Consultez le guide sur les métriques personnalisées si vous souhaitez effectuer des tests statistiques qui ne sont pas inclus dans la dégustation de thé.

Utilisez la référence API pour explorer tous les paramètres et informations détaillées sur les fonctions, classes et méthodes disponibles dans dégustation de thé.

Conclusions

Il existe une variété de méthodes statistiques qui peuvent être appliquées dans l’analyse d’une expérience. Mais seule une poignée d’entre eux sont réellement utilisés dans la plupart des cas.

D'autre part, il existe des méthodes spécifiques à l'analyse des tests A/B qui ne sont pas incluses dans les packages statistiques à usage général comme SciPy.

La fonctionnalité

dégustation de thé comprend les tests statistiques les plus importants, ainsi que des méthodes spécifiques à l'analyse des tests A/B.

dégustation de thé fournit une API pratique qui permet de réduire le temps consacré à l'analyse et de minimiser la probabilité d'erreur.

De plus, dégustation de thé optimise l'efficacité des calculs en calculant les statistiques dans le backend de données de votre choix, où les données sont stockées.

Grâce à la documentation détaillée, vous pourrez rapidement apprendre à utiliser la dégustation de thé pour l'analyse de vos expériences.

P.S. Nom du package

Le nom du package « tea-tasting » est un jeu de mots qui fait référence à deux sujets :

La dégustation du thé par une femme est une expérience célèbre conçue par Ronald Fisher. Dans cette expérience, Fisher a développé le cadre de test de signification de l'hypothèse nulle pour analyser l'affirmation d'une femme selon laquelle elle pouvait discerner si le thé ou le lait avait été ajouté en premier dans la tasse.
"tea-tasting" ressemble phonétiquement au "t-testing" ou au test t de Student, un test statistique développé par William Gosset.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Python sql bootstrap numpy scipy pandas NULL define if for require Session try Error using number this column table spark postgresql clickhouse

Déclaration：

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Article précédent：Pourquoi ma session Google Colab s'est-elle arrêtée lors de l'exécution du modèle Llama ?Article suivant：Pourquoi ma session Google Colab s'est-elle arrêtée lors de l'exécution du modèle Llama ?

Articles Liés

Voir plus