Maison  >  Article  >  Périphériques technologiques  >  inférence à facteur variable

inférence à facteur variable

WBOY
WBOYavant
2024-01-24 23:09:04592parcourir

inférence à facteur variable

L'inférence variationnelle est une méthode d'inférence de probabilité utilisée pour approximer la distribution a posteriori de modèles de probabilité complexes. Il réduit la complexité informatique en transformant le problème d'origine en un problème d'optimisation. L'inférence variationnelle est largement utilisée dans des domaines tels que l'apprentissage automatique, les statistiques et la théorie de l'information.

Pourquoi ça s'appelle variation ?

Le mot « variation » vient de la méthode de variation en théorie des fonctions, qui est une méthode de résolution de la valeur extrême d'une fonctionnelle. Dans l'inférence variationnelle, nous trouvons une distribution postérieure approximative en minimisant une métrique de distance, appelée distance variationnelle, cette méthode d'inférence est donc appelée inférence variationnelle.

L'idée de base de l'inférence variationnelle est de se rapprocher le plus possible de la véritable distribution a posteriori en trouvant une distribution approchée. Pour cela, nous introduisons une famille de distribution paramétrée q(z;lambda), où z est la variable cachée et lambda est le paramètre à obtenir. Notre objectif est de trouver une distribution q(z;lambda) qui minimise sa différence par rapport à la vraie distribution postérieure p(z|x). Pour mesurer la distance entre les distributions q(z;lambda) et p(z|x), nous utilisons la distance variationnelle, généralement mesurée à l'aide de la divergence KL. La divergence KL est une mesure de la différence entre deux distributions de probabilité. Plus précisément, la divergence KL peut être calculée par la formule suivante : KL(q(z;lambda) || p(z|x)) = int q(z;lambda) log frac{q(z;lambda)}{p(z|x)} dz En minimisant la divergence KL, nous pouvons trouver le paramètre lambda qui minimise la différence entre la distribution q(z; lambda) et la vraie distribution postérieure p(z|x). De cette manière, nous pouvons obtenir une distribution a posteriori approximative pour les tâches d’inférence et de prédiction ultérieures. En résumé, l'idée de base de l'inférence variationnelle est d'approcher la véritable distribution a posteriori en trouvant une famille paramétrée de distributions et d'utiliser la divergence KL pour mesurer la différence entre les deux distributions. En minimisant la divergence KL, nous pouvons obtenir une distribution postérieure approximative pour les tâches d'inférence ultérieures.

D_{KL}(q(z;lambda)||p(z|x))=int q(z;lambda)logfrac{q(z;lambda)}{p(z|x)}dz

Notez que la divergence KL est non négative Si et seulement si q(z;lambda) est égal à p(z|x), la divergence KL prend la valeur minimale 0. Par conséquent, notre objectif peut être transformé en minimisant la divergence KL, c'est-à-dire :

lambda^*=argmin_{lambda}D_{KL}(q(z;lambda)||p(z|x))

Cependant, puisque la divergence KL est une fonction insoluble et complexe, nous ne pouvons pas la minimiser directement. Nous devons donc utiliser des méthodes approchées pour résoudre ce problème.

Dans l'inférence variationnelle, nous utilisons une technique appelée limites inférieures variationnelles pour approximer la divergence KL. Plus précisément, nous décomposons d'abord la divergence KL en :

D_{KL}(q(z;lambda)||p(z|x))=E_{q(z;lambda)}[log q( z; lambda)-log p(z,x)]

Ensuite, en introduisant une nouvelle distribution q(z|x) et en utilisant l'inégalité de Jensen, nous obtenons une borne inférieure :

log p(x)ge E_ {q(z|x)}[log p(x,z)-log q(z|x)]

où, log p(x) est la probabilité marginale des données, p(x, z) est la distribution de probabilité conjointe et q(z|x) est la distribution postérieure approximative.

Cette borne inférieure est appelée borne inférieure variationnelle ou ELBO (Evidence Lower Bound). Le paramètre lambda de la distribution postérieure approximative peut être optimisé en maximisant ELBO :

lambda^*=argmax_{lambda}E_{. q (z|x;lambda)}[log p(x,z)-log q(z|x;lambda)]

Notez que ce problème d'optimisation peut être résolu par des algorithmes d'optimisation tels que la descente de gradient. Enfin, la distribution a posteriori approximative q(z|x) que nous obtenons peut être utilisée pour calculer diverses attentes, telles que la prédiction, la sélection de modèle, etc.

En bref, l'inférence variationnelle est une méthode d'inférence de probabilité basée sur la minimisation de la divergence KL. En introduisant la technique de la limite inférieure variationnelle, un algorithme d'optimisation est utilisé pour approximer la distribution a posteriori d'un modèle de probabilité complexe.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer