Maison > Article > développement back-end > Comment calculer la similarité cosinus entre des phrases en Python sans bibliothèques externes ?
Calcul de la similarité cosinus entre les chaînes de phrases
Étant donné deux chaînes représentant des phrases, il est nécessaire de calculer leur similarité cosinus sans utiliser de bibliothèques externes. Explorons une implémentation Python pour y parvenir.
La similarité cosinus mesure l'angle entre deux vecteurs, représentant généralement des documents ou des phrases dans un espace vectoriel. Une valeur de similarité cosinus élevée indique que les phrases sont similaires, tandis qu'une valeur faible suggère qu'elles diffèrent.
Étape 1 : Tokenisation et vectorisation
Pour calculer la similarité cosinus, nous doit convertir les phrases en vecteurs. Nous utilisons un simple tokeniseur basé sur des mots qui divise les phrases en mots et compte leurs occurrences :
<code class="python">import re from collections import Counter WORD = re.compile(r"\w+") def text_to_vector(text): words = WORD.findall(text) return Counter(words)</code>
Étape 2 : Calcul de la similarité cosinus
La formule de similarité cosinus est :
cosine = (Numerator) / (Denominator)
où :
<code class="python">import math def get_cosine(vec1, vec2): intersection = set(vec1.keys()) & set(vec2.keys()) numerator = sum([vec1[x] * vec2[x] for x in intersection]) sum1 = sum([vec1[x] ** 2 for x in list(vec1.keys())]) sum2 = sum([vec2[x] ** 2 for x in list(vec2.keys())]) denominator = math.sqrt(sum1) * math.sqrt(sum2) if not denominator: return 0.0 else: return float(numerator) / denominator</code>
Étape 3 : Exemple d'utilisation
En utilisant les fonctions ci-dessus, nous pouvons calculer la similarité cosinus entre deux phrases :
<code class="python">text1 = "This is a foo bar sentence." text2 = "This sentence is similar to a foo bar sentence." vector1 = text_to_vector(text1) vector2 = text_to_vector(text2) cosine = get_cosine(vector1, vector2) print("Cosine:", cosine)</code>
La sortie affichera une valeur de similarité cosinus élevée, indiquant que les phrases sont similaires.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!