Maison  >  Article  >  développement back-end  >  Comment calculer la similarité cosinus entre des phrases en Python sans bibliothèques externes ?

Comment calculer la similarité cosinus entre des phrases en Python sans bibliothèques externes ?

DDD
DDDoriginal
2024-10-30 07:48:28509parcourir

How to Calculate Cosine Similarity Between Sentences in Python Without External Libraries?

Calcul de la similarité cosinus entre les chaînes de phrases

Étant donné deux chaînes représentant des phrases, il est nécessaire de calculer leur similarité cosinus sans utiliser de bibliothèques externes. Explorons une implémentation Python pour y parvenir.

La similarité cosinus mesure l'angle entre deux vecteurs, représentant généralement des documents ou des phrases dans un espace vectoriel. Une valeur de similarité cosinus élevée indique que les phrases sont similaires, tandis qu'une valeur faible suggère qu'elles diffèrent.

Étape 1 : Tokenisation et vectorisation

Pour calculer la similarité cosinus, nous doit convertir les phrases en vecteurs. Nous utilisons un simple tokeniseur basé sur des mots qui divise les phrases en mots et compte leurs occurrences :

<code class="python">import re
from collections import Counter

WORD = re.compile(r"\w+")

def text_to_vector(text):
    words = WORD.findall(text)
    return Counter(words)</code>

Étape 2 : Calcul de la similarité cosinus

La formule de similarité cosinus est :

cosine = (Numerator) / (Denominator)

où :

  • Le numérateur est le produit scalaire des deux vecteurs.
  • Le dénominateur est le produit des grandeurs des deux vecteurs.
<code class="python">import math

def get_cosine(vec1, vec2):
    intersection = set(vec1.keys()) & set(vec2.keys())
    numerator = sum([vec1[x] * vec2[x] for x in intersection])

    sum1 = sum([vec1[x] ** 2 for x in list(vec1.keys())])
    sum2 = sum([vec2[x] ** 2 for x in list(vec2.keys())])
    denominator = math.sqrt(sum1) * math.sqrt(sum2)

    if not denominator:
        return 0.0
    else:
        return float(numerator) / denominator</code>

Étape 3 : Exemple d'utilisation

En utilisant les fonctions ci-dessus, nous pouvons calculer la similarité cosinus entre deux phrases :

<code class="python">text1 = "This is a foo bar sentence."
text2 = "This sentence is similar to a foo bar sentence."

vector1 = text_to_vector(text1)
vector2 = text_to_vector(text2)

cosine = get_cosine(vector1, vector2)

print("Cosine:", cosine)</code>

La sortie affichera une valeur de similarité cosinus élevée, indiquant que les phrases sont similaires.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn