Détection des hallucinations dans les LLM avec entropie sémantique discrète et perplexité-Tutoriel Python-php.cn

Maison

développement back-end

Tutoriel Python

Détection des hallucinations dans les LLM avec entropie sémantique discrète et perplexité

Linda Hamilton

Dec 09, 2024 am 11:25 AM

Detecting Hallucinations in LLMs with Discrete Semantic Entropy and Perplexity

Lorsque vous travaillez avec de grands modèles de langage (LLM), repérer les hallucinations peut être délicat. Au lieu de nous fier uniquement à un LLM comme juge (qui peut encore commettre des erreurs, et de nombreux cadres d'évaluation n'utilisent que cela pour la détection des hallucinations), nous pouvons utiliser la perplexité, l'implication et l'entropie sémantique discrète pour mieux identifier les hallucinations potentielles. Bien que j'utilise ici un LLM pour détecter l'implication, ce n'est pas nécessaire. Cela dit, cette méthode fonctionne mieux pour les questions avec des réponses simples et factuelles, celles qui ne sont ni trop vagues ni subjectives. Que pensez-vous de l’utilisation de ces mesures combinées pour une meilleure détection des hallucinations ? Je comprends que le code peut être amélioré/optimisé, mais l'objectif était de tester rapidement son fonctionnement.

from openai import OpenAI
import numpy as np
from pydantic import BaseModel
import time

client = OpenAI(api_key="key")

class CheckEntailment(BaseModel):
    label: str

def check_entailment(fragment1: str, fragment2: str) -> bool:
    """check entailment"""
    messages = [
        {
            "role": "user",
            "content": f"""You have two responses from a large language model. 
                 Check if the meaning of one repsonse is entailed by the other, or if there is a contradiction. 
                 Return '0' if entailment. Return '1' if contradiction. 
                 Return only the label, without any explanation. 
                 \n Response1: \n {fragment1}\n\n Response2: \n {fragment2}""",
        }
    ]
    completion = client.beta.chat.completions.parse(
        model="gpt-4o-mini",
        messages=messages,
        temperature=0.1,
        logprobs=True,
        top_logprobs=2,
        response_format=CheckEntailment,
    )
    entailment = False
    # print(completion.choices[0].logprobs.content[3].top_logprobs)
    for top_logprob in completion.choices[0].logprobs.content[3].top_logprobs:
        print(top_logprob.token, np.round(np.exp(top_logprob.logprob), 2))
        if "0" in top_logprob.token and np.exp(top_logprob.logprob) > 0.7:
            entailment = True
    return entailment


def calculate_entropy(probs):
    """
    Calculate the entropy
    """
    probs = np.array(probs)
    probs = probs / probs.sum()
    probs = probs[probs > 0]
    entropy = -np.sum(probs * np.log2(probs))
    return entropy


some_tricky_questions = [
    "Which state does Alabama have its longest border with? Is it Florida or Tennessee?",
    "Who hosted the British Gameshow Countdown in 2007: a) Nick Hewer b) Richard Whiteley c) Jeff Stelling?",
    "Trivia question: Which Black Eyed Peas band member was the only one to host Saturday Night Live?",
    "What year in the 1980s were the FIS Alpine World Ski Championships hosted in Argentina?",
    "How many Brazilian numbers are there between 1-6?",
    "Which Israeli mathematician founded an online sequences repository in the 1970s?",
    "Write the 7 english words that have three consecutive double letters. No need to provide explanations, just say the words.",
    # adding two questions where it should not hallucinate
    "What is the capital of India?",
    "what is the full form of CPU?",
]


for question in some_tricky_questions:
    print("question", question)
    messages = [{"role": "user", "content": f"{question}"}]
    gpt_response = client.chat.completions.create(
        model="gpt-4o-mini",
        messages=messages,
        temperature=0.1,
        logprobs=True,
        max_completion_tokens=60,
    )
    time.sleep(2)
    # get perplexity score using a low temperature response
    logprobs = [token.logprob for token in gpt_response.choices[0].logprobs.content]
    perplexity_score = np.round(np.exp(-np.mean(logprobs)), 2)
    # initialize clusters with the first response
    clusters = [[gpt_response.choices[0].message.content]]
    # generate some more responses using higher temperature and check entailment
    gpt_response = client.chat.completions.create(
        model="gpt-4o-mini",
        messages=messages,
        n=7,
        temperature=0.9,
        logprobs=True,
        max_completion_tokens=60,
    )
    time.sleep(2)
    # check entailment and form clusters
    responses = [choice.message.content for choice in gpt_response.choices]

    for response in responses[1:]:
        found_cluster = False
        for cluster in clusters:
            if check_entailment(cluster[0], response):
                cluster.append(response)
                found_cluster = True
                break
        if not found_cluster:
            clusters.append([response])
    cluster_probs = [len(cluster) / (len(responses) + 1) for cluster in clusters]
    discrete_entropy = calculate_entropy(cluster_probs)
    print("clusters", clusters)
    print("no of clusters", len(clusters))
    print("perplexity", perplexity_score)
    print("entropy", discrete_entropy)

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Article connexe

Comment créez-vous des tableaux multidimensionnels à l'aide de Numpy?Apr 29, 2025 am 12:27 AM

Créer des tableaux multidimensionnels avec Numpy peut être réalisé via les étapes suivantes: 1) Utilisez la fonction numpy.array () pour créer un tableau, tel que np.array ([[1,2,3], [4,5,6]]) pour créer un tableau 2D; 2) utiliser np.zeros (), np.ones (), np.random.random () et d'autres fonctions pour créer un tableau rempli de valeurs spécifiques; 3) Comprendre les propriétés de forme et de taille du tableau pour vous assurer que la longueur du sous-réseau est cohérente et éviter les erreurs; 4) Utilisez la fonction NP.Reshape () pour modifier la forme du tableau; 5) Faites attention à l'utilisation de la mémoire pour vous assurer que le code est clair et efficace.

Expliquez le concept de «diffusion» dans les tableaux Numpy.Apr 29, 2025 am 12:23 AM

BroadcastingInNumpyIsAmethodToperformOperations OnerwaysofdifferentShapesByAutomAticalAligningThem.itImplienScode, améliore la réadabilité et BoostsTerformance.He'showitwork

Expliquez comment choisir entre les listes, Array.array et les tableaux Numpy pour le stockage de données.Apr 29, 2025 am 12:20 AM

Forpythondatastorage, chooseListsforflexibilitywithMixedDatatyS, array.Arrayformmemory-efficienthomogeneousnumericalData, andNumpyArraysforaSvancedNumericalComputing.ListaSaRaySatilebutless

Donnez un exemple de scénario où l'utilisation d'une liste Python serait plus appropriée que l'utilisation d'un tableau.Apr 29, 2025 am 12:17 AM

PythonlistsArebetterThanArraysformMagingDiversEDATATYPES.1) ListScan HoldingElementoSoFferentTypes, 2) Ils ont été aaredamique, permettant à la manière dont 4) ils ne sont pas entièrement efficaces et les opérations sont en train de les affirmer.

Comment accéder aux éléments dans un tableau Python?Apr 29, 2025 am 12:11 AM

ToaccesElementsInapythonArray, useIndexing: my_array [2] AccessEstheThirdElement, returning3.pythonusZero-basedIndexing.

La compréhension des tuples est-elle possible à Python? Si oui, comment et sinon pourquoi?Apr 28, 2025 pm 04:34 PM

L'article discute de l'impossibilité de la compréhension des tuples dans Python en raison de l'ambiguïté de la syntaxe. Des alternatives comme l'utilisation de Tuple () avec des expressions de générateur sont suggérées pour créer efficacement les tuples. (159 caractères)

Que sont les modules et les packages dans Python?Apr 28, 2025 pm 04:33 PM

L'article explique les modules et les packages dans Python, leurs différences et leur utilisation. Les modules sont des fichiers uniques, tandis que les packages sont des répertoires avec un fichier __init__.py, organisant des modules connexes hiérarchiquement.

Qu'est-ce que Docstring in Python?Apr 28, 2025 pm 04:30 PM

L'article traite des docstrings dans Python, de leur utilisation et des avantages. Problème principal: Importance des docstrings pour la documentation du code et l'accessibilité.

See all articles

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

Video Face Swap

Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Afficher plus

Article chaud

Quoi de neuf dans Windows 11 KB5054979 et comment résoudre les problèmes de mise à jour

3 Il y a quelques semainesByDDD

Comment réparer KB5055523 ne parvient pas à s'installer dans Windows 11?

2 Il y a quelques semainesByDDD

Inzoi: Comment postuler à l'école et à l'université

3 Il y a quelques semainesByDDD

Comment réparer KB5055518 ne parvient pas à s'installer dans Windows 10?

2 Il y a quelques semainesByDDD

Roblox: Dead Rails - Comment invoquer et vaincre Nikola Tesla

4 Il y a quelques semainesBy尊渡假赌尊渡假赌尊渡假赌

Afficher plus

Outils chauds

MinGW - GNU minimaliste pour Windows

Ce projet est en cours de migration vers osdn.net/projects/mingw, vous pouvez continuer à nous suivre là-bas. MinGW : un port Windows natif de GNU Compiler Collection (GCC), des bibliothèques d'importation et des fichiers d'en-tête librement distribuables pour la création d'applications Windows natives ; inclut des extensions du runtime MSVC pour prendre en charge la fonctionnalité C99. Tous les logiciels MinGW peuvent fonctionner sur les plates-formes Windows 64 bits.