Heim >Technologie-Peripheriegeräte >KI >Tutorial: Semantisches Clustering von Benutzernachrichten mit LLM -Eingabeaufforderungen
Dieser Blog -Beitrag zeigt eine schnellere und effizientere Methode zur Analyse von User Forum -Daten mithilfe von großsprachigen Modellen (LLMs) anstelle herkömmlicher Datenwissenschaftstechniken. Der Autor nutzt die Macht der KI -Aufforderungen, semantisches Clustering zu erreichen, und verringert die erforderliche Zeit und den erforderlichen Aufwand erheblich.
Der Prozess beginnt mit öffentlich verfügbaren Discord -Forum -Daten, insbesondere technischen Support -Threads. Diese Daten werden in einem Pandas-Datenfreame vorverarbeitet und formatiert, einschließlich einer Stimmungsbewertung, die auf dem Benutzerfeedback basiert (z. B. "Danke"). Dashboards werden erstellt, um Nachrichtenvolumina, Benutzern und Zufriedenheitstrends zu visualisieren und anfängliche Erkenntnisse zu erkennen. Zu den wichtigsten Erkenntnissen dieser ersten Erkundung gehört eine allgemeine Korrelation zwischen Benutzerwendungen und Zufriedenheit, aber eine mangelnde Korrelation zwischen Reaktionszeit und Zufriedenheit.
Der Kern der Methode beinhaltet die Aufforderung von LLMs (insbesondere Google Gemini und Verwirrigkeit AI) zur Durchführung der Datenanalyse. Der Autor stellt mehrere wichtige Eingabeaufforderungen an:
Der Autor experimiert sowohl mit Rohtextzusammenfassungen als auch mit numerischen Einbettungen (erzeugt mit OpenAIs Einbettungs -API) als Eingabe für die LLM. Die Ergebnisse zeigen, dass die Verwendung der internen Einbettungserzeugung des LLM zu genaueren und zuverlässigeren Cluster -Themen führt, wodurch ein wichtiger Befund hervorgehoben wird: Das LLM -Erzeugen der eigenen Einbettungen ist vorzuziehen, extern erzeugte bereitzustellen.
Die Analyse wird erweitert, um Daten von mehreren Discord-Servern einzubeziehen, sodass Vergleiche mit Cross-Vendor und häufig vorkommende Benutzerprobleme aufgedeckt werden. Die endgültige Visualisierung zeigt diese häufigen Probleme effektiv.
Der Blog -Beitrag schließt mit der Zusammenfassung der beteiligten Schritte und der Bereitstellung von Verweise auf relevante Ressourcen, einschließlich des Forschungsarbeits, das diesen Ansatz (CLIO), die gebrauchten LLMs und das Einbettungsmodell inspiriert hat. Die Gesamtnachricht ist ein klarer Demonstration, wie LLMs den Prozess des Extrahierens sinnvoller Erkenntnisse aus großen Datensätzen erheblich rationalisieren und komplexere Datenwissenschafts-Workflows durch einfachere, prompt-basierte Methoden ersetzen können.
Das obige ist der detaillierte Inhalt vonTutorial: Semantisches Clustering von Benutzernachrichten mit LLM -Eingabeaufforderungen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!