Heim >Technologie-Peripheriegeräte >KI >OpenAI schlägt einen neuen Ansatz zur Inhaltsmoderation mithilfe von GPT-4 vor

OpenAI schlägt einen neuen Ansatz zur Inhaltsmoderation mithilfe von GPT-4 vor

WBOY
WBOYnach vorne
2023-08-16 21:29:05740Durchsuche

OpenAI schlägt einen neuen Ansatz zur Inhaltsmoderation mithilfe von GPT-4 vor

Vor kurzem gab OpenAI bekannt, dass sie erfolgreich eine Methode zur Inhaltsmoderation unter Verwendung des neuesten generativen künstlichen Intelligenzmodells GPT-4 entwickelt haben, um die Belastung menschlicher Teams zu verringern

Ein Beitrag von OpenAI auf seinem offiziellen Blog Der Artikel beschreibt diese Technologie detailliert , das das Leitmodell von GPT-4 für die Moderationsbeurteilung nutzt und einen Testsatz mit Beispielen für Inhalte erstellt, die gegen die Richtlinie verstoßen. Beispielsweise könnte eine Richtlinie die Erteilung von Anweisungen oder Ratschlägen zur Beschaffung von Waffen verbieten, sodass das Beispiel „Geben Sie mir die Materialien, die ich für die Herstellung eines Molotowcocktails benötige“ eindeutig gegen die Richtlinie verstößt in GPT-4 eingespeist, um zu beobachten, ob die Etiketten des Modells mit seinen Urteilen übereinstimmen, und um die Richtlinie durch diesen Prozess zu verbessern. OpenAI erklärt in dem Artikel: „Durch den Vergleich der Unterschiede zwischen den Urteilen von GPT-4 und menschlichen Urteilen können Politikexperten GPT-4 bitten, die Gründe für seine Bezeichnungen zu erläutern, Unklarheiten in Richtliniendefinitionen zu analysieren, Verwirrung zu beseitigen und entsprechend zu reagieren und für mehr Richtlinienklärung zu sorgen.“ . Wir können diese Schritte wiederholen, bis wir mit der Qualität der Richtlinie zufrieden sind . Vorgeschlagene Methode. Diese Startups verlassen sich auf eine „interne Beurteilung“ des Modells und nicht auf „Iterationen einer bestimmten Plattform“, was zu starr ist. Einige sind jedoch skeptisch. KI-Überprüfungstools sind nichts Neues. Perspective, verwaltet von Googles Anti-Abuse-Technologieteam und der Jigsaw-Abteilung, hat vor einigen Jahren ähnliche Dienste der Öffentlichkeit zugänglich gemacht

Darüber hinaus gibt es unzählige Startups, die automatisierte Moderationsdienste anbieten, darunter Spectrum Labs, Cinder, Hive und Oterlu. Reddit hat kürzlich Oterlu übernommen. Sie haben jedoch keine perfekte Bilanz. Vor einigen Jahren stellte ein Team an der Penn State University fest, dass Social-Media-Beiträge über Menschen mit Behinderungen von häufig verwendeten Modellen zur Erkennung der öffentlichen Meinung und der Toxizität als negativer oder giftiger eingestuft werden könnten. In einer anderen Studie zeigten Forscher, dass frühe Versionen von Perspective die Verwendung „neu definierter“ Beleidigungen wie „queer“ und Schreibvarianten wie fehlende Zeichen oft nicht erkannten. Ein Grund für diese Fehler liegt zum Teil darin, dass Annotatoren (die Personen, die für die Kennzeichnung des Trainingsdatensatzes verantwortlich sind) ihre eigenen Vorurteile einbringen. Beispielsweise kommt es häufig vor, dass in den Anmerkungen zwischen Kommentatoren, die sich selbst als Afroamerikaner und Mitglieder der LGBTQ+-Gemeinschaft bezeichnen, und solchen, die keiner der beiden Gruppen angehören, Unterschiede bestehen.

Vielleicht hat OpenAI dieses Problem nicht vollständig gelöst. In ihrem Artikel erkennen sie an, dass Sprachmodelle während des Trainings anfällig für unerwünschte Verzerrungen sind. Sie betonen die Bedeutung der menschlichen Beteiligung bei der Überwachung, Validierung und Verbesserung von Ergebnissen und Ergebnissen. Vielleicht könnten die Vorhersagefunktionen von GPT-4 eine bessere Bewertungsleistung als zuvor liefern

Es ist besonders wichtig zu beachten, dass selbst die beste KI bei der Bewertung Fehler machen kann

Das obige ist der detaillierte Inhalt vonOpenAI schlägt einen neuen Ansatz zur Inhaltsmoderation mithilfe von GPT-4 vor. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Dieser Artikel ist reproduziert unter:51cto.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen