Heim >Technologie-Peripheriegeräte >KI >Um eine KI zu retten, die einen Fehler gemacht hat, kann man sich nicht nur auf Schläge und Beschimpfungen verlassen.
Viele Studien haben herausgefunden, dass KI so schamlos ist, dass sie gelernt hat, zwischen Geschlechtern zu unterscheiden.
Wie geht das?
Kürzlich hat eine Studie von Tsinghua & Fudan Vorschläge dazu gemacht:
Wenn Sie die KI vom Weg der Geschlechterdiskriminierung zurückziehen wollen, müssen Sie das tun Die Wirkung von Schelten ist nicht gut.
Der beste Weg besteht darin, zu verstehen, warum das Kind so ist, und ihm dann die richtige Medizin zu verschreiben, um mit ihm zur Vernunft zu kommen.
Denn wenn man einfach lehrt, ohne vernünftig zu sein und heftig zu korrigieren, wird die KI verängstigt und dumm (die Leistung nimmt ab)!
Oh mein Gott, es ist schwer, ein vierbeiniges, goldfressendes Biest großzuziehen. Ist es so schwer, ein (Xun-)Cyber-Kind großzuziehen?
Werfen wir einen Blick darauf, welche Vorschläge diese Gruppe von KI-„Krankenschwestern und -Vätern“ für die Ausbildung von Kindern gemacht hat.
Vor diesem Zeitpunkt war es nicht so, dass niemand das Ohr der fehlerhaften KI gepackt und versucht hätte, sie zu einer Änderung zu bewegen Es ist die schlechte Angewohnheit, Jungen gegenüber Mädchen zu bevorzugen.
Die meisten aktuellen Debiasing-Methoden beeinträchtigen jedoch die Leistung des Modells bei anderen Aufgaben.
Wenn Sie beispielsweise zulassen, dass KI die Geschlechterdiskriminierung abschwächt, führt dies zu diesem ärgerlichen Ergebnis:
Entweder kann nicht festgestellt werden, ob das Geschlecht von „Papa“ männlich ist oder weiblich, sonst macht es einen grammatikalischen Fehler und vergisst, dem Verb, das auf die dritte Person folgt, +s zu geben.
Noch ärgerlicher ist, dass dieser Abbaumechanismus noch nicht verstanden wurde.
Andernfalls sollten wir Modelle mit offensichtlicher geschlechtsspezifischer Voreingenommenheit einfach aufgeben——
Im Jahr 2018 bemerkte Amazon, dass das Modell, mit dem Lebensläufe automatisch überprüft wurden, weibliche Bewerber diskriminierte. Einfach ausblenden dieses System.
Andernfalls müssen Sie den Leistungsabfall ertragen.
Könnte es sein, dass die KI definitiv den Verstand verliert, wenn man möchte, dass KI keine Fehler-KI oder Problem-KI mehr ist?
Die Tsinghua- und Fudan-Forschung hat dazu Nein gesagt.
Ihr Forschungsgebiet ist das Vortraining von Sprachmodellen.
Das liegt daran, dass es bei verschiedenen NLP-Aufgaben magische Kraft zeigt und viele praktische Szenarien bietet.
Es ist keine gute Idee, wenn es in der Sozialarbeit wie Online-Werbung, automatisierten Lebenslauf-Screening-Systemen und geschlechtsspezifischer Bildung eingesetzt wird.
Die Forschung schlägt einen theoretischen Rahmen für den Ursprung der geschlechtsspezifischen Verzerrung der KI vor, einen kausalen Rahmen, der verwendet wird, um zu erklären, wie ein Datenungleichgewicht während des Vortrainingsprozesses zu einer geschlechtsspezifischen Verzerrung im Modell führt.
Sie definieren die geschlechtsspezifische Tendenz des vorab trainierten Modells bei der Durchführung einer bestimmten Vorhersageaufgabe wie folgt:
wobei M ist das Modell, Y ist das von M vorherzusagende Wort und B ist der Grad der geschlechtsspezifischen Voreingenommenheit von M.
Y0|W ist die Grundwahrheit, die Wahrscheinlichkeit, ein männliches oder ein weibliches Wort zu sein, beträgt die Hälfte, Y|W ist die Vorhersage von M.
Wenn Ms vorhergesagtes Y unausgeglichen und zwischen den Geschlechtern verteilt ist, dann weist Modell M eine geschlechtsspezifische Verzerrung bei der Vorhersage von Y0 basierend auf w auf.
Während des Vortrainingsprozesses bestimmt der Optimierungsalgorithmus die Parameter im Einbettungsteil und K basierend auf den Vortrainingsdaten D.
Daher führt das Datenungleichgewicht D dazu, dass das Modell falsche Parameter erhält.
Wenn beispielsweise das Wort „Arzt“ in den Trainingsdaten häufiger mit männlichem Vokabular assoziiert wird, geht das Modell davon aus, dass „Arzt“ mit „männlichem Geschlecht“ assoziiert ist.
Haben Sie dieses Dreieck gesehen? Lassen Sie uns anhand dessen erklären, warum die aktuelle Methode der KI-Korrektur es dumm macht.
Bei der Anwendung des vorab trainierten Modells zur Vorhersage von Y basierend auf W wandelt das Modell zunächst W in extrahiertes X um und bestimmt dann Y basierend auf X und K der Mittelwert.
Aufgrund der irreführenden Parameter im Tauchteil wurde W in ein falsches X umgewandelt und auch K war falsch.
Nach einer Operation führen falsches X und falsches K zusammen zu einem Y-Fehler.
Diese Fehler und ihre Wechselwirkungen führen über drei mögliche Mechanismen zu geschlechtsspezifischen Vorurteilen.
Mit anderen Worten, an diesem Punkt ist eine geschlechtsspezifische Voreingenommenheit entstanden.
Wie funktioniert die aktuelle Debiasing-Methode für pädagogische KI?
Alle aktuellen Debiasing-Methoden greifen in einen oder zwei der drei Mechanismen ein.
Die Details sind wie folgt:
Nachdem das Team das Dilemma zwischen Bias und Leistung bei aktuellen Debiasing-Methoden erläutert hatte, versuchte es, eine Methode zur Feinabstimmung vorzuschlagen.
Sie fanden heraus, dass von den drei Mechanismen D→X→Y der einzige ist, der zu geschlechtsspezifischen Vorurteilen führt und nichts mit Transformer zu tun hat.
Wenn die Feinabstimmungsmethode die Verzerrung nur über D→X→Y korrigiert, kann sie die geschlechtsspezifische Verzerrung reduzieren und gleichzeitig die Leistung des Modells beibehalten.
Basierend auf dem Zerlegungssatz führte das Team numerische Experimente durch.
Es stellt sich heraus, dass sich dieser Ansatz doppelt auszahlen kann:
Geschlechtsspezifische Vorurteile reduzieren und gleichzeitig Leistungseinbußen vermeiden.
Nach Experimenten lokalisierten die Teammitglieder die Quelle der geschlechtsspezifischen Voreingenommenheit der KI in den beiden Architekturen des Pre-Training-Modells: Worteinbettung und -konvertierung.
Dementsprechend schlug das Forschungsteam die C4D-Methode vor, die die geschlechtsspezifische Voreingenommenheit durch Anpassung der Markereinbettung verringert.
Die Kernidee dieser Methode besteht darin, die TDE-Funktion durch Korrektur des fehlgeleiteten X zu reduzieren und dadurch die Gesamtabweichung zu verringern.
Obwohl das Team nicht weiß, was die richtige Markereinbettung ist, haben sie eine verlaufsbasierte Methode entwickelt, um auf die zugrunde liegende Grundwahrheit zu schließen.
Alles ist bereit, das Team hat die C4D-Methode auf die Debiasing-Ergebnisse des GPT-2-Tests angewendet.
Die Ergebnisse zeigen, dass die C4D-Methode von allen Testmethoden die geringste Ratlosigkeit bei kleinen, mittleren und sehr großen GPT-2 aufweist.
Im groß angelegten GPT-2 belegte die Ratlosigkeit von C4D den zweiten Platz, nur 0,4 % schlechter als der höchste Wert.
Darüber hinaus hat die Methode mit der höchsten Punktzahl einen geringeren entzerrenden Effekt auf Sexismus als C4D.
Im GLUE-Datensatz erzielte die C4D-Methode die höchste Durchschnittspunktzahl.
Dies zeigt, dass C4D die geschlechtsspezifische Voreingenommenheit deutlich reduzieren und die Modellleistung aufrechterhalten kann.
Nachdem wir uns so viele theoretische Einführungen angehört haben, schauen wir uns eine Illustration an, um ein intuitives Gefühl zu bekommen.
In den drei Bildern unten stellen die blauen Punkte eine versteckte männliche Voreingenommenheit dar, und die roten Punkte stellen eine weibliche Voreingenommenheit dar.
Bild (a) ist das ursprüngliche Verständnis von KI; Bild (b) ist das Verständnis von KI, nachdem Menschen es sinnlos beschimpft haben; Bild (c) ist das Verständnis von KI, nachdem Menschen den Grund gefunden und geduldig erklärt haben.
In den Abbildungen (b) und (c) sind die Einbettungen von männlicher und weiblicher Voreingenommenheit stärker konzentriert, was bedeutet, dass der Grad der Voreingenommenheit geringer ist.
Gleichzeitig ist zu erkennen, dass die Einbettung in Abbildung (c) weiterhin die Topologie in Abbildung (a) beibehält, weshalb die C4D-Methode die Modellleistung aufrechterhalten kann.
Forscher: Es könnte auch in der Lage sein, andere Vorurteile der KI zu reduzieren
„Obwohl diese Methode die geschlechtsspezifische Voreingenommenheit der KI in Sprachmodellen wirksam lindern kann, reicht sie immer noch nicht aus, um sie vollständig zu beseitigen.“
——Forscher ehrlich gesagt wies auf dieses Problem hin.
Wenn Sie die KI-Verzerrung weiter korrigieren möchten, ohne die KI-Leistung zu beeinträchtigen, müssen Sie den Mechanismus von Sprachmodellen besser verstehen.
Wie können wir es besser verstehen?
Einerseits verwenden wir die in dieser Studie vorgeschlagene „C4D-Methode“, um andere Vorurteile in der KI zu testen.
Das Hauptforschungsobjekt dieses Experiments ist: Geschlechtervoreingenommenheit am Arbeitsplatz.
Da die KI bereits zuvor ständig alle Arten von Informationen gelernt hat, ist sie die Art, die jeden akzeptiert, der kommt. Dadurch hat sie sich versehentlich die inhärenten sozialen Probleme wie religiöse Diskriminierung und Anti-Schwarz-Weiß-Präferenz zugezogen. ..
Sie können also genauso gut zu GPT-2 gehen und den endgültigen Effekt der Beseitigung anderer Vorurteile testen.
Andererseits können Sie die „C4D-Methode“ an einer Vielzahl großer Modelle ausprobieren.
Neben dem in dieser Studie verwendeten GPT-2, wie dem von Google entwickelten klassischen NLP-Pre-Training-Modell BERT, ist es auch ein gutes Testszenario.
Wenn Sie es jedoch auf andere Modelle übertragen möchten, müssen Sie die Korrekturvorlage neu generieren und möglicherweise die Funktion TDE (Template Driven Extraction) mit mehreren Variablen verwenden.
Mit der TDE-Funktion können Sie Inhalte direkt in den Index einfügen, ohne die Dokumentstruktur zu ändern.
Einige Internetnutzer kamen mit einem Hundekopf im Arm:
Im Allgemeinen ist es unvermeidlich, beim Eintritt in die Gesellschaft eine „Stolper-KI“ zu werden.
Aber wenn Sie den verlorenen Sohn der „KI, die einen Fehler gemacht hat“ umkehren möchten, die richtige Methode und den richtigen Grund dafür finden, werden immer noch gute Ergebnisse erzielt~
Außerdem, eines der Mitglieder der Forschung Team, Yu Yang von der Tsinghua-Universität, sagte auf seinem persönlichen Weibo, dass es in den nächsten zwei Tagen auch eine Website zur Abfrage von Geschlechterdiskriminierung in KI-Modellen geben wird.
Du kannst dich darauf freuen!
Papieradresse: https://arxiv.org/abs/2211.07350 Referenzlink: https://weibo.com/1645372340/Mi4E43PUY#comment
Das obige ist der detaillierte Inhalt vonUm eine KI zu retten, die einen Fehler gemacht hat, kann man sich nicht nur auf Schläge und Beschimpfungen verlassen.. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!