suchen
Heimweb3.0IVG: Integration menschlicher Werte in große Sprachmodelle zur Inferenzzeit

IVG: Integration menschlicher Werte in große Sprachmodelle zur Inferenzzeit

Oct 03, 2024 pm 03:16 PM
AIIntegrated Value Guidance Implicit and Explicit Value Functions Token-Wise Sampling Chunk-Level Beam Search

Forscher entwickelten Inferenzzeit-Ausrichtungsmethoden, um menschliche Werte zu integrieren, nachdem sie LLMs mithilfe der impliziten und expliziten Funktionen verfeinert hatten, ohne das Basismodell zu ändern.

IVG: Integration menschlicher Werte in große Sprachmodelle zur Inferenzzeit

Die Integration menschlicher Werte nach dem Training eines Modells mit lernbasierten Algorithmen erfordert eine Feinabstimmung von LLMs, was rechenintensiv und zeitaufwändig ist. Darüber hinaus führt es zu voreingenommenen und unerwünschten Reaktionen des Benutzers. Benötigt wird ein Modell, das sich in Echtzeit effizient an Benutzerpräferenzen anpassen kann, indem es Algorithmen integriert, die zum Zeitpunkt der Inferenz interferieren können. Diese Methode vermeidet ein wiederholtes erneutes Trainieren der Modelle für gewünschte Ergebnisse, indem das Basismodell eingefroren und der Rechenaufwand für die Feinabstimmung von LLMs reduziert wird.

Forscher entwickelten Inferenzzeit-Ausrichtungsmethoden, um menschliche Werte zu integrieren, nachdem sie LLMs mithilfe der impliziten und expliziten Funktionen verfeinert hatten, ohne das Basismodell zu ändern. Für die Token-Generierung werden implizite Funktionen verwendet, die wortweise Auswertungen durchführen und die Ausgabe mit der höchsten Wahrscheinlichkeit bevorzugen. Im Gegensatz dazu erfordern explizite Funktionen eine starre Struktur, um größere Textabschnitte auszuwerten und die folgende Wortfolge mit der höchsten Wahrscheinlichkeit zu generieren und dabei den Gesamtkontext beizubehalten. Die explizite Funktion ist unflexibel und rechenintensiv und kann die Optimierung auf Token-Ebene nicht berücksichtigen, während die implizite Funktion mit Problemen bei der Interpretierbarkeit konfrontiert ist und häufige Vorwärtsdurchläufe erfordert, was zu einer geringen Echtzeiteffizienz führt.

Um die Nachteile beider Funktionen anzugehen, kombiniert die vorgeschlagene Methode, Integrated Value Guidance (IVG), die Optimierung auf Token-Ebene der impliziten Funktion und die breitere Perspektive der expliziten Funktion. Es war in der Lage, Anpassungsherausforderungen und Kompromisse bei der Ausrichtungseffizienz abzuwehren, was zu geringeren Leistungsunterschieden führte und die Implementierung erleichterte. Diese Vorteile ermöglichten eine bessere Leistung bei Aufgaben wie der kontrollierten Sentimentgenerierung und -zusammenfassung. IVG könnte in Kombination mit kleineren Modellen wie GPT-2 mit höheren Modellen konkurrieren.

IVG integriert die beiden Wertfunktionen, die implizite und die explizite Funktion, um das Modell an menschlichen Werten auszurichten. Erstens werden durch tokenweises Sampling einzelne Token auf eine bestimmte Sequenzlänge abgestimmt, wodurch mehrere Sequenzen generiert werden. Anschließend vergleicht die Strahlsuche auf Chunk-Ebene die Wahrscheinlichkeiten dieser Sequenzen und wählt die Sequenz mit der höchsten Wahrscheinlichkeit aus. Obwohl diese Methode sicherstellt, dass die Ausgabe robuster ist, steigt die Rechenleistung während der Inferenzzeit aufgrund häufiger Vorwärtsdurchläufe, was zu langsameren Antworten führt.

Forscher haben zwei Versuchsanordnungen verwendet, um IVG zu evaluieren: 1. Kontrollierte Stimmungserzeugung und -zusammenfassung und 2. Befolgen von Anweisungen. Im ersten Fall wird die GPT-2-Modellfamilie verwendet, indem synthetische Datensätze aus einem Gold-Belohnungsmodell genutzt werden, um positive Filmrezensionen zu generieren und Reddit-Beiträge zusammenzufassen. Im Vergleich dazu erfordert das zweite ein auf Anweisungen abgestimmtes Modell, AlpacaEval 2.0. Es verwendet Tulu Guidance, das spezifische Modelle für implizite Funktionen verwendet und ein belohnungsbasiertes Modell für die explizite Funktion trainiert, und Ultraguidance, das ein Modell mit Direct Preference Optimization (DPO) für beide Funktionen verfeinert. GPT-4-turbo wurde als Referenz zur Bewertung der Reaktionen im zweiten Experiment verwendet, und IVG schnitt durchweg gut ab.

Zusätzlich zu diesen beiden Experimenten hat eine Ablationsstudie gezeigt, dass Chunk-Level Beam Search (CBS) eine höhere Geschwindigkeitseffizienz aufweist als Emulator Fine-Tuning (EFT), das die implizite Funktion zur Feinabstimmung verwendet. Diese Ergebnisse haben bewiesen, dass CBS in der Praxis viel besser anzuwenden ist.

Zusammenfassend lässt sich sagen, dass Integrated Value Guidance (IVG) einen neuartigen und effizienten Ansatz bietet, um große Sprachmodelle ausschließlich zum Zeitpunkt der Inferenz an menschlichen Präferenzen auszurichten und dabei die Komplexität der traditionellen Feinabstimmung zu umgehen. Durch die Nutzung impliziter und expliziter Wertfunktionen steigert IVG die Leistung sowohl beim tokenweisen Sampling als auch bei der Decodierung auf Chunk-Ebene, was sich in deutlichen Verbesserungen bei Sentiment-Generierung, Zusammenfassung und Befehlsfolgeaufgaben zeigt. Die Ergebnisse zeigten, dass IVG eine vielseitige Methode ist, die starke empirische Belege für ihre Fähigkeit liefert, bestehende Ansätze zu übertreffen, was sie zu einer vielversprechenden Lösung für die Feinabstimmung großer Modelle in realen Anwendungen macht.

Vergessen Sie nicht, unserem 50k ML SubReddit beizutreten

Möchten Sie eine Million KI-Leser erreichen? Arbeiten Sie hier mit uns

Das obige ist der detaillierte Inhalt vonIVG: Integration menschlicher Werte in große Sprachmodelle zur Inferenzzeit. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Der PI -Netzwerk -Token -Preis hat in der vergangenen Woche um mehr als 14% gestiegen.Der PI -Netzwerk -Token -Preis hat in der vergangenen Woche um mehr als 14% gestiegen.Apr 16, 2025 am 11:22 AM

Zum Zeitpunkt des Drucks wird PI nach seiner Integration mit ChainLink am 12. April bei 0,6711 USD gehandelt. Die Ankündigung verursachte einen Anstieg des PI -Preispreises

Weitere Gründe, bei Sui optimistisch zu sein, wenn der Preis die Prime -Kaufzone erreichtWeitere Gründe, bei Sui optimistisch zu sein, wenn der Preis die Prime -Kaufzone erreichtApr 16, 2025 am 11:20 AM

Ein Analyst bei X, Frigg, hebt mehrere Gründe auf, um die SUI -Netzwerkpreis -Trajektorie optimistisch zu sein.

Das Bitcoin (BTC) -Stiment wird gestern bullisch, da über 467 Millionen US -Dollar der Kryptowährung zurückgezogen wurdenDas Bitcoin (BTC) -Stiment wird gestern bullisch, da über 467 Millionen US -Dollar der Kryptowährung zurückgezogen wurdenApr 16, 2025 am 11:18 AM

Nach den von Intotheblock veröffentlichten heutigen Daten erscheint das Gefühl von Bitcoin in Richtung Bullisum.

Movement Labs und die Movement Network Foundation haben eine unabhängige Untersuchung zu jüngsten marktempfindlichen Unregelmäßigkeiten im Zusammenhang mit dem Move-Token eingeleitet.Movement Labs und die Movement Network Foundation haben eine unabhängige Untersuchung zu jüngsten marktempfindlichen Unregelmäßigkeiten im Zusammenhang mit dem Move-Token eingeleitet.Apr 16, 2025 am 11:16 AM

NT Labs und die Movement Network Foundation starten unabhängige Untersuchungen in Move Token Market-Making-Unregelmäßigkeiten

Eine Kapitalwelle fließt aus Ethereum [ETH] in Tron [TRX]Eine Kapitalwelle fließt aus Ethereum [ETH] in Tron [TRX]Apr 16, 2025 am 11:14 AM

Mit 1,52 Milliarden US-Dollar in Stablecoins, die zu Tron wandern, scheinen die Anleger tiefere Ketten zu bevorzugen und sich über die traditionellen USD-unterstützten Vermögenswerte hinaus zu diversifizieren.

John Patrick Mullin, CEO von Mantra, verbrennt seine Zuweisung von Om -Token, um das Vertrauen der Anleger wiederherzustellenJohn Patrick Mullin, CEO von Mantra, verbrennt seine Zuweisung von Om -Token, um das Vertrauen der Anleger wiederherzustellenApr 16, 2025 am 11:12 AM

John Patrick Mullin, CEO von Mantra, hat vorgeschlagen, seine Zuweisung von Om -Token in einem Schritt zu verbrennen, um das Vertrauen der Anleger wiederherzustellen, nachdem das native Token des Protokolls einen scharfen Zusammenbruch erlitten hatte.

Jüngste Marktbewegungen und technische Analysen legen nahe, dass Bonk kurz vor einem signifikanten Preissturm steht und das breitere Ökosystem von Solana übertrifft.Jüngste Marktbewegungen und technische Analysen legen nahe, dass Bonk kurz vor einem signifikanten Preissturm steht und das breitere Ökosystem von Solana übertrifft.Apr 16, 2025 am 11:10 AM

Technisches Setup für Bonk Price Recovery Nach Angaben des prominenten Krypto -Analysts Altcoin Sherpa zeigt Bonk Anzeichen für eine mögliche Erholung.

Verbrief erwirbt MG Stovers Fonds -Verwaltungsgeschäft, um der größte Digital Asset Fund Administrator zu werdenVerbrief erwirbt MG Stovers Fonds -Verwaltungsgeschäft, um der größte Digital Asset Fund Administrator zu werdenApr 16, 2025 am 11:08 AM

Seets, einer der größten tokenisierten Emittenten, sagte am Dienstag, es habe am Dienstag die Fondsverwaltung von MG Stover erworben

Heiße KI -Werkzeuge

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)
1 Monate vorBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Beste grafische Einstellungen
1 Monate vorBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. So reparieren Sie Audio, wenn Sie niemanden hören können
1 Monate vorBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Chat -Befehle und wie man sie benutzt
1 Monate vorBy尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

WebStorm-Mac-Version

WebStorm-Mac-Version

Nützliche JavaScript-Entwicklungstools

Notepad++7.3.1

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

EditPlus chinesische Crack-Version

EditPlus chinesische Crack-Version

Geringe Größe, Syntaxhervorhebung, unterstützt keine Code-Eingabeaufforderungsfunktion

SublimeText3 chinesische Version

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

VSCode Windows 64-Bit-Download

VSCode Windows 64-Bit-Download

Ein kostenloser und leistungsstarker IDE-Editor von Microsoft