Heim  >  Artikel  >  Technologie-Peripheriegeräte  >  ChatGLM, das auf Tsinghua basierende Gigabit-Basiskonversationsmodell, hat interne Tests gestartet und ist eine Open-Source-Einzelkartenversion des Modells.

ChatGLM, das auf Tsinghua basierende Gigabit-Basiskonversationsmodell, hat interne Tests gestartet und ist eine Open-Source-Einzelkartenversion des Modells.

王林
王林nach vorne
2023-04-30 10:55:061262Durchsuche

Die Veröffentlichung von ChatGPT hat den gesamten KI-Bereich aufgewühlt, und große Technologieunternehmen, Startups und Universitätsteams folgen diesem Beispiel. Kürzlich hat Heart of the Machine über die Forschungsergebnisse vieler Startup-Unternehmen und Universitätsteams berichtet.

Gestern feierte ein weiteres groß angelegtes inländisches KI-Dialogmodell sein großes Debüt: ChatGLM, die intelligente Spektrum-KI des Unternehmens, die auf den technologischen Errungenschaften von Tsinghua basiert und auf dem GLM-130B basiert 100-Milliarden-Basismodell Die geschlossene Beta nur auf Einladung ist jetzt geöffnet.

Erwähnenswert ist, dass Zhipu AI auch das zweisprachige Chinesisch-Englisch-Dialogmodell ChatGLM-6B als Open-Source-Version bereitgestellt hat, das Inferenz auf einer einzigen Consumer-Grafikkarte unterstützt. .

ChatGLM, das auf Tsinghua basierende Gigabit-Basiskonversationsmodell, hat interne Tests gestartet und ist eine Open-Source-Einzelkartenversion des Modells.

Intern Beta Anwendungswebsite: chatglm.cn

Es versteht sich, dass die Leistungsverbesserung der aktuellen Version des ChatGLM-Modells hauptsächlich auf das einzigartige 100-Milliarden-Basismodell GLM zurückzuführen ist -130B. Es handelt sich um eine andere Architektur als BERT, GPT-3 und T5. Es handelt sich um ein autoregressives Pre-Training-Modell, das Funktionen mit mehreren Zielen enthält.

Im August 2022 stellte die Tsinghua-Universität der Forschungsgemeinschaft und der Industrie gemeinsam das chinesisch-englische zweisprachige dichte Modell GLM-130B mit 130 Milliarden Parametern vor Vorteile:

  • Zweisprachig: unterstützt sowohl Chinesisch als auch Englisch;
  • #🎜🎜 #Hohe Genauigkeit (Englisch ): Besser als GPT-3 175B (API: davinci, Basismodell), OPT-175B und BLOOM-176B auf den öffentlichen englischen Listen für natürliche Sprache LAMBADA, MMLU und Big-bench-lite;# 🎜🎜## 🎜🎜#Hohe Genauigkeit (Chinesisch): deutlich besser als ERNIE TITAN 3.0 260B und YUAN 1.0-245B bei 7 Nullstichproben-CLUE-Datensätzen und 5 Nullstichproben-FewCLUE-Datensätzen ;
  • Schnelle Inferenz: Das erste 100-Milliarden-Modell, das die INT4-Quantifizierung implementiert und eine schnelle und grundsätzlich verlustfreie Inferenz mit einem 3090-Server mit 4 Karten oder einem 2080Ti-Server mit 8 Karten unterstützt;# 🎜🎜#
  • #🎜 🎜#
  • Reproduzierbarkeit: Alle Ergebnisse (mehr als 30 Aufgaben) sind mit unserem Open-Source-Code und unseren Modellparametern reproduzierbar;# 🎜🎜#
  • Plattformübergreifend: Unterstützt Training und Rückschluss auf inländische Haiguang DCU-, Huawei Ascend 910- und Sunway-Prozessoren sowie amerikanische NVIDIA-Chips.
  • Jetzt hat ChatGLM unter Bezugnahme auf die Designideen von ChatGPT ein Code-Vortraining in das GLM-130B-Basismodell eingefügt und durch überwachte Fein- Tuning (Supervised Fine-Tuning) und andere Technologien erreichen die Ausrichtung menschlicher Absichten.
Heart of the Machine hat den Einladungscode für die Closed Beta erhalten, der Effekt ist wie folgt:

#🎜 🎜## 🎜🎜#

Es kann die tatsächliche Bedeutung von „Station CP“ verstehen:

ChatGLM, das auf Tsinghua basierende Gigabit-Basiskonversationsmodell, hat interne Tests gestartet und ist eine Open-Source-Einzelkartenversion des Modells. Geben Sie ChatGLM eine Mathe-Frage zum Ausprobieren:

#🎜 🎜#Seit ich einmal binäre Gleichungen gelernt habe, sind einfache „Huhn und Kaninchen im selben Käfig“-Probleme wie diese für ihn nicht mehr schwierig: #

Open Source ChatGLM-6B

ChatGLM-6B ist ein Open-Source-Dialogsprachenmodell, das zweisprachige Fragen und Antworten auf Chinesisch und Englisch unterstützt und für Chinesisch optimiert ist. Das Modell basiert auf der General Language Model (GLM)-Architektur und verfügt über 6,2 Milliarden Parameter. In Kombination mit der Modellquantisierungstechnologie können Benutzer es lokal auf Grafikkarten der Verbraucherklasse bereitstellen (auf der INT4-Quantisierungsebene sind mindestens 6 GB Videospeicher erforderlich). ChatGLM-6B nutzt die gleiche Technologie wie ChatGLM und ist für chinesische Fragen und Antworten sowie Dialoge optimiert. Nach zweisprachigem Training in Chinesisch und Englisch mit etwa 1T-Identifikatoren, ergänzt durch überwachte Feinabstimmung, Feedback-Selbstbedienung, Lernen zur Verstärkung menschlicher Rückmeldungen und anderen Technologien, ist der 6,2-Milliarden-Parameter ChatGLM-6B zwar nicht so groß wie das 100-Milliarden-Modell, hat die Inferenzkosten erheblich reduziert und verbessert. Es hat eine verbesserte Effizienz und kann bereits Antworten generieren, die durchaus mit den menschlichen Vorlieben übereinstimmen.

Modell-Open-Source-Adresse: https://github.com/THUDM/ChatGLM-6B

ChatGLM-6B verfügt insbesondere über die folgenden Funktionen:

  • Vollständige zweisprachige Vorschulung auf Chinesisch und Englisch: ChatGLM-6B hat 1T-Tokens auf chinesische und englische Materialien im Verhältnis 1:1 trainiert und verfügt über zweisprachige Funktionen.
  • Optimierte Modellarchitektur und -größe: Basierend auf der GLM-130B-Schulungserfahrung wurde die Implementierung der 2D-RoPE-Positionskodierung unter Verwendung der traditionellen FFN-Struktur überarbeitet. Die Parametergröße von 6B (6,2 Milliarden) ermöglicht es Forschern und einzelnen Entwicklern auch, ChatGLM-6B selbst zu optimieren und bereitzustellen.
  • Unterer Bereitstellungsschwellenwert: Bei FP16 halber Genauigkeit benötigt ChatGLM-6B mindestens 13 GB Videospeicher für die Inferenz. In Kombination mit der Modellquantisierungstechnologie kann dieser Bedarf weiter auf 10 GB (INT8) und 6 GB (INT4) reduziert werden. Dadurch kann ChatGLM-6B auf Grafikkarten der Endverbraucherklasse eingesetzt werden.
  • Längere Sequenzlänge: Im Vergleich zu GLM-10B (Sequenzlänge 1024) hat ChatGLM-6B eine Sequenzlänge von 2048 und unterstützt damit längere Gespräche und Anwendungen.
  • Training zur Ausrichtung menschlicher Absichten: Überwachte Feinabstimmung, Feedback-Bootstrap, verstärkendes Lernen aus menschlichem Feedback und andere Methoden werden verwendet, um dem Modell zu ermöglichen, zunächst die Absicht menschlicher Anweisungen zu verstehen. Das Ausgabeformat ist Markdown zur einfachen Anzeige.

Aufgrund der geringen Kapazität des ChatGLM-6B-Modells gibt es jedoch zwangsläufig einige Einschränkungen und Mängel, darunter:

  • Relativ schwaches Modellgedächtnis und Sprachfähigkeiten. ChatGLM-6B generiert möglicherweise falsche Informationen, wenn es mit vielen Sachwissensaufgaben konfrontiert wird, und ist nicht sehr gut bei der Lösung logischer Probleme (z. B. Mathematik, Programmierung).
  • Kann schädliche Beschreibungen oder voreingenommene Inhalte erzeugen: ChatGLM-6B ist nur ein vorläufiges Sprachmodell, das auf menschliche Absichten ausgerichtet ist und möglicherweise schädliche und voreingenommene Inhalte generiert.
  • Schwache Fähigkeit zur Konversation in mehreren Runden: Die Kontextverständnisfähigkeit von ChatGLM-6B reicht nicht aus. Bei langen Antwortgenerierungs- und Konversationsszenarien in mehreren Runden kann es zu Kontextverlusten und Verständnisfehlern kommen.

Das GLM-Team gab an, dass ChatGLM immer noch weit hinter der internationalen Spitzenforschung und den Produkten für große Modelle zurückbleibt. Es wird auch in Zukunft weiterhin aktualisierte Versionen von ChatGLM und verwandten Modellen entwickeln und veröffentlichen. Das GLM-Team heißt außerdem jeden herzlich willkommen, ChatGLM-6B herunterzuladen und darauf basierend Forschung und (nichtkommerzielle) Anwendungsentwicklung durchzuführen.

Das obige ist der detaillierte Inhalt vonChatGLM, das auf Tsinghua basierende Gigabit-Basiskonversationsmodell, hat interne Tests gestartet und ist eine Open-Source-Einzelkartenversion des Modells.. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Dieser Artikel ist reproduziert unter:51cto.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen