Heim >Technologie-Peripheriegeräte >KI >Meta führt das KI-Sprachmodell LLaMA ein, ein groß angelegtes Sprachmodell mit 65 Milliarden Parametern
Nachrichten vom 25. Februar: Meta gab am Freitag Ortszeit bekannt, dass es ein neues groß angelegtes Sprachmodell auf Basis künstlicher Intelligenz (KI) für die Forschungsgemeinschaft einführen wird. , und nehmen zusammen mit Microsoft, Google und anderen von ChatGPT geförderten Unternehmen am Wettbewerb für künstliche Intelligenz teil.
Meta's LLaMA ist die Abkürzung für „Large Language Model Meta AI“ (Large Language Model Meta AI), das unter einer nichtkommerziellen Lizenz für Forscher und Einrichtungen verfügbar ist, die in Regierung, Gemeinschaft und Wissenschaft tätig sind .
Das Unternehmen stellt den Benutzern den zugrunde liegenden Code zur Verfügung, sodass sie das Modell selbst optimieren und für forschungsbezogene Anwendungsfälle verwenden können. Meta sagte, der Rechenleistungsbedarf des Modells sei „viel geringer“.
Berichten zufolge entwickelt das Unternehmen LLaMA mit mehreren Parametern (7B, 13B, 33B und 65B). Unter ihnen wurden LLaMA 65B und LLaMA 33B mit 1,4 Billionen Token trainiert, und das kleinste Modell LLaMA 7B wurde ebenfalls mit 1 Billion Token trainiert.
Wie andere große Sprachmodelle funktioniert LLaMA, indem es eine Folge von Wörtern als „Eingabe“ nimmt und das nächste Wort vorhersagt, um rekursiv Text zu generieren. Für diesen Modellsatz wählte Meta Texte aus den 20 am häufigsten gesprochenen Sprachen für das Training aus, wobei der Schwerpunkt auf Latein und Kyrillisch lag.
Wie andere Modelle steht auch LLaMA natürlich vor den Herausforderungen von Voreingenommenheit, toxischen Kommentaren und Halluzinationen, und Meta muss mehr Forschung betreiben, um die Mängel dieser Art von Sprachmodell zu beheben.
Meta sagt, dass LLaMA als Basismodell vielseitig einsetzbar ist und auf viele verschiedene Anwendungsfälle angewendet werden kann, und kein fein abgestimmtes Modell, das für eine bestimmte Aufgabe entwickelt wurde. Durch die Open-Source-Bereitstellung des LLaMA-Codes können andere Forscher leichter neue Wege finden, diese Probleme einzuschränken oder zu beseitigen. Meta stellt in diesem Artikel auch eine Reihe von Benchmark-Bewertungskriterien zur Bewertung von Modellverzerrungen und -toxizität bereit, um Modellbeschränkungen aufzuzeigen und Forscher bei der weiteren Forschung in diesem kritischen Bereich zu unterstützen.
Es ist erwähnenswert, dass Meta im Mai letzten Jahres auch das große Sprachmodell OPT-175B auf den Markt gebracht hat. Das Projekt richtet sich auch an Forscher und bildet die Grundlage für eine neue Iteration seines Chatbots Blenderbot.
Später brachte das Unternehmen auch ein Modell namens Galactica auf den Markt, von dem es sagte, es könne wissenschaftliche Artikel schreiben und mathematische Probleme lösen, aber seine Demoversion wurde später aus den Regalen genommen, weil es wiederholt „autoritär klingende“ Ergebnisse erzeugt " Inhalt.
IT-Startseite mit offiziellem Link:
Das obige ist der detaillierte Inhalt vonMeta führt das KI-Sprachmodell LLaMA ein, ein groß angelegtes Sprachmodell mit 65 Milliarden Parametern. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!