Heim >Technologie-Peripheriegeräte >KI >Microsoft veröffentlicht Phi-3, das eine bessere Leistung als Llama-3 bietet und auf Mobiltelefonen ausgeführt werden kann

Microsoft veröffentlicht Phi-3, das eine bessere Leistung als Llama-3 bietet und auf Mobiltelefonen ausgeführt werden kann

王林nach vorne: 2024-04-24 13:55:251245Durchsuche

Daten sind zum Schwerpunkt bei der Verbesserung der Fähigkeiten großer Modelle geworden.

Nicht lange nach der Veröffentlichung von Llama-3 kamen Konkurrenten, und zwar kleine Modelle, die auf Mobiltelefonen laufen konnten.

Am Dienstag veröffentlichte Microsoft sein selbst entwickeltes Kleinmodell Phi-3.

Das neue Modell verfügt über drei Versionen, darunter ein Sprachmodell mit 3,8 Milliarden Parametern. Nach dem Training mit 3,3 Billionen Token hat seine Gesamtleistung bei akademischen Benchmarks und internen Tests hervorragende Ergebnisse erzielt.

Obwohl Phi-3 mini für den Einsatz auf Mobiltelefonen optimiert ist, ist seine Leistung mit Modellen wie Mixtral 8x7B und GPT-3.5 vergleichbar. Microsoft sagte, die Innovation liege vor allem in den für das Training verwendeten Datensätzen.

Microsoft veröffentlicht Phi-3, das eine bessere Leistung als Llama-3 bietet und auf Mobiltelefonen ausgeführt werden kann

Gleichzeitig verwendet Phi-3 die gleiche Architektur wie Llama-2, was es für die Open-Source-Community einfacher macht, auf dieser Basis zu entwickeln.

Zuvor haben die Modelle der Phi-Serie von Microsoft heftige Diskussionen ausgelöst. Im Juni letzten Jahres veröffentlichte Microsoft das Papier „Textbooks Are All You Need“, in dem nur 7B-Token-Daten in „Lehrbuchqualität“ verwendet wurden, um den B-Parameter 1.3 zu trainieren Modell phi-1 erreicht eine gute Leistung.

Im vergangenen September hat Microsoft diesen Weg weiter erforscht und dem 1.3B-Parameter-Transformer-Architektur-Sprachmodell Phi-1.5 ermöglicht, leistungsstarke Codierungsfunktionen zu zeigen.

Der Ende letzten Jahres von Microsoft vorgeschlagene Phi-2 verfügt über eine gewisse Fähigkeit zum gesunden Menschenverstand und seine zahlreichen Benchmark-Testergebnisse übertreffen Llama2 7B, Llama2 13B, Mistral 7B und andere fortgeschrittene Modelle auf dem 2,7B-Niveau.

Technischer Bericht zu Phi-3: https://arxiv.org/abs/2404.14219

Der gerade vorgeschlagene Phi-3-mini ist eine 3,8-Milliarden-Parameter-Sprache, die auf einem 3,3-Billionen-Token-Modell trainiert wurde. Experimentelle Tests zeigen, dass die Gesamtleistung von phi-3-mini mit Modellen wie Mixtral 8x7B und GPT-3.5 vergleichbar ist. Beispielsweise erreicht phi-3-mini 69 % auf MMLU und 8,38 auf MT-Bench.

Die früheren Untersuchungen von Microsoft zur Phi-Modellreihe haben gezeigt, dass hochwertige „Small Data“ es kleineren Modellen ermöglichen können, eine gute Leistung zu erzielen. Phi-3-mini wird auf stark gefilterte Netzwerkdaten und synthetische Daten trainiert (ähnlich wie Phi-2) und weiter auf Robustheit, Sicherheit und Chat-Format abgestimmt.

Darüber hinaus liefert das Forschungsteam auch erste Parametererweiterungsergebnisse für 7B- und 14B-Modelle, die für 4,8T-Token trainiert wurden, genannt phi-3-small und phi-3-medium, die beide größer als phi-3 sind - Mini ist leistungsfähiger. Akademische Benchmarks Die Vergleichsergebnisse zwischen instruct8B und GPT-3.5 sind in der folgenden Tabelle aufgeführt. Um die Vergleichbarkeit zu gewährleisten, werden alle Ergebnisse über genau dieselbe Pipeline erhalten.

Sicherheit

Phi-3-mini wurde in Übereinstimmung mit den Microsoft Principles for Responsible Artificial Intelligence entwickelt. Der Gesamtansatz zur Sicherung großer Modelle umfasst Sicherheitsoptimierungen nach dem Training, Red-Teaming-Tests, automatisierte Tests und die Bewertung Dutzender RAI-Gefahrenkategorien. Microsoft nutzt einen modifizierten nützlichen und harmlosen Präferenzdatensatz [BJN+ 22, JLD+ 23], der von [BSA+ 24] inspiriert wurde, und mehrere intern generierte Datensätze, um RAI-Gefahrenkategorien für die Sicherheit nach dem Training zu berücksichtigen. Ein unabhängiges Red-Team bei Microsoft hat phi-3-mini erneut untersucht, um weitere Verbesserungsmöglichkeiten im Post-Training-Prozess zu identifizieren.

Basierend auf dem Feedback des roten Teams hat das Forschungsteam zusätzliche Datensätze zusammengestellt, um den Datensatz nach dem Training zu verbessern. Dieser Prozess führte zu einer erheblichen Reduzierung der schädlichen Antwortraten, wie in Abbildung 3 dargestellt.

Die folgende Tabelle zeigt die internen Mehrrunden-Dialog-RAI-Benchmark-Ergebnisse von phi-3-mini-4k und phi-3-mini-128k mit phi-2, Mistral-7B-v0.1, Gemma 7B.Dieser Benchmark nutzt GPT-4, um mehrere Gesprächsrunden in fünf verschiedenen Kategorien zu simulieren und Modellantworten auszuwerten.

Defekte

Microsoft sagte, dass das Phi-3-Mini-Modell in Bezug auf die LLM-Fähigkeiten zwar ein ähnliches Niveau an Sprachverständnis und Argumentationsfähigkeiten wie das große Modell erreicht hat, bei einigen jedoch versagt Aufgaben Immer noch grundsätzlich durch seine Größe begrenzt. Beispielsweise verfügt das Modell einfach nicht über die Fähigkeit, viel „Faktenwissen“ zu speichern, was sich auch an der niedrigen Bewertung auf TriviaQA zeigt. Forscher glauben jedoch, dass diese Probleme durch Suchmaschinenverbesserungen behoben werden können.

^{Referenzinhalt:}^{https://news.ycombinator.com/item?id=40127806}

Das obige ist der detaillierte Inhalt vonMicrosoft veröffentlicht Phi-3, das eine bessere Leistung als Llama-3 bietet und auf Mobiltelefonen ausgeführt werden kann. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

架构 Token 人工智能 transformer https 搜索引擎自动化 gpt llama

Stellungnahme：

Dieser Artikel ist reproduziert unter:jiqizhixin.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen

Vorheriger Artikel：Vier neue Trends im Supply Chain ManagementNächster Artikel：Vier neue Trends im Supply Chain Management

In Verbindung stehende Artikel

Mehr sehen