Heim >Technologie-Peripheriegeräte >KI >Einführung in Falcon 40b: Architektur, Trainingsdaten und Funktionen
In diesem Artikel wird Falcon 40b untersucht, ein leistungsstarkes Open-Source-großes Sprachmodell (LLM), das vom Technology Innovation Institute (TII) entwickelt wurde. Vor dem Tauchen wird ein grundlegendes Verständnis des maschinellen Lernens und der Verarbeitung natürlicher Sprache (NLP) empfohlen. Betrachten Sie unseren KI -Fundamentals -Skill -Track für eine umfassende Einführung in Schlüsselkonzepte wie Chatgpt, LLMs und generatives AI.
Falcon 40b
verstehenFalcon 40b gehört neben Falcon 7b und Falcon 180b zur TII -Familie der Falcon -Familie von LLMs. Als nur kausales Decoder-Modell zeichnet es sich an verschiedenen Aufgaben der natürlichen Spracherzeugung aus. Zu den mehrsprachigen Fähigkeiten gehören Englisch, Deutsch, Spanisch und Französisch mit teilweise Unterstützung für mehrere andere Sprachen.
Modellarchitektur und Training
Die Architektur vonFalcon 40b, eine modifizierte Version von GPT-3, verwendet Rotary-Positions-Einbettungen und verbesserte Aufmerksamkeitsmechanismen (Multi-Query-Aufmerksamkeit und Flashattention). Der Decoderblock verwendet parallele Aufmerksamkeit und MLP-Strukturen mit einem zweischichtigen Normalisierungsschema für die Effizienz. Das Training umfasste 1 Billionen Token aus Raffinedweb, einem hochwertigen, deduplizierten Internet-Korpus, und verwendete 384 A100 40 GB GPUs für AWS Sagemaker.
Bild aus Falcon Blog
Schlüsselmerkmale und Vorteile
Die Multi-Quer-Aufmerksamkeitsmechanismus von Falcon 40b verbessert die Skalierbarkeit der Inferenz, ohne sich signifikant zu beeinflussen. Die Unterrichtsversionen (Falcon-7b-Instruction und Falcon-40b-Instruct) sind ebenfalls erhältlich und für eine verbesserte Leistung bei Aufgaben im Assistenten im Stil der Assistenten. Die Apache 2.0 -Lizenz ermöglicht die kommerzielle Verwendung ohne Einschränkungen. Benchmarking auf der Openllm-Rangliste zeigt Falcon 40b, die andere Open-Source-Modelle wie Lama, Stablelm, Redpajama und MPT.übertreffen.
Bild von Open LLM Ranglastraft
Erste Schritte: Inferenz und Feinabstimmung
Ausführen von Falcon 40b erfordert erhebliche GPU -Ressourcen. Während die 4-Bit-Quantisierung die Ausführung auf 40 GB A100 GPUs ermöglicht, ist der kleinere Falcon 7b besser für Hardware für Verbraucherqualität, einschließlich Google Colab, geeignet. Die vorgesehenen Code-Beispiele zeigen Inferenz mit 4-Bit-Quantisierung für Falcon 7b auf Colab. Die Feinabstimmung mit Qlora und der SFT-Trainer wird ebenfalls besprochen, wodurch die TRL-Bibliothek für eine effiziente Anpassung an neue Datensätze eingesetzt wird. Das Beispiel verwendet den Guanaco -Datensatz.
Falcon-180b: ein riesiger Sprung
Falcon-180b, ausgebildet auf 3,5 Billionen Token, übertrifft sogar Falcon 40b in der Leistung. Die 180 Milliarden Parameter erfordern jedoch erhebliche Rechenressourcen (ungefähr 8xa100 80 GB GPUs) für die Inferenz. Die Veröffentlichung von Falcon-180B-CHAT, die für Gesprächsaufgaben fein abgestimmt, bietet eine zugängliche Alternative.
Bild aus Falcon-180b Demo
Schlussfolgerung
Falcon 40b bietet eine überzeugende Open-Source-LLM-Option, die Leistung und Zugänglichkeit ausbalanciert. Während das vollständige Modell erhebliche Ressourcen erfordert, machen es seine kleineren Varianten und Feinabstimmungsfähigkeiten zu einem wertvollen Instrument für Forscher und Entwickler. Für diejenigen, die sich für den Bau ihrer eigenen LLMs interessieren, ist der Wissenschaftler für maschinelles Lernen mit Python Career Track eine lohnende Überlegung.
Offizielle Ressourcen:
Das obige ist der detaillierte Inhalt vonEinführung in Falcon 40b: Architektur, Trainingsdaten und Funktionen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!