Heim >Technologie-Peripheriegeräte >KI >Einführung in Falcon 40b: Architektur, Trainingsdaten und Funktionen

Einführung in Falcon 40b: Architektur, Trainingsdaten und Funktionen

Joseph Gordon-Levitt
Joseph Gordon-LevittOriginal
2025-03-09 10:40:11178Durchsuche

In diesem Artikel wird Falcon 40b untersucht, ein leistungsstarkes Open-Source-großes Sprachmodell (LLM), das vom Technology Innovation Institute (TII) entwickelt wurde. Vor dem Tauchen wird ein grundlegendes Verständnis des maschinellen Lernens und der Verarbeitung natürlicher Sprache (NLP) empfohlen. Betrachten Sie unseren KI -Fundamentals -Skill -Track für eine umfassende Einführung in Schlüsselkonzepte wie Chatgpt, LLMs und generatives AI.

Falcon 40b

verstehen

Falcon 40b gehört neben Falcon 7b und Falcon 180b zur TII -Familie der Falcon -Familie von LLMs. Als nur kausales Decoder-Modell zeichnet es sich an verschiedenen Aufgaben der natürlichen Spracherzeugung aus. Zu den mehrsprachigen Fähigkeiten gehören Englisch, Deutsch, Spanisch und Französisch mit teilweise Unterstützung für mehrere andere Sprachen.

Modellarchitektur und Training

Die Architektur von

Falcon 40b, eine modifizierte Version von GPT-3, verwendet Rotary-Positions-Einbettungen und verbesserte Aufmerksamkeitsmechanismen (Multi-Query-Aufmerksamkeit und Flashattention). Der Decoderblock verwendet parallele Aufmerksamkeit und MLP-Strukturen mit einem zweischichtigen Normalisierungsschema für die Effizienz. Das Training umfasste 1 Billionen Token aus Raffinedweb, einem hochwertigen, deduplizierten Internet-Korpus, und verwendete 384 A100 40 GB GPUs für AWS Sagemaker.

Introduction to Falcon 40B: Architecture, Training Data, and Features

Bild aus Falcon Blog

Schlüsselmerkmale und Vorteile

Die Multi-Quer-Aufmerksamkeitsmechanismus von Falcon 40b verbessert die Skalierbarkeit der Inferenz, ohne sich signifikant zu beeinflussen. Die Unterrichtsversionen (Falcon-7b-Instruction und Falcon-40b-Instruct) sind ebenfalls erhältlich und für eine verbesserte Leistung bei Aufgaben im Assistenten im Stil der Assistenten. Die Apache 2.0 -Lizenz ermöglicht die kommerzielle Verwendung ohne Einschränkungen. Benchmarking auf der Openllm-Rangliste zeigt Falcon 40b, die andere Open-Source-Modelle wie Lama, Stablelm, Redpajama und MPT.

übertreffen.

Introduction to Falcon 40B: Architecture, Training Data, and Features

Bild von Open LLM Ranglastraft

Erste Schritte: Inferenz und Feinabstimmung

Ausführen von Falcon 40b erfordert erhebliche GPU -Ressourcen. Während die 4-Bit-Quantisierung die Ausführung auf 40 GB A100 GPUs ermöglicht, ist der kleinere Falcon 7b besser für Hardware für Verbraucherqualität, einschließlich Google Colab, geeignet. Die vorgesehenen Code-Beispiele zeigen Inferenz mit 4-Bit-Quantisierung für Falcon 7b auf Colab. Die Feinabstimmung mit Qlora und der SFT-Trainer wird ebenfalls besprochen, wodurch die TRL-Bibliothek für eine effiziente Anpassung an neue Datensätze eingesetzt wird. Das Beispiel verwendet den Guanaco -Datensatz.

Falcon-180b: ein riesiger Sprung

Falcon-180b, ausgebildet auf 3,5 Billionen Token, übertrifft sogar Falcon 40b in der Leistung. Die 180 Milliarden Parameter erfordern jedoch erhebliche Rechenressourcen (ungefähr 8xa100 80 GB GPUs) für die Inferenz. Die Veröffentlichung von Falcon-180B-CHAT, die für Gesprächsaufgaben fein abgestimmt, bietet eine zugängliche Alternative.

Introduction to Falcon 40B: Architecture, Training Data, and Features

Bild aus Falcon-180b Demo

Schlussfolgerung

Falcon 40b bietet eine überzeugende Open-Source-LLM-Option, die Leistung und Zugänglichkeit ausbalanciert. Während das vollständige Modell erhebliche Ressourcen erfordert, machen es seine kleineren Varianten und Feinabstimmungsfähigkeiten zu einem wertvollen Instrument für Forscher und Entwickler. Für diejenigen, die sich für den Bau ihrer eigenen LLMs interessieren, ist der Wissenschaftler für maschinelles Lernen mit Python Career Track eine lohnende Überlegung.

Offizielle Ressourcen:

  • Offizielle Umarmung Seite: Tiiuae (Technology Innovation Institute)
  • Blog: Der Falke ist im umarmenden Gesichtsökosystem
  • gelandet.
  • Rangliste: Öffnen Sie LLM Rangleichboard
  • Modellkarte: tiiuae/Falcon-40b · Umarmung Face
  • Datensatz: tiiuae/Falcon-refinedweb

Das obige ist der detaillierte Inhalt vonEinführung in Falcon 40b: Architektur, Trainingsdaten und Funktionen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn