Heim >häufiges Problem >Was ist das Open-Source-Sprachmodell des TII Falcon 180B?

Was ist das Open-Source-Sprachmodell des TII Falcon 180B?

PHPz
PHPznach vorne
2023-09-12 19:41:091049Durchsuche

Technology Innovation Institute (TII) hat mit der Einführung eines neuen Large Language Model (LLM) namens Falcon einen bedeutenden Beitrag zur Open-Source-Community geleistet. Mit beeindruckenden 18 Milliarden Parametern ist das Modell ein generatives LLM, das in verschiedenen Versionen verfügbar ist, einschließlich der KI-Modelle Falcon 180B, 40B, 7,5B und 1,3B Parameter.

Als Falcon 40B auf den Markt kam, erlangte es schnell Anerkennung als weltweit führendes Open-Source-KI-Modell. Diese Version von Falcon mit 4 Milliarden Parametern wurde auf einer unglaublichen Billion Token trainiert. In den zwei Monaten seit seiner Einführung hat Falcon 40B die Rangliste der Open Source Large Language Models (LLM) von Hugging Face angeführt. Das Besondere an Falcon 40B ist, dass es völlig lizenzgebührenfrei ist und einen revolutionären Schritt darstellt, der dazu beiträgt, die KI zu demokratisieren und sie zu einer integrativeren Technologie zu machen.

Falcon 40B LLM ist mehrsprachig und funktioniert in mehreren Sprachen, darunter Englisch, Deutsch, Spanisch, Französisch, Italienisch, Portugiesisch, Polnisch, Niederländisch, Rumänisch, Tschechisch und Schwedisch. Dieses grundlegende LLM dient als allgemeines Basismodell, das an spezifische Anforderungen oder Ziele angepasst werden kann.

Falcon 180B Open Source LLM

Falcon 180B ist ein äußerst leistungsstarkes Sprachmodell mit 18 Milliarden Parametern, trainiert auf 3,5 Billionen Token. Derzeit steht es an der Spitze der Hugging Face-Rangliste der vortrainierten offenen Sprachmodelle im großen Maßstab, die für Forschung und kommerzielle Nutzung verfügbar sind. Das Modell schnitt bei einer Vielzahl von Aufgaben gut ab, darunter Argumentation, Codierung, Eignungs- und Wissenstests, und übertraf sogar Konkurrenten wie Metas LLaMA 2.

Unter den Closed-Source-Modellen ist Falcon 180B nach GPT 4 von OpenAI das zweitgrößte Gerät und weist eine Leistung auf Augenhöhe mit Googles PaLM 2 auf, das Bard antreibt, obwohl es nur halb so groß ist wie das Modell. Dies zeigt die Qualität des Modells, da LLMs besonders empfindlich auf die Daten reagieren, auf denen sie trainiert werden. Das TII-Team baute mithilfe umfassender Filterung und Deduplizierung eine benutzerdefinierte Datenpipeline auf, um hochwertige Pre-Training-Daten zu extrahieren, die sowohl auf Probenebene als auch auf String-Ebene implementiert wurde.

Um innovative Anwendungen des Modells zu fördern, hat Falcon 40B einen „Aufruf zur Einreichung von Vorschlägen“ von Wissenschaftlern, Forschern und Innovatoren gestartet. Für die spezifischsten Anwendungsfälle wird in die Schulung der Rechenleistung investiert, um leistungsstarke Modelle zur Gestaltung transformativer Lösungen zu untersuchen. Bemerkenswert ist, dass das Modell nur 3 % der GPT-75-Trainingsberechnungen, 40 % der Totoro-KI und 62 % der PaLM-80B verwendet.

Einer der bemerkenswerten Faktoren bei der Falcon-Entwicklung ist die Qualität der Trainingsdaten. Die für Falcon 40B gesammelten Pre-Training-Daten belaufen sich auf fast 80 Billionen Token, die aus einer Vielzahl von Quellen stammen, darunter öffentliche Webcrawler (~ %), Forschungsarbeiten, Rechtstexte, Journalismus, Literatur und Gespräche in sozialen Medien.

Trainiert mit 3,5 Billionen Tokens

Der Trainingsprozess des Falcon-Modells umfasst die gleichzeitige Verwendung von 4096 GPUs, was insgesamt etwa 70.000 GPUs pro Stunde entspricht. Falcons Trainingsdatensatz besteht aus Webdaten, ergänzt durch eine kuratierte Sammlung von Inhalten, darunter Gespräche, technische Dokumente, Wikipedia und eine kleine Codesammlung. Das Modell wurde für eine Vielzahl von Konversations- und Lehrdatensätzen optimiert, mit Ausnahme der gehosteten Nutzung.

Trotz der beeindruckenden Leistung liegen dem Falcon-Modell keine aktualisierten Informationen zu den jüngsten Ereignissen vor. Allerdings wird die Veröffentlichung des Falcon-Modells als großer Fortschritt im Open-Source-Bereich angesehen, da es andere Modelle wie Llama 2, Stable LM, Red Pajama, NPT usw. bei verschiedenen Benchmarks übertrifft. Das Modell ist 5,2-mal größer als Llama 2 und übertrifft Llama 2, das GPT 3.5-Modell von OpenAI und Googles Palm in verschiedenen Benchmarks. Dies macht es zu einem leistungsstarken Werkzeug für Forschung und kommerzielle Nutzung sowie zu einem bedeutenden Beitrag für die Open-Source-Community.

Das obige ist der detaillierte Inhalt vonWas ist das Open-Source-Sprachmodell des TII Falcon 180B?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Dieser Artikel ist reproduziert unter:yundongfang.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen