Heim >Technologie-Peripheriegeräte >KI >OpenAI oder DIY? Entdecken Sie die wahren Kosten für das Selbsthosten großer Sprachmodelle

OpenAI oder DIY? Entdecken Sie die wahren Kosten für das Selbsthosten großer Sprachmodelle

WBOY
WBOYnach vorne
2024-04-22 18:01:021238Durchsuche

OpenAI oder DIY? Entdecken Sie die wahren Kosten für das Selbsthosten großer Sprachmodelle

Ihr Servicestandard wurde durch die Integration großer Sprachmodelle als „KI-gesteuert“ positioniert. Die Homepage Ihrer Website präsentiert stolz die revolutionäre Wirkung Ihrer KI-gesteuerten Dienste durch interaktive Demos und Fallstudien. Dies ist auch die erste Spur, die Ihr Unternehmen im globalen GenAI-Bereich hinterlassen hat.

Ihre kleine, aber treue Benutzerbasis genießt ein verbessertes Kundenerlebnis und Sie sehen Potenzial für zukünftiges Wachstum. Doch als der Monat in die dritte Woche geht, erhalten Sie eine E-Mail von OpenAI, die Sie überrascht:

Noch vor einer Woche haben Sie mit Kunden gesprochen und die Produktmarkttauglichkeit (Product Market Fit, PMF) beurteilt, und jetzt strömen Tausende von Benutzern auf Ihre Website (Heutzutage kann in den sozialen Medien alles viral gehen) und Ihren KI-gestützten Dienst zum Absturz bringen.

Infolgedessen frustriert Ihr einst zuverlässiger Dienst nicht nur bestehende Benutzer, sondern wirkt sich auch auf neue Benutzer aus.

Eine schnelle und naheliegende Lösung besteht darin, den Dienst sofort wiederherzustellen, indem die Nutzungsbeschränkungen erhöht werden.

Allerdings brachte diese vorübergehende Lösung ein Gefühl des Unbehagens mit sich. Sie werden das Gefühl haben, von einem einzigen Anbieter abhängig zu sein und nur begrenzte Kontrolle über Ihre eigene KI und die damit verbundenen Kosten zu haben.

„Soll ich es selbst machen?“ fragst du dich.

Sie wissen bereits, dass Open-Source-LLMs (Large Language Models) Realität geworden sind. Auf Plattformen wie Hugging Face stehen Tausende von Modellen zur sofortigen Nutzung zur Verfügung, was die Möglichkeit der Verarbeitung natürlicher Sprache bietet.

Allerdings verfügen die leistungsstärksten LLMs, denen Sie begegnen werden, über Milliarden von Parametern, umfassen Hunderte von Gigabyte und erfordern einen erheblichen Aufwand zur Skalierung. In einem Echtzeitsystem, das eine geringe Latenz erfordert, können Sie sie nicht einfach wie bei herkömmlichen Modellen in Ihre Anwendung einbinden.

Während Sie vielleicht davon überzeugt sind, dass Ihr Team in der Lage ist, die notwendige Infrastruktur aufzubauen, sind die eigentlichen Sorgen die Kostenauswirkungen dieser Transformation, darunter:

  • Kosten für die Feinabstimmung
  • Kosten für Hosting
  • Servicekosten

Eine wichtige Frage ist also: Sollten Sie das Nutzungslimit erhöhen oder den selbst gehosteten, auch als „eigener“ Weg bezeichneten Weg wählen?

Führen Sie einige Berechnungen mit Llama 2 durch.

Zunächst einmal, Don Beeil dich nicht. Das ist eine große Entscheidung.

Wenn Sie Ihren Ingenieur für maschinelles Lernen (ML) konsultieren, wird er Ihnen wahrscheinlich sagen, dass Lama 2 ein Open-Source-LLM ist und eine gute Wahl zu sein scheint, da es bei den meisten Aufgaben die gleiche Leistung erbringt wie das GPT, das Sie derzeit verwenden -3 genau so gut.

Sie werden außerdem feststellen, dass das Modell in drei Größen erhältlich ist – 7 Milliarden, 1,3 Milliarden und 700 Millionen Parameter – und Sie entscheiden sich für die Verwendung des größten 7-Milliarden-Parameter-Modells, um mit dem OpenAI-Modell, das Sie derzeit verwenden, konkurrenzfähig zu bleiben.

LLaMA 2 verwendet bfloat16 zum Training, sodass jeder Parameter 2 Bytes verbraucht. Dies bedeutet, dass die Modellgröße 140 GB beträgt.

Wenn Sie der Meinung sind, dass dieses Modell viel anzupassen ist, machen Sie sich keine Sorgen. Mit LoRA müssen Sie nicht das gesamte Modell vor der Bereitstellung optimieren.

Tatsächlich müssen Sie möglicherweise nur etwa 0,1 % der Gesamtparameter feinabstimmen, was 70 MB entspricht, was in der bfloat16-Darstellung 0,14 GB verbraucht.

Beeindruckend, oder?

Um den Speicheraufwand während der Feinabstimmung (z. B. Backpropagation, Speichern von Aktivierungen, Speichern von Datensätzen) zu berücksichtigen, ist es am besten, etwa das Fünffache des von den trainierbaren Parametern verbrauchten Speicherplatzes beizubehalten.

Lassen Sie es uns im Detail aufschlüsseln:

Die Gewichte des LLaMA 2 70B-Modells sind bei Verwendung von LoRA festgelegt, sodass dadurch kein Speicher-Overhead entsteht → Speicherbedarf = 140 GB.

Um die LoRA-Ebene anzupassen, müssen wir jedoch 0,14 GB * (5x) = 0,7 GB beibehalten.

Dadurch ergibt sich bei der Feinabstimmung ein Gesamtspeicherbedarf von ca. 141 GB.

Vorausgesetzt, Sie verfügen derzeit nicht über eine Schulungsinfrastruktur, gehen wir davon aus, dass Sie lieber AWS verwenden würden. Gemäß der On-Demand-Preisgestaltung von AWS EC2 betragen die Rechenkosten etwa 2,80 US-Dollar pro Stunde, sodass die Kosten für die Feinabstimmung etwa 67 US-Dollar pro Tag betragen. Dies ist kein großer Aufwand, da die Feinabstimmung nicht viele Tage dauert.

Künstliche Intelligenz ist das Gegenteil eines Restaurants: Die Hauptkosten liegen im Service und nicht in der Vorbereitung.

Bei der Bereitstellung müssen Sie zwei Gewichte im Speicher behalten:

  • Modellgewichte, die 140 GB Speicher verbrauchen.
  • LoRA optimiert die Gewichte und verbraucht 0,14 GB Speicher.

Die Gesamtgröße beträgt 140,14 GB.

Natürlich können Sie die Gradientenberechnung abbrechen, es wird jedoch dennoch empfohlen, etwa das 1,5-fache des Speichers – etwa 210 GB – beizubehalten, um unerwarteten Mehraufwand zu berücksichtigen.

Basierend auf den On-Demand-Preisen von AWS EC2 kostet die GPU-Rechenleistung etwa 3,70 US-Dollar pro Stunde, was etwa 90 US-Dollar pro Tag entspricht, um das Modell im Produktionsspeicher zu halten und auf eingehende Anfragen zu reagieren.

Das entspricht etwa 2.700 $ pro Monat.

Eine weitere zu bedenkende Sache ist, dass es ständig zu unerwarteten Ausfällen kommt. Wenn Sie keinen Sicherungsmechanismus haben, erhalten Ihre Benutzer keine Modellvorhersagen mehr. Wenn Sie dies verhindern möchten, müssen Sie ein weiteres redundantes Modell pflegen, falls die erste Modellanforderung fehlschlägt.

Das würde Ihre Kosten also auf 180 $ pro Tag oder 5400 $ pro Monat erhöhen. Sie erreichen fast die aktuellen Kosten für die Nutzung von OpenAI.

Ab welchem ​​Punkt stimmen die Kosten von OpenAI und Open-Source-Modellen überein?

Wenn Sie weiterhin OpenAI verwenden, ist hier die Anzahl der Wörter, die Sie pro Tag verarbeiten können, um den oben genannten Feinabstimmungs- und Servicekosten für die Verwendung von LLaMA 2 gerecht zu werden .

Gemäß der Preisgestaltung von OpenAI betragen die Kosten für die Feinabstimmung von GPT 3.5 Turbo 0,0080 $ pro 1000 Token.

Unter der Annahme, dass die meisten Wörter über zwei Token verfügen, müssten Sie dem OpenAI-Modell etwa 4,15 Millionen Wörter zuführen, um die Feinabstimmungskosten des Open-Source-Modells LLaMA 2 70B (67 USD pro Tag) zu decken.

Normalerweise beträgt die durchschnittliche Wortanzahl auf einem A4-Papier 300, was bedeutet, dass wir das Modell mit etwa 14.000 Seiten an Daten versorgen können, um den Open-Source-Feinabstimmungskosten gerecht zu werden, was eine enorme Zahl ist.

Möglicherweise verfügen Sie nicht über so viele Feinabstimmungsdaten, daher sind die Kosten für die Feinabstimmung mit OpenAI immer niedriger.

Ein weiterer Punkt, der vielleicht offensichtlich ist, ist, dass dieser Feinabstimmungsaufwand nicht mit der Trainingszeit zusammenhängt, sondern mit der Datenmenge, anhand derer das Modell feinabgestimmt wird. Dies ist bei der Feinabstimmung von Open-Source-Modellen nicht der Fall, da die Kosten von der Datenmenge und der Zeit abhängen, die Sie AWS-Rechenressourcen nutzen.

Was die Kosten des Dienstes betrifft, so kostet ein fein abgestimmter GPT 3.5 Turbo laut der Preisseite von OpenAI 0,003 US-Dollar pro 1000 Token für die Eingabe und 0,006 US-Dollar für die Ausgabe pro 1000 Token.

Wir gehen von einem Durchschnitt von 0,004 $ pro 1000 Token aus. Um die Kosten von 180 US-Dollar pro Tag zu erreichen, müssen wir etwa 22,2 Millionen Wörter pro Tag über die API verarbeiten.

Das entspricht über 74.000 Datenseiten mit 300 Wörtern pro Seite.

Der Vorteil besteht jedoch darin, dass Sie nicht sicherstellen müssen, dass das Modell rund um die Uhr läuft, da OpenAI Pay-per-Use-Preise anbietet.

Wenn Ihr Modell nie verwendet wird, müssen Sie nichts bezahlen.

Zusammenfassung: Wann macht Besitz wirklich Sinn?

Der Umstieg auf selbstgehostete KI mag zunächst wie ein verlockendes Unterfangen erscheinen. Aber hüten Sie sich vor den versteckten Kosten und den damit verbundenen Kopfschmerzen.

Abgesehen von der gelegentlichen schlaflosen Nacht, in der Sie sich fragen, warum Ihr KI-gesteuerter Dienst ausgefallen ist, verschwinden fast alle Schwierigkeiten bei der Verwaltung von LLMs in Produktionssystemen, wenn Sie einen Drittanbieter nutzen.

Vor allem, wenn Ihr Service nicht in erster Linie auf „KI“ setzt, sondern etwas anderes, das auf KI setzt.

Für große Unternehmen mögen die jährlichen Betriebskosten von 65.000 US-Dollar ein Tropfen auf den heißen Stein sein, aber für die meisten Unternehmen ist es eine Zahl, die nicht ignoriert werden kann.

Darüber hinaus sollten wir andere zusätzliche Kosten wie Talent und Wartung nicht vergessen, die die Gesamtkosten leicht auf über 200.000 bis 250.000 US-Dollar pro Jahr erhöhen können.

Natürlich hat es Vorteile, von Anfang an ein Modell zu haben, zum Beispiel die Kontrolle über Ihre Daten und Nutzung zu behalten.

Um Selbsthosting zu ermöglichen, benötigen Sie jedoch ein Benutzeranfragevolumen, das weit über der Norm von etwa 22,2 Millionen Wörtern pro Tag liegt, und Sie müssen über die Ressourcen verfügen, um sowohl Talente als auch Logistik zu verwalten.

In den meisten Anwendungsfällen lohnt es sich finanziell möglicherweise nicht, ein Modell zu haben, anstatt eine API zu verwenden.

Das obige ist der detaillierte Inhalt vonOpenAI oder DIY? Entdecken Sie die wahren Kosten für das Selbsthosten großer Sprachmodelle. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Dieser Artikel ist reproduziert unter:51cto.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen