Heim >Technologie-Peripheriegeräte >KI >Li Mu: Ein Jahr, um ein Unternehmen zu gründen, drei Jahre, um am Leben zu sein

Li Mu: Ein Jahr, um ein Unternehmen zu gründen, drei Jahre, um am Leben zu sein

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOriginal: 2024-08-15 16:41:321281Durchsuche

Berichten Sie meinen Freunden über die Fortschritte, Schwierigkeiten und Überlegungen des LLM im ersten Jahr des Unternehmertums. Als ich im fünften Jahr bei Amazon war, dachte ich darüber nach, ein Unternehmen zu gründen, wurde aber durch die Epidemie verzögert. Im siebten und halben Lebensjahr spürte ich, dass es zu sehr juckte, also gab ich auf. Wenn ich jetzt darüber nachdenke: Wenn es etwas gibt, das ich in meinem Leben ausprobieren muss, würde ich es früh tun. Denn wenn man einmal richtig angefangen hat, wird man feststellen, dass es so viel Neues zu lernen gibt, und man fragt sich immer, warum man nicht schon früher angefangen hat. Name: Der Ursprung von BosonAI. Bevor ich das Unternehmen gründete, habe ich eine Reihe von Projekten durchgeführt, die nach Gluon benannt waren. In der Quantenphysik ist ein Gluon eine Art Boson, das Quarks aneinander bindet, was symbolisiert, wie dieses Projekt als Gemeinschaftsprojekt von Amazon und Microsoft begann. Damals tätschelte der Projektmanager seinen Kopf und der Name kam heraus, aber die Benennung war für Programmierer sehr schwierig. Wir hatten jeden Tag mit verschiedenen Dateinamen und Variablennamen zu kämpfen. Am Ende benannte das neue Unternehmen es einfach nach Boson. Ich hoffe, dass jeder wissend lächelt, wenn er das Meme „Boson and fermions make up the world“ bekommt. Aber ich hatte nicht erwartet, dass viele Leute es als Boston sehen würden. „Ich bin in Boston, lass es uns mal ausprobieren?“ „Hä? Aber ich bin in der Bay Area?“ Finanzierung: Der führende Investor ist am Tag vor der Unterzeichnung abgehauen Verwendung großer Sprachmodelle (LLM-Ideen). Ich traf zufällig Zhang Yiming und fragte ihn um Rat. Nach der Diskussion fragte er: Warum nicht selbst LLM machen? Ich zuckte unbewusst zusammen: Unser Team bei Amazon machte das schon seit mehreren Jahren, mit Zehntausenden von Karten und vielen Schwierigkeiten wie Blabla. Yiminghehe sagte: Dies sind kurzfristige Schwierigkeiten, und wir müssen eine langfristige Perspektive einnehmen. Mein Vorteil ist, dass ich auf die Ratschläge gehört und das LLM wirklich gemacht habe. Das Gründungsteam versammelte die Verantwortlichen für Daten, Pre-Training, Post-Training und Architektur und machte sich daran, Spenden zu sammeln. Mit etwas Glück erhielt ich schnell eine Startkapitalinvestition. Aber das Geld reicht nicht, um die Karte zu kaufen, also muss ich mir die zweite Runde holen. Der Anführer dieser Runde war eine sehr große Organisation, die mehrere Monate brauchte, um die Bedingungen zu dokumentieren und auszuhandeln. Doch am Tag vor der Unterzeichnung erklärte der Staatschef, er werde nicht investieren, was direkt zum Rückzug mehrerer Investoren führte. Ich bin den verbleibenden Investoren sehr dankbar, dass sie diese Runde abgeschlossen und das Ticket für LLM erhalten haben. Wenn ich heute darüber nachdenke, könnte ich angesichts der damaligen Begeisterung des Kapitalmarkts tatsächlich weiter Geld sammeln. Vielleicht habe ich jetzt wie andere Freunde eine Milliarde in bar. Damals hatte ich Angst, dass es schwierig werden würde, auszusteigen, wenn ich zu viel Geld sammelte, oder dass ich in den Himmel geschleudert würde. Wenn ich darüber nachdenke, geht es bei der Gründung eines Unternehmens darum, sein Leben trotz aller Widrigkeiten zu verändern. Maschine: Die ersten Early Adopters kauften GPUs, als sie Geld hatten. Ich habe bei verschiedenen Lieferanten nachgefragt und die einhellige Antwort war, dass der H100 ein Jahr später ausgeliefert wird. Ich hatte eine Idee und schrieb direkt eine E-Mail an Lao Huang. Lao Huang antwortete sofort und sagte, er würde einen Blick darauf werfen. Der CEO von Supermicro rief eine Stunde später an. Ich zahlte etwas mehr, stellte mich an und bekam die Maschine 20 Tage später. Es war mir eine Ehre, früh Krabben zu essen. Nachdem ich Krabben gegessen hatte, zweifelte ich an meinem Leben und begegnete allen möglichen seltsamen Käfern. Beispielsweise war die GPU-Stromversorgung unzureichend, was zu Instabilität führte. Später änderten die Ingenieure von Supermicro den Schnittwinkel der Glasfaser, was beispielsweise zu einer instabilen Kommunikation führte war nicht optimal, also haben wir einen neuen Plan erstellt, und später habe ich diesen Plan auch selbst übernommen. Ich verstehe es immer noch nicht. Wir haben weniger als tausend Karten gekauft, daher können wir als kleine Käufer gelten. Aber sind die großen Käufer nicht auf diese Probleme gestoßen, auf die wir gestoßen sind? Warum brauchen wir unser Debug? Gleichzeitig haben wir auch die gleiche Anzahl an H100 gemietet, und es gab jeden Tag Probleme mit der GPU, und wir fragten uns sogar, ob wir die einzigen in dieser Cloud waren. Später habe ich den technischen Bericht von Llama 3 gesehen, in dem stand, dass das Modell nach der Umstellung auf H100 während des Trainings hunderte Male unterbrochen wurde. Ich kann den Schmerz zwischen den Zeilen nachvollziehen. Wenn man Eigenbau und Leasing vergleicht, liegen die Kosten für die Miete für drei Jahre fast auf dem gleichen Niveau wie die Kosten für den Eigenbau. Der Vorteil beim Mieten einer Karte ist die Sicherheit. Der Selbstbau hat zwei Vorteile. Zum einen: Wenn Nvidias Technologie in drei Jahren immer noch weit vorne ist, kann das Unternehmen dann die Preise so kontrollieren, dass GPUs immer noch ihren Wert behalten? Ein weiterer Grund sind die geringen Kosten eines selbst erstellten Datenspeichers. Der Speicher muss sich in der Nähe der GPU befinden. Unabhängig davon, ob es sich um eine große Cloud oder eine kleine GPU-Cloud handelt, ist der Speicherpreis hoch. Allerdings kann ein Modelltraining mehrere TB Speicherplatz zum Speichern von Prüfpunkten beanspruchen, und die Speicherung von Trainingsdaten beginnt bei 10 PB. Wenn Sie AWS S3 verwenden, kosten 10 PB zwei Millionen pro Jahr. Wenn dieses Geld für den Eigenbau verwendet wird, können es 100 PB sein. Geschäft: Dank unserer Kunden hatten wir großes Glück, im ersten Jahr die Gewinnschwelle zu erreichen. Unsere Einnahmen und Ausgaben waren im ersten Jahr ausgeglichen. Unsere Ausgaben betreffen hauptsächlich Personal und Rechenleistung. Dank der finanziellen Ressourcen von Openai und des weiten Vorsprungs von Nvidia sind beide Ausgaben recht hoch. Unsere Einnahmequelle ist die Herstellung maßgeschneiderter Modelle für Großkunden. Die meisten Unternehmen, die sehr früh in LLM eingestiegen sind, waren darauf zurückzuführen, dass ihre CEOs sehr entscheidungsfreudig waren. Sie hatten keine Angst vor der hohen Rechenleistung und den Arbeitskosten und drängten ihre internen Teams entschlossen, gemeinsam neue Technologien auszuprobieren. Ich bin dem Kunden sehr dankbar, dass er uns Zeit zum Durchatmen gegeben hat, sonst wäre ich in den letzten Monaten zu verschiedenen Investoren geeilt. Als nächstes sollten mehr Unternehmen versuchen, LLM zu nutzen, sei es zur Verbesserung ihrer eigenen Produkte oder zur Kostensenkung und Effizienzsteigerung. Der Grund dafür ist, dass einerseits die Technologiekosten sinken und andererseits Branchenführer (wie unsere Kunden) sukzessive Produkte auf LLM-Basis herausbringen und so die Branche aufrollen. Wir achten auch auf die Implementierung von LLM auf toC.c.ai や perplexity などのトッププレーヤーの最後の波は依然としてビジネスモデルを模索していますが、十分な収益をあげている小規模な LLM ネイティブアプリケーションも十数社あります。私たちはロールプレイングを行う新興企業にモデルを提供しました。彼らはディーププレイヤーに焦点を当て、収入と支出のバランスを取っています。これも素晴らしいことです。モデルの機能はまだ進化しており、将来的にはさらに多くのモダリティ (音声、音楽、画像、ビデオ) が統合されると思います。全体として、業界と資本は依然として焦っている。今年、設立して1年以上経ちながら数十億ドルを調達したいくつかの企業が撤退を選択した。技術から製品になるまでには長いプロセスがあり、2、3年かかるのが普通です。ユーザーのニーズの顕在化を考慮すると、さらに時間がかかる可能性があります。私たちは現在に焦点を当て、霧の中の道を模索し、将来について楽観的であり続けます。テクノロジー: LLM の認識の 4 つの段階 LLM の認識は 4 つの段階を経ました。第一段階はBertからGPT3まで新しいアーキテクチャとビッグデータができる感じです。私たちがアマゾンにいたときも、すぐに大規模なトレーニングと製品導入を行いました。第二段階は、私が起業した当初にGPT4がリリースされたときで、とても衝撃を受けました。その理由のほとんどは、技術が公開されていないという事実にあります。噂によると、1モデルの学習時間は1億、標準的なデータコストは数千万と言われています。多くの投資家が私に GPT4 を再現するのにいくらかかるかと尋ねましたが、私は 3 億から 4 億と答えました。その後、そのうちの 1 人が実際に数億ドルを投資しました。第三ステージは起業してから半年です。 GPT4はできないので、具体的な問題から始めましょう。そこで、ゲーム、教育、販売、金融、保険などの顧客を探し始めました。特定のニーズに基づいてモデルをトレーニングします。当初は市場に良いオープンソースモデルがなかったので、一からトレーニングしましたが、その後、良いモデルがたくさん出てきて、コストが削減されました。次に、ビジネスシナリオに基づいて評価方法を設計し、データにマークを付けて、モデルが機能していない部分を確認し、それに応じて改善します。 2023 年末、当社の Photon (Boson の一種) シリーズモデルが顧客のアプリケーションで GPT4 を上回ったことを発見して嬉しい驚きを覚えました。カスタムモデルの利点は、推論のコストが API 呼び出しの 1/10 であることです。現在 API ははるかに安価になっていますが、当社独自のテクノロジーも向上しており、コストはまだ 1/10 です。さらに、QPS、遅延などがすべてより適切に制御されます。現段階では、特定のアプリケーションに関しては、市場の最高のモデルに勝てるということが理解されています。第4ステージは起業後半年。お客様は契約で必要なモデルを入手しましたが、GPT4 では十分ではなかったため、期待どおりではありませんでした。今年の初めに、単一のアプリケーション向けにモデルをトレーニングした場合、モデルがさらに飛躍するのは難しいことがわかりました。振り返ってみると、AGIが一般人のレベルに到達するのであれば、顧客が求めるのはプロフェッショナルのレベルです。ゲームにはプロのプランナーとプロの俳優が必要で、教育には金メダルの教師が必要で、販売には金メダルの販売が必要で、金融と保険には上級アナリストが必要です。これはすべて AGI に業界の専門知識を加えたものです。当時私たちは AGI に畏敬の念を抱いていましたが、それは避けられないと感じていました。今年の初めに、私たちは一連のヒッグス (神の粒子、ボーソンの一種) モデルを設計しました。主な一般的な能力は、最高のモデルに従うことですが、特定の能力では際立っています。私たちが選んだコンピテンシーは、ロールプレイングです。つまり、仮想キャラクターを演じる、教師を演じる、販売員を演じる、アナリストを演じるなどです。 2024 年半ばに第 2 世代にバージョンアップされました。一般的な機能をテストする Arena-Hard と AlpacaEval 2.0 では、V2 は最高のモデルに匹敵し、知識をテストする MMLU-Pro にも劣りません。

1. Higgs-V2 は Llama3 ベースに基づいており、完全なポストトレーニングを備えています。

Meta ほどデータに注釈を付けることはできないため、主にアルゴリズムの革新により、V2 は Llama3 Instruct よりも優れています。
その後、ロールベースおよびシナリオベースのプレイを含むロールプレイング評価データセットを作成しました。
驚くべきことに、独自のモデルが独自のリーダーボードで 1 位にランクされています。ただし、モデルのトレーニングは評価データに公開されませんでした。
この評価データセットはもともと自己使用のために設計されており、モデルの機能を正確に反映し、過剰適合を回避することを目的としています。
それにもかかわらず、評価を担当した学生たちは技術レポートを発行しました。注目に値するのは、ロールプレイングテストサンプルは c.ai からのものですが、そのモデル能力は最下位でした。
認知の第 4 段階

優れた垂直モデルには、推論、指示への従うこと、その他の垂直能力など、強力な一般的能力も必要です。長期的には、一般モデルと垂直モデルの両方が AGI に移行しています。垂直モデルは、より専門化でき、優れた専門性を備え、許容可能な一般的な機能を備え、研究開発コストが低く、さまざまな研究開発手法を使用できます。

お互いを知るための第 5 フェーズ

は現在進行中です。できるだけ早く共有できることを楽しみにしています。

ビジョン: Human Companion

私たちは、プロフェッショナルチームと同等の高いEQとIQを備えた「人間を伴うインテリジェントエージェント」というビジョンを追求します。たとえば、遊び（プランナー + 俳優）、スポーツ（奨励者 + スポーツコーチ）、学習（カウンセリングと指導）を伴うことができます。長く寄り添い、ユーザーを深く理解し、「ユーザーのことを心から考える」ことができるモデル。

チーム: 困難なことはチーム次第

チームの大切さを実感したのは起業してからです。チームメンバーは「車」全体を構成するネジのようなもので、さまざまな状況に柔軟に対応し、重責を担うことができます。会社設立当初はチームの規模が小さく、メンバー全員が重要な人材であり、1 人が失敗すると全体の運営に影響を及ぼす可能性がありました。以前は、私が開発を主導できるプロジェクトを選択していましたが、これは、問題がそれほど難しいものではないことも意味していました。起業には解決すべき大きな問題があり、チームに頼るしかありません。この記事では「私」が多用されていますが、仕事はチームで行われます。

個人的な追求: 名声か富か?

博士号の勉強をするか、ビデオを作るか、起業するかにかかわらず、私は自分の内なる声に基づいて意思決定をします。起業家精神には、困難を克服するための強い動機が必要です。私の最も深い動機は、人生には意味がないかもしれないという恐怖から来ています。私は価値を創造する能力を高めるために「前進」することを選択し、教育的価値を生み出すためにビデオを録画したり教材を書いたりすることを選択します。より大きな価値を創造するための私の努力。

最後の広告は弊社の採用情報です

（ベイエリア、バンクーバー） https://jobs.lever.co/bosonai
海外からのご応募の場合は、api@boson.ai

までご連絡ください。

Das obige ist der detaillierte Inhalt vonLi Mu: Ein Jahr, um ein Unternehmen zu gründen, drei Jahre, um am Leben zu sein. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

架构堆算法 bert https microsoft bug llama agi

Stellungnahme：

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Vorheriger Artikel：Bekanntgabe der ACL 2024 Awards: Eines der besten Papers zum Thema Oracle Deciphering von HuaTech, GloVe Time Test AwardNächster Artikel：Bekanntgabe der ACL 2024 Awards: Eines der besten Papers zum Thema Oracle Deciphering von HuaTech, GloVe Time Test Award

In Verbindung stehende Artikel

Mehr sehen