Maison >Périphériques technologiques >IA >Li Mu : Un an pour démarrer une entreprise, trois ans pour être en vie
Rapport à mes amis sur les progrès, les difficultés et les réflexions du LLM en première année d'entrepreneuriat. Lorsque j'étais chez Amazon pour la cinquième année, je pensais créer une entreprise, mais j'ai été retardée par l'épidémie. À sept ans et demi, j'ai senti que ça me démangeait trop, alors j'ai démissionné. Maintenant que j'y pense, s'il y a quelque chose que je dois essayer dans ma vie, je le ferais tôt. Parce qu’une fois que vous aurez vraiment commencé, vous constaterez qu’il y a tellement de nouvelles choses à apprendre et vous vous demanderez toujours pourquoi vous n’avez pas commencé plus tôt. Nom : L'origine de BosonAI Avant de démarrer l'entreprise, j'ai réalisé une série de projets portant le nom de Gluon. En physique quantique, un Gluon est un type de boson qui lie les quarks entre eux, symbolisant le début de ce projet en tant que projet conjoint entre Amazon et Microsoft. À ce moment-là, le chef de projet lui a tapoté la tête et le nom est sorti, mais nommer était très difficile pour les programmeurs. Nous avons eu du mal avec différents noms de fichiers et de variables chaque jour. En fin de compte, la nouvelle société lui a simplement donné le nom de Boson. J'espère que tout le monde sourira en connaissance de cause lorsqu'il entendra le mème "Les boson et les fermions composent le monde". Mais je ne m’attendais pas à ce que beaucoup de gens y voient Boston. "Je suis à Boston, essayons ça un jour ?" "Hein ? Mais je suis dans la Bay Area ?" Financement : Le principal investisseur s'est enfui la veille de la signature, j'ai pensé à deux projets. en utilisant des idées d'outils de productivité (LLM). Il m'est arrivé de rencontrer Zhang Yiming et de lui demander conseil. Après la discussion, il a demandé : Pourquoi ne pas faire le LLM lui-même ? J'ai inconsciemment bronché : notre équipe chez Amazon faisait ça depuis plusieurs années, avec des dizaines de milliers de cartes, et beaucoup de difficultés comme du blabla. Yiminghehe a déclaré : Ce sont des difficultés à court terme et nous devons adopter une vision à long terme. Mon avantage est que j'ai écouté les conseils et que j'ai vraiment fait le LLM. L’équipe fondatrice a réuni les responsables des données, de la pré-formation, de la post-formation et de l’architecture et est allée récolter des fonds. Avec de la chance, j’ai rapidement reçu un investissement d’amorçage. Mais l’argent n’est pas suffisant pour acheter la carte, je dois donc passer le deuxième tour. Le leader de ce cycle était une très grande organisation, qui a mis plusieurs mois à documenter et à négocier les termes. Mais la veille de la signature, le dirigeant avait déclaré qu'il n'investirait pas, ce qui a directement entraîné le retrait de plusieurs investisseurs. Je suis très reconnaissant envers les investisseurs restants d'avoir terminé ce tour et obtenu le ticket pour faire du LLM. Si j'y réfléchis aujourd'hui, avec l'enthousiasme du marché des capitaux toujours présent à l'époque, je pourrais effectivement continuer à lever des fonds. Peut-être que, comme d'autres amis, j'ai maintenant un milliard de liquidités en main. À cette époque, j'avais peur que si je récoltais trop d'argent, il serait difficile de sortir, sinon je serais jeté dans le ciel. Maintenant que j’y pense, démarrer une entreprise, c’est changer de vie contre toute attente. Quelle est la solution ? Machine : les premiers utilisateurs ont acheté des GPU lorsqu’ils avaient de l’argent. J'ai interrogé différents fournisseurs et la réponse unanime a été que le H100 serait livré un an plus tard. J'ai eu une idée et j'ai écrit un e-mail directement à Lao Huang. Lao Huang a répondu instantanément et a dit qu'il y jetterait un œil. Le PDG d'AMD a appelé une heure plus tard. J'ai payé un peu plus, j'ai fait la queue et j'ai reçu la machine 20 jours plus tard. J'ai eu l'honneur de manger des crabes tôt. Après avoir mangé des crabes, j'ai douté de ma vie et j'ai rencontré toutes sortes d'insectes étranges. Par exemple, l'alimentation du GPU était insuffisante, provoquant une instabilité. Plus tard, les ingénieurs de Supermicro ont modifié le code du BIOS et l'ont corrigé ; par exemple, l'angle de coupe de la fibre optique était incorrect, ce qui a entraîné une communication instable, par exemple la configuration réseau recommandée par Nvidia ; n'était pas optimal, nous avons donc élaboré un nouveau plan, et plus tard Nvidia, j'ai également adopté ce plan moi-même. Je ne comprends toujours pas. Nous avons acheté moins d’un millier de cartes, nous pouvons donc être considérés comme de petits acheteurs. Mais les gros acheteurs n’ont-ils pas rencontré les problèmes que nous avons rencontrés ? Pourquoi avons-nous besoin de notre débogage ? En parallèle, nous avons également loué le même nombre de H100, et il y avait toutes sortes de bugs tous les jours. Le GPU avait des problèmes tous les jours, et on se demandait même si nous étions les seuls sur ce cloud. Plus tard, j'ai vu le rapport technique de Llama 3 disant qu'après être passé au H100, le modèle avait été interrompu des centaines de fois pendant l'entraînement. Je peux comprendre la douleur entre les lignes. Si l'on compare l'autoconstruction et la location, le coût de la location sur trois ans est presque le même que le coût de l'autoconstruction. L’avantage de louer une carte est la tranquillité d’esprit. L’auto-construction présente deux avantages. La première est que si la technologie de Nvidia est encore en avance dans trois ans, alors elle pourra contrôler les prix afin que les GPU conservent leur valeur ? Un autre facteur est le faible coût du stockage de données auto-construit. Le stockage doit être proche du GPU Qu'il s'agisse d'un grand cloud ou d'un petit cloud GPU, le prix du stockage est élevé. Cependant, un modèle de formation peut utiliser plusieurs To d'espace pour stocker les points de contrôle, et le stockage des données de formation commence à 10 Po. Si vous utilisez AWS S3, 10 Po coûtent deux millions par an. Si cet argent est utilisé pour l’auto-construction, il peut atteindre 100PB. Entreprise : Grâce à nos clients, nous avons eu beaucoup de chance d'atteindre le seuil de rentabilité la première année. Nos revenus et dépenses étaient égaux la première année. Nos dépenses concernent principalement la main d'œuvre et la puissance de calcul. Grâce aux ressources financières d'Openai et à l'avance considérable de Nvidia, ces deux dépenses sont assez importantes. Notre source de revenus consiste à fabriquer des modèles personnalisés pour les gros clients. La plupart des entreprises qui ont lancé le LLM très tôt étaient dues au fait que leurs PDG étaient très décisionnels. Ils n'étaient pas effrayés par la puissance de calcul élevée et les coûts de main-d'œuvre et ont poussé de manière décisive leurs équipes internes à essayer ensemble de nouvelles technologies. Je suis très reconnaissant envers nos clients de nous laisser le temps de souffler, sinon je me serais précipité vers divers investisseurs au cours des derniers mois. Ensuite, davantage d'entreprises devraient essayer d'utiliser le LLM, que ce soit pour mettre à niveau leurs propres produits ou pour réduire les coûts et accroître l'efficacité. La raison en est que, d'une part, les coûts technologiques diminuent et, d'autre part, les leaders de l'industrie (tels que nos clients) lanceront successivement des produits basés sur LLM, renforçant ainsi l'industrie. Nous sommes également attentifs à la mise en œuvre du LLM sur toC.Die letzte Welle von Top-Playern wie c.ai und perplexity sucht immer noch nach Geschäftsmodellen, aber es gibt auch etwa ein Dutzend kleine native LLM-Anwendungen, die gutes Geld verdienen. Wir haben ein Modell für ein Rollenspiel-Startup-Unternehmen bereitgestellt, das sich auf tiefgreifende Akteure konzentriert und Einnahmen und Ausgaben in Einklang bringt, was ebenfalls großartig ist. Die Modellfähigkeiten entwickeln sich immer noch weiter und es werden mehr Modalitäten (Sprache, Musik, Bilder, Videos) integriert. Ich glaube, dass es in Zukunft noch einfallsreichere Anwendungen geben wird. Insgesamt sind Industrie und Kapital weiterhin ungeduldig. In diesem Jahr haben sich mehrere Unternehmen, die seit mehr als einem Jahr bestehen, aber Milliardenbeträge eingesammelt haben, für den Ausstieg entschieden. Von der Technologie bis zum Produkt ist es ein langer Prozess, der normalerweise zwei bis drei Jahre dauert. Wenn man die Entstehung von Benutzerbedürfnissen berücksichtigt, kann es länger dauern. Wir konzentrieren uns auf die Gegenwart, erkunden den Weg im Nebel und bleiben optimistisch für die Zukunft. Technologie: Vier Stufen des LLM-Bewusstseins Das Bewusstsein für LLM hat vier Stufen durchlaufen. Die erste Stufe ist von Bert zu GPT3. Es scheint, als ob die neue Architektur und Big Data machbar sind. Als wir bei Amazon waren, sind wir auch sofort reingegangen, um groß angelegte Schulungen und Produkteinführungen durchzuführen. Die zweite Phase war die Veröffentlichung von GPT4, als ich mein Unternehmen gründete, und ich war sehr schockiert. Der Hauptgrund liegt darin, dass die Technologie nicht veröffentlicht wird. Gerüchten zufolge beträgt die Trainingszeit eines Modells schätzungsweise 100 Millionen und die Standarddatenkosten belaufen sich auf mehrere zehn Millionen. Viele Investoren fragten mich, wie viel es kosten würde, GPT4 zu reproduzieren, und ich sagte 300-400 Millionen. Später investierte einer von ihnen tatsächlich Hunderte Millionen. Die dritte Phase ist das erste halbe Jahr der Unternehmensgründung. Wir können GPT4 nicht ausführen, also beginnen wir mit konkreten Problemen. Also begann ich, nach Kunden zu suchen, unter anderem aus den Bereichen Gaming, Bildung, Vertrieb, Finanzen und Versicherungen. Trainieren Sie Modelle basierend auf spezifischen Anforderungen. Zu Beginn gab es keine guten Open-Source-Modelle auf dem Markt, also haben wir von Grund auf trainiert. Später kamen viele gute Modelle heraus, was unsere Kosten senkte. Entwerfen Sie dann eine Bewertungsmethode basierend auf dem Geschäftsszenario, markieren Sie die Daten, sehen Sie, wo das Modell nicht funktioniert, und verbessern Sie es entsprechend. Ende 2023 waren wir angenehm überrascht, als wir feststellten, dass unsere Modelle der Photon-Serie (eine Art Boson) in Kundenanwendungen GPT4 übertrafen. Der Vorteil eines benutzerdefinierten Modells besteht darin, dass die Inferenzkosten 1/10 des API-Aufrufs betragen. Obwohl APIs heute viel billiger sind, verbessert sich auch unsere eigene Technologie und kostet immer noch ein Zehntel der Kosten. Darüber hinaus werden QPS, Verzögerung usw. besser kontrolliert. In dieser Phase gehen wir davon aus, dass wir für bestimmte Anwendungen die besten Modelle auf dem Markt schlagen können. Die vierte Phase ist das zweite Halbjahr der Unternehmensgründung. Obwohl der Kunde das im Vertrag geforderte Modell erhielt, entsprach es nicht seinen Erwartungen, da GPT4 nicht ausreichte. Zu Beginn des Jahres stellten wir fest, dass es für das Modell schwierig war, einen weiteren Sprung zu machen, wenn es für eine einzelne Anwendung trainiert wurde. Wenn AGI rückblickend das Niveau normaler Menschen erreichen soll, wollen die Kunden das Niveau von Profis. Spiele erfordern professionelle Planer und professionelle Schauspieler, Bildung erfordert Goldmedaillen-Lehrer, Vertrieb erfordert Goldmedaillen-Verkäufe und Finanzen und Versicherungen erfordern erfahrene Analysten. Das alles ist AGI plus Branchenexpertise. Obwohl wir damals voller Ehrfurcht vor AGI waren, hielten wir es für unvermeidlich. Zu Beginn des Jahres haben wir eine Reihe von Higgs-Modellen (Gottteilchen, eine Art Boson) entworfen. Die wichtigste allgemeine Fähigkeit besteht darin, dem besten Vorbild zu folgen, sich aber durch eine bestimmte Fähigkeit hervorzuheben. Die Kompetenzen, die wir ausgewählt haben, waren Rollenspiele: eine virtuelle Figur spielen, Lehrer spielen, Verkaufen spielen, Analysten spielen und so weiter. Auf Arena-Hard und AlpacaEval 2.0, die die allgemeinen Fähigkeiten testen, ist V2 mit den besten Modellen vergleichbar und liegt nicht weit dahinter auf MMLU-Pro, das die Fähigkeiten testet.
1. Higgs-V2 basiert auf der Llama3-Basis und verfügt über ein vollständiges Post-Training.Ein gutes vertikales Modell muss auch über starke allgemeine Fähigkeiten verfügen, wie etwa logisches Denken, Befolgen von Anweisungen und andere vertikale Fähigkeiten. Langfristig tendieren sowohl allgemeine als auch vertikale Modelle in Richtung AGI. Das vertikale Modell kann spezialisierter sein, über herausragende Fachgebiete, akzeptable allgemeine Fähigkeiten, niedrigere F&E-Kosten und unterschiedliche F&E-Methoden verfügen.
Die fünfte Phase des Kennenlernens
läuft gerade und wir freuen uns darauf, sie so bald wie möglich zu teilen.
Vision: Menschlicher Begleiter
Wir verfolgen die Vision von „intelligenten Agenten in Begleitung von Menschen“, mit hohem EQ und IQ, gleichbedeutend mit einem professionellen Team. Es kann beispielsweise das Spielen (Planer + Schauspieler), den Sport (Ermutiger + Sporttrainer) und das Lernen (Beraten und Lehren) begleiten. Das Modell bleibt lange bei Ihnen, versteht den Benutzer zutiefst und kann „aufrichtig über den Benutzer nachdenken“.
Team: Herausfordernde Dinge hängen vom Team ab
Erst nachdem ich ein Unternehmen gegründet hatte, wurde mir wirklich klar, wie wichtig das Team ist. Teammitglieder sind wie Schrauben, die das gesamte „Auto“ bilden, in der Lage sind, flexibel auf verschiedene Situationen zu reagieren und schwere Verantwortung zu übernehmen. In den Anfängen der Unternehmensgründung war die Teamgröße klein und alle Mitglieder waren wichtig. Es gab keine Redundanz und der Ausfall einer Person konnte sich auf den Gesamtbetrieb auswirken. Früher habe ich Projekte ausgewählt, deren Entwicklung ich leiten konnte, aber das bedeutete auch, dass die Probleme nicht sehr anspruchsvoll waren. Die Gründung eines Unternehmens hat ein großes Problem zu lösen und man kann sich nur auf das Team verlassen. Obwohl „ich“ in diesem Artikel häufig verwendet wird, wird die Arbeit von einem Team erledigt.
Persönliches Streben: Ruhm oder Reichtum?
Ich treffe Entscheidungen auf der Grundlage meiner inneren Stimme, egal ob ich promoviere, Videos mache oder ein Unternehmen gründe. Unternehmertum erfordert eine starke Motivation, Schwierigkeiten zu überwinden. Meine tiefste Motivation ist die Angst, dass das Leben keinen Sinn haben könnte. Ich entscheide mich dafür, „weiterzumachen“, um meine Fähigkeit zur Wertschöpfung zu verbessern. Ich entscheide mich dafür, Videos aufzuzeichnen und Lehrmaterialien zu schreiben, um einen Mehrwert zu schaffen meine Bemühungen, mehr Wert zu schaffen.
Bei der letzten Anzeige handelt es sich um die Rekrutierungsinformationen unseres Unternehmens
(Bay Area und Vancouver) https://jobs.lever.co/bosonai
Wenn Sie Bewerbungen im Ausland haben, kontaktieren Sie uns bitte api@boson.ai
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!