Rumah  >  Artikel  >  Peranti teknologi  >  Li Mu: Satu tahun untuk memulakan perniagaan, tiga tahun untuk hidup

Li Mu: Satu tahun untuk memulakan perniagaan, tiga tahun untuk hidup

WBOY
WBOYasal
2024-08-15 16:41:321143semak imbas

Laporkan kepada rakan saya tentang kemajuan, perjuangan dan refleksi LLM dalam tahun pertama keusahawanan. Apabila saya berada di Amazon untuk tahun kelima, saya terfikir untuk memulakan perniagaan, tetapi ditangguhkan oleh wabak itu. Menjelang tujuh setengah tahun, saya rasa ia terlalu gatal, jadi saya meletakkan jawatan. Sekarang saya memikirkannya, jika ada sesuatu yang perlu saya cuba dalam hidup saya, saya akan melakukannya lebih awal. Kerana sebaik sahaja anda benar-benar bermula, anda akan mendapati bahawa terdapat begitu banyak perkara baharu untuk dipelajari, dan anda sentiasa tertanya-tanya mengapa anda tidak bermula lebih awal. Nama: Asal-usul BosonAI Sebelum memulakan perniagaan, saya melakukan beberapa projek yang dinamakan sempena Gluon. Dalam fizik kuantum, Gluon ialah sejenis boson yang mengikat kuark bersama-sama, melambangkan bagaimana projek ini bermula sebagai projek bersama antara Amazon dan Microsoft. Pada masa itu, pengurus projek menepuk kepalanya dan nama itu keluar, tetapi penamaan sangat sukar untuk pengaturcara Kami bergelut dengan pelbagai nama fail dan nama berubah setiap hari. Akhirnya, syarikat baharu itu hanya menamakannya selepas Boson. Saya harap semua orang akan tersenyum dengan sedar apabila mendapat meme "Boson and fermion membentuk dunia". Tetapi saya tidak menjangkakan bahawa ramai orang akan melihatnya sebagai Boston. "Saya berada di Boston, mari cuba suatu masa?" "Hah? Tetapi saya berada di Pembiayaan Bay: Pelabur terkemuka melarikan diri pada penghujung tahun 2022, saya memikirkan dua projek?" menggunakan model bahasa besar (LLM). Saya kebetulan bertemu dengan Zhang Yiming dan meminta nasihatnya. Selepas perbincangan, beliau bertanya: Mengapa tidak LLM sendiri? Saya secara tidak sedar tersentak: Pasukan kami di Amazon telah melakukan ini selama beberapa tahun, dengan berpuluh-puluh ribu kad, dan banyak kesukaran seperti blabla. Yiminghehe berkata: Ini adalah kesukaran jangka pendek, dan kita perlu mengambil pandangan jangka panjang. Kelebihan saya ialah saya mendengar nasihat dan benar-benar melakukan LLM. Pasukan pengasas mengumpulkan orang yang bertanggungjawab untuk data, pra-latihan, pasca latihan dan seni bina, dan pergi untuk mengumpul dana. Dengan nasib, saya cepat menerima pelaburan benih. Tetapi wang tidak mencukupi untuk membeli kad, jadi saya perlu mendapatkan pusingan kedua. Pemimpin pusingan ini adalah organisasi yang sangat besar, yang mengambil masa beberapa bulan untuk mendokumentasikan dan merundingkan syarat. Tetapi sehari sebelum pemeteraian, pemimpin itu berkata dia tidak akan melabur, yang secara langsung membawa kepada penarikan balik beberapa pelabur. Saya sangat berterima kasih kepada pelabur yang tinggal kerana melengkapkan pusingan ini dan mendapat tiket untuk melakukan LLM. Jika saya renungkan hari ini, dengan keghairahan pasaran modal yang masih ada pada masa itu, saya sebenarnya boleh terus mengumpul dana Mungkin seperti rakan-rakan lain, saya kini mempunyai satu bilion wang tunai. Pada masa itu, saya bimbang jika saya mengumpulkan terlalu banyak wang, sukar untuk keluar, atau saya akan dilemparkan ke langit. Sekarang saya memikirkannya, memulakan perniagaan adalah tentang mengubah hidup anda menentang kemungkinan. Mesin: Pengguna awal pertama membeli GPU apabila mereka mempunyai wang. Saya bertanya kepada pelbagai pembekal dan jawapan sebulat suara ialah H100 akan dihantar setahun kemudian. Saya mempunyai idea dan menulis e-mel kepada Lao Huang secara terus. Lao Huang menjawab serta-merta dan berkata dia akan melihat. Ketua Pegawai Eksekutif Supermicro menelefon sejam kemudian. Saya membayar lebih sedikit, melompat dalam barisan, dan mendapat mesin itu 20 hari kemudian. Saya berbesar hati untuk makan ketam lebih awal. Selepas makan ketam, saya meragui kehidupan saya dan menemui pelbagai jenis pepijat pelik. Sebagai contoh, bekalan kuasa GPU tidak mencukupi, menyebabkan ketidakstabilan Kemudian, jurutera Supermicro mengubah suai kod bios dan menampalnya sebagai contoh, sudut pemotongan gentian optik adalah salah, menyebabkan komunikasi yang tidak stabil, contohnya, susun atur rangkaian yang disyorkan tidak optimum, jadi kami membuat rancangan baharu, dan kemudian Nvidia saya juga menggunakan rancangan ini sendiri. Saya masih tidak memahaminya. Kami membeli kurang daripada seribu kad, jadi kami boleh dianggap sebagai pembeli kecil. Tetapi bukankah pembeli besar menghadapi masalah yang kami hadapi ini. Mengapakah kami memerlukan nyahpepijat kami? Pada masa yang sama, kami juga menyewa bilangan H100 yang sama, dan terdapat pelbagai jenis pepijat GPU menghadapi masalah setiap hari, malah kami tertanya-tanya sama ada kami seorang sahaja di awan ini. Kemudian, saya melihat laporan teknikal Llama 3 mengatakan bahawa selepas mereka beralih kepada H100, model itu telah terganggu beratus-ratus kali semasa latihan. Jika dibandingkan binaan sendiri dan pajakan, kos sewa selama tiga tahun hampir sama dengan kos bina sendiri. Kelebihan menyewa kad adalah ketenangan fikiran. Terdapat dua faedah untuk membina diri. Satu ialah jika teknologi Nvidia masih jauh ke hadapan dalam tempoh tiga tahun, maka ia boleh mengawal harga supaya GPU masih mengekalkan nilainya? Satu lagi ialah kos rendah penyimpanan data yang dibina sendiri. Storan perlu dekat dengan GPU Sama ada awan besar atau awan GPU kecil, harga storan adalah tinggi. Walau bagaimanapun, satu latihan model boleh menggunakan beberapa ruang TB untuk menyimpan pusat pemeriksaan dan penyimpanan data latihan bermula pada 10PB. Jika anda menggunakan AWS S3, 10PB berharga dua juta setahun. Jika wang ini digunakan untuk pembinaan diri, ia boleh mencecah 100PB. Perniagaan: Terima kasih kepada pelanggan kami, kami sangat bertuah untuk pulang modal pada tahun pertama Pendapatan dan perbelanjaan kami adalah walaupun pada tahun pertama. Perbelanjaan kami terutamanya untuk tenaga kerja dan kuasa pengkomputeran Terima kasih kepada sumber kewangan Openai dan peneraju jauh Nvidia, kedua-dua perbelanjaan adalah agak besar. Sumber pendapatan kami ialah membuat model tersuai untuk pelanggan besar. Kebanyakan syarikat yang memasuki LLM sangat awal adalah kerana CEO mereka sangat membuat keputusan, mereka tidak gentar dengan kuasa pengkomputeran yang tinggi dan kos buruh, dan dengan tegas mendorong pasukan dalaman mereka untuk mencuba teknologi baharu bersama-sama. Saya sangat berterima kasih kepada pelanggan kerana memberi kami masa untuk bernafas, jika tidak, saya akan bergegas ke pelbagai pelabur dalam beberapa bulan kebelakangan ini. Seterusnya, lebih banyak syarikat harus cuba menggunakan LLM, sama ada untuk menaik taraf produk mereka sendiri atau mengurangkan kos dan meningkatkan kecekapan. Sebabnya, di satu pihak, kos teknologi semakin berkurangan, dan sebaliknya, peneraju industri (seperti pelanggan kami) akan mengeluarkan produk berasaskan LLM secara berturut-turut, melancarkan industri. Kami juga memberi perhatian kepada pelaksanaan LLM pada toC.Gelombang terakhir pemain terkemuka seperti c.ai dan perplexity masih mencari model perniagaan, tetapi terdapat juga sedozen atau lebih aplikasi asli LLM kecil yang menghasilkan wang yang lumayan. Kami menyediakan model untuk syarikat permulaan yang memainkan peranan. Mereka memberi tumpuan kepada pemain yang mendalam dan mengimbangi pendapatan dan perbelanjaan, yang juga hebat. Keupayaan model masih berkembang, dan lebih banyak modaliti (suara, muzik, gambar, video) sedang disepadukan. Saya percaya akan ada lebih banyak aplikasi imaginatif pada masa hadapan. Secara keseluruhan, industri dan modal masih tidak sabar. Pada tahun ini, beberapa syarikat yang telah ditubuhkan selama lebih daripada setahun tetapi telah mengumpul berbilion telah memilih untuk keluar. Dari teknologi kepada produk adalah proses yang panjang, dan ia adalah perkara biasa untuk mengambil masa 2 atau 3 tahun. Mengira kemunculan keperluan pengguna, ia mungkin mengambil masa yang lebih lama. Kami memberi tumpuan pada masa kini, meneroka laluan dalam kabus, dan kekal optimistik tentang masa depan. Teknologi: Empat peringkat kesedaran LLM Kesedaran tentang LLM telah melalui empat peringkat. Peringkat pertama adalah dari Bert ke GPT3 Saya merasakan bahawa ia adalah seni bina baru dan data besar, yang boleh dilakukan. Apabila kami berada di Amazon, kami juga masuk serta-merta untuk melakukan latihan berskala besar dan pelaksanaan produk. Peringkat kedua ialah apabila GPT4 dikeluarkan semasa saya mula-mula memulakan perniagaan saya, dan saya sangat terkejut. Kebanyakan sebabnya datang daripada fakta bahawa teknologi itu tidak didedahkan kepada umum. Menurut khabar angin, dianggarkan bahawa satu masa latihan model ialah 100 juta, dan kos data standard ialah berpuluh juta. Ramai pelabur bertanya kepada saya berapa kos untuk mengeluarkan semula GPT4, dan saya berkata 300-400 juta. Kemudian, salah seorang daripada mereka benar-benar melabur ratusan juta. Peringkat ketiga ialah separuh tahun pertama memulakan perniagaan. Kita tidak boleh melakukan GPT4, jadi mari kita mulakan daripada masalah tertentu. Jadi saya mula mencari pelanggan, termasuk mereka dalam permainan, pendidikan, jualan, kewangan dan insurans. Melatih model berdasarkan keperluan khusus. Pada mulanya, tidak ada model sumber terbuka yang baik di pasaran, jadi kami berlatih dari awal Kemudian, banyak model yang baik keluar, yang mengurangkan kos kami. Kemudian reka kaedah penilaian berdasarkan senario perniagaan, tandai data, lihat tempat model tidak berfungsi dan perbaikinya dengan sewajarnya. Pada penghujung tahun 2023, kami sangat terkejut apabila mendapati model siri Photon (sejenis Boson) kami mengatasi prestasi GPT4 dalam aplikasi pelanggan. Manfaat model tersuai ialah kos inferens ialah 1/10 daripada memanggil API. Walaupun API jauh lebih murah hari ini, teknologi kami sendiri juga bertambah baik dan masih 1/10 daripada kosnya. Selain itu, QPS, kelewatan, dsb. semuanya dikawal dengan lebih baik. Pemahaman pada peringkat ini ialah untuk aplikasi khusus, kita boleh mengalahkan model terbaik di pasaran. Peringkat keempat ialah separuh tahun kedua memulakan perniagaan. Walaupun pelanggan mendapat model yang mereka minta dalam kontrak, ia tidak seperti yang mereka jangkakan kerana GPT4 tidak mencukupi. Pada awal tahun, kami mendapati sukar untuk model itu membuat lonjakan lain jika ia dilatih untuk satu aplikasi. Mengimbas kembali, jika AGI ingin mencapai tahap manusia biasa, apa yang pelanggan mahukan adalah tahap profesional. Permainan memerlukan perancang profesional dan pelakon profesional, pendidikan memerlukan guru pingat emas, jualan memerlukan jualan pingat emas, dan kewangan dan insurans memerlukan penganalisis kanan. Ini semua adalah kepakaran industri AGI plus. Walaupun kami kagum dengan AGI pada masa itu, kami merasakan ia tidak dapat dielakkan. Pada awal tahun ini kami mereka bentuk satu siri model Higgs (God Particle, sejenis Boson). Keupayaan umum utama adalah mengikuti model terbaik, tetapi menonjol dalam keupayaan tertentu. Kecekapan yang kami pilih ialah main peranan: memainkan watak maya, bermain sebagai guru, bermain jualan, bermain penganalisis, dan sebagainya. Ia telah diulang kepada generasi kedua pada pertengahan 2024 On Arena-Hard dan AlpacaEval 2.0, yang menguji keupayaan umum, V2 adalah setanding dengan model terbaik, dan ia tidak jauh ketinggalan pada MMLU-Pro, yang menguji pengetahuan.

Li Mu: Satu tahun untuk memulakan perniagaan, tiga tahun untuk hidup

1. Higgs-V2 berasaskan pangkalan Llama3 dan mempunyai latihan pasca lengkap.
  1. Kami tidak boleh menganotasi data sebanyak Meta, jadi V2 lebih baik daripada Llama3 Instruct, terutamanya disebabkan oleh inovasi algoritma.
  2. Seterusnya, kami mencipta set data penilaian main peranan yang mengandungi lakonan berasaskan peranan dan senario.
  3. Anehnya, model sendiri menduduki tempat pertama di papan pendahulunya sendiri. Walau bagaimanapun, latihan model tidak didedahkan kepada data penilaian.
  4. Set data penilaian ini pada asalnya direka untuk kegunaan sendiri dan bertujuan untuk benar-benar mencerminkan keupayaan model dan mengelakkan pemasangan berlebihan.
  5. Walaupun begitu, pelajar yang bertanggungjawab untuk penilaian mengeluarkan laporan teknikal. Perlu diingat bahawa sampel ujian main peranan berasal dari c.ai, tetapi keupayaan modelnya berada di bahagian bawah.

    Li Mu: Satu tahun untuk memulakan perniagaan, tiga tahun untuk hidup

    Tahap keempat kognisi

Model menegak yang baik juga perlu mempunyai keupayaan am yang kuat, seperti penaakulan, mengikut arahan dan keupayaan menegak yang lain. Dalam jangka panjang, kedua-dua model umum dan menegak sedang bergerak ke arah AGI. Model menegak boleh menjadi lebih khusus, mempunyai kepakaran yang cemerlang, mempunyai keupayaan umum yang boleh diterima, mempunyai kos R&D yang lebih rendah, dan mempunyai kaedah R&D yang berbeza.

Fasa kelima untuk mengenali antara satu sama lain

sedang berjalan dan kami tidak sabar-sabar untuk berkongsi secepat mungkin.

Visi: Human Companion

Kami mengejar visi "agen pintar disertai manusia", dengan EQ dan IQ tinggi, setara dengan pasukan profesional. Sebagai contoh, ia boleh mengiringi bermain (perancang + pelakon), sukan (pendorong + jurulatih sukan), dan pembelajaran (kaunseling dan pengajaran). Model ini kekal bersama anda untuk masa yang lama, memahami pengguna dengan mendalam dan boleh "mempertimbangkan pengguna dengan ikhlas."

Équipe : Les défis dépendent de l'équipe

C'est seulement après avoir démarré une entreprise que j'ai vraiment réalisé l'importance de l'équipe. Les membres de l'équipe sont comme des vis, constituant la « voiture » entière, capables de réagir avec flexibilité à diverses situations et d'assumer de lourdes responsabilités. Au début de la création de l'entreprise, la taille de l'équipe était petite et tous les membres étaient importants. Il n'y avait pas de redondance et la défaillance d'une personne pouvait affecter l'ensemble du fonctionnement. Dans le passé, je choisissais des projets dont je pouvais diriger le développement, mais cela signifiait aussi que les problèmes n'étaient pas très difficiles. Créer une entreprise a un gros problème à résoudre, et elle ne peut s’appuyer que sur l’équipe. Bien que le « je » soit largement utilisé dans cet article, le travail est effectué par une équipe.

Poursuite personnelle : gloire ou fortune ?

Je prends des décisions en fonction de ma voix intérieure, qu'il s'agisse d'étudier pour un doctorat, de réaliser des vidéos ou de démarrer une entreprise. L’entrepreneuriat nécessite une forte motivation pour surmonter les difficultés. Ma motivation la plus profonde vient de la peur que la vie n’ait aucun sens. Je choisis « d'aller de l'avant » pour améliorer ma capacité à créer de la valeur ; je choisis d'enregistrer des vidéos et d'écrire du matériel pédagogique pour créer de la valeur pédagogique ; je choisis d'écrire des résumés de travail et d'entrepreneuriat pour créer de la valeur de cas ; mes efforts pour créer une plus grande valeur.

La dernière annonce concerne les informations de recrutement de notre entreprise

(Région de la Baie et Vancouver) https://jobs.lever.co/bosonai
Si vous avez des candidatures à l'étranger, veuillez nous contacter api@boson.ai

Atas ialah kandungan terperinci Li Mu: Satu tahun untuk memulakan perniagaan, tiga tahun untuk hidup. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn