기업가 정신을 시작한 첫해에 LLM의 진행 상황, 어려움, 반성에 대해 친구들에게 보고하세요. 아마존에 입사한 지 5년째 되던 해에 창업을 생각했지만 전염병으로 인해 늦어졌습니다. 7년 반쯤 되니 너무 가려워서 그만뒀어요. 지금 생각해보면 살면서 꼭 해보고 싶은 일이 있으면 일찍 하려던 것 같아요. 일단 정말로 시작하면, 배워야 할 것이 너무 많다는 것을 알게 될 것이고, 왜 더 일찍 시작하지 않았는지 늘 궁금해하기 때문입니다. 이름: BosonAI의 유래 사업을 시작하기 전에 Gluon이라는 이름을 딴 일련의 프로젝트를 진행했습니다. 양자 물리학에서 글루온(Gluon)은 쿼크를 서로 묶는 보존의 일종으로, 이 프로젝트가 아마존과 마이크로소프트의 공동 프로젝트로 시작된 것을 상징합니다. 그때 프로젝트 매니저가 머리를 쓰다듬으며 이름이 나왔지만, 프로그래머들에게는 이름짓기가 참 어려웠습니다. 우리는 매일매일 다양한 파일명과 변수명으로 고생했습니다. 결국 새 회사는 단순히 Boson의 이름을 따서 회사 이름을 지정했습니다. "보손과 페르미온이 세상을 구성한다"라는 밈을 접하시면 모두가 의미심장한 미소를 지으셨으면 좋겠습니다. 하지만 많은 사람들이 보스턴으로 볼 줄은 몰랐습니다. "보스턴에 있는데 한 번 해보자?" "어? 그런데 난 베이 지역에 있지?" 자금조달: 2022년 말, 유력 투자자가 계약 전날 도망갔다. LLM(대형 언어 모델)을 사용합니다. 우연히 장이밍을 만나 조언을 구했습니다. 토론이 끝난 후 그는 LLM 자체를 왜 하지 않느냐고 물었습니다. 저는 무의식적으로 움찔했습니다. Amazon의 우리 팀은 수만 장의 카드와 blabla와 같은 많은 어려움을 가지고 수년 동안 이 작업을 수행해 왔습니다. Yiminghehe는 다음과 같이 말했습니다. 이는 단기적인 어려움이므로 장기적인 관점을 취해야 합니다. 저의 장점은 조언을 듣고 실제로 LLM을 했다는 점입니다. 창립팀은 데이터, 사전 훈련, 사후 훈련, 아키텍처 담당자들을 모아 자금 조달에 나섰습니다. 운이 좋게도 시드 투자를 빨리 받았습니다. 그런데 카드를 살 돈이 부족해서 2차를 받아야 해요. 이번 라운드의 리더는 매우 큰 조직이었으며 조건을 문서화하고 협상하는 데 몇 달이 걸렸습니다. 그러나 서명 전날 대표가 투자하지 않겠다고 말했고 이로 인해 여러 투자자가 철수했습니다. 이번 라운드를 완료하고 LLM 티켓을 받아주신 나머지 투자자들에게 매우 감사드립니다. 지금 생각해보면 당시 자본시장의 열기가 여전했기 때문에 나도 다른 친구들처럼 계속해서 자금을 조달할 수 있었을 것입니다. 당시에는 돈을 너무 많이 모으면 나가기 힘들거나 하늘로 던져질까 봐 걱정이 됐어요. 지금 생각해보면 창업은 역경에 맞서 인생을 바꾸는 일이다. 기계: 최초의 얼리 어답터들은 돈이 있을 때 GPU를 구입했습니다. 여러 공급업체에 물었고 만장일치로 H100이 1년 후에 인도될 것이라는 대답이 돌아왔습니다. 좋은 생각이 나서 Lao Huang에게 직접 이메일을 썼습니다. Lao Huang은 즉시 대답하고 살펴보겠다고 말했습니다. AMD의 CEO는 한 시간 후에 전화를 했습니다. 조금 더 지불하고 줄을 서서 20일 후에 기계를 받았습니다. 게를 일찍 먹게 되어 영광이었습니다. 게를 먹은 후 내 삶에 대한 회의가 들었고 온갖 이상한 벌레들을 만났습니다. 예를 들어, GPU 전원 공급 장치가 부족하여 불안정해졌습니다. 나중에 Supermicro 엔지니어가 BIOS 코드를 수정하여 패치했습니다. 예를 들어 광섬유의 절단 각도가 잘못되어 Nvidia가 권장하는 네트워크 레이아웃이 불안정해졌습니다. 최적이 아니어서 새로운 계획을 세웠고, 나중에 엔비디아도 이 계획을 직접 채택했습니다. 아직도 이해가 안 돼요. 우리는 천 장도 안 되는 카드를 샀으니 소규모 구매자라고 볼 수 있죠. 하지만 대형 구매자들은 우리가 직면한 이러한 문제를 겪지 않았습니까? 디버그가 필요한 이유는 무엇입니까? 동시에 우리도 같은 수의 H100을 빌렸는데, GPU에 매일 문제가 있었고, 이 클라우드에 우리만 있는 건 아닐까 하는 생각까지 들 정도였습니다. 나중에 H100으로 전환한 후 훈련 중에 모델이 수백 번 중단되었다는 Llama 3의 기술 보고서를 보니 라인 사이의 고통에 공감할 수 있습니다. 자가건축과 임대를 비교해 보면 3년 임대비용은 자가건축 비용과 거의 비슷하다. 카드렌탈의 장점은 마음의 평화입니다. 자체 구축에는 두 가지 이점이 있습니다. 하나는 Nvidia의 기술이 3년 후에도 여전히 훨씬 앞서 있다면 GPU가 여전히 가치를 유지하도록 가격을 통제할 수 있다는 것입니다. 또 하나는 자체 구축된 데이터 스토리지의 저렴한 비용입니다. 스토리지는 GPU에 가까워야 합니다. 대규모 클라우드이든 소규모 GPU 클라우드이든 스토리지 가격은 높습니다. 그러나 하나의 모델 훈련은 체크포인트를 저장하기 위해 수TB의 공간을 사용할 수 있으며, 훈련 데이터 저장은 10PB부터 시작됩니다. AWS S3를 사용하면 10PB에 연간 200만 달러의 비용이 듭니다. 이 돈을 셀프 구축에 사용하면 100PB에 이를 수 있다. 사업: 고객 여러분 덕분에 첫 해에 수입과 지출이 균등하게 유지되는 행운을 누렸습니다. 우리의 지출은 주로 인력과 컴퓨팅 능력에 있습니다. Openai의 재정 자원과 Nvidia의 선두 덕분에 두 지출 모두 상당히 큽니다. 우리의 수입원은 대규모 고객을 위한 맞춤형 모델을 만드는 것입니다. 아주 일찍 LLM을 시작한 대부분의 회사는 CEO가 높은 컴퓨팅 능력과 인건비에 두려워하지 않고 내부 팀이 함께 새로운 기술을 시도하도록 단호하게 추진했기 때문에 의사 결정 능력이 뛰어났기 때문입니다. 저희에게 숨쉴 시간을 주신 고객님들께 정말 감사드립니다. 그렇지 않았다면 지난 몇 달간 여러 투자자들에게 달려들었을 것입니다. 다음으로, 자사 제품을 업그레이드하거나 비용을 절감하고 효율성을 높이기 위해 LLM을 활용하려는 기업이 많아져야 합니다. 그 이유는 한편으로는 기술 비용이 감소하는 반면, 다른 한편으로는 업계 리더(예: 고객)가 LLM 기반 제품을 순차적으로 출시하여 업계를 롤업할 것이기 때문입니다. toC에서의 LLM 구현에도 주목하고 있습니다.上一波顶流例如 c.ai 和 perplexity 还在找商业模式,但也有小十来家 LLM 原生应用收入还不错。我们给一家做角色扮演的创业公司提供了模型,他们主打深度的玩家,打平了收入和支出,也是厉害的。模型能力还在进化,更多模态(语音、音乐、图片、视频)在融合,相信接下来还会有更有想象力的应用出现。整体来说行业和资本还是急躁的。今年好几家成立一年多但融资上十亿的公司选择退出。从技术到产品就是一个很长的过程,花 2、3 年实属正常。算上用户的需求的涌现,可能得花更长时间。我们专注当下在迷雾中探路,对未来保持乐观。技术:LLM 认知的四个阶段对 LLM 的认知经历了四个阶段。第一阶段是 Bert 到 GPT3,感受是新架构,大数据,这个可以搞。我们在 Amazon 的时候也是第一时间进去做了大规模的训练和在产品上的落地。第二阶段是刚创业的时候 GPT4 了放出来,大受震撼。大半原因来自技术不公开了。根据小道消息估算一次模型训练一个亿,标数据成本几千万。很多投资人问我复现 GPT4 成本得多少,我说 3-4 亿要把。后来他们中一家真一把投了大几亿出去。第三阶段是创业的第一个半年。我们做不动 GPT4,那就想着从具体的问题出发吧。于是开始找客户,有游戏的、教育的、销售的、金融的、保险的。针对具体的需求去训练模型。一开始市面上没有好的开源模型,我们就从头训练,后来很多很好的模型出来了,降低了我们成本。然后针对业务场景设计评估方法,标数据,去看模型哪些地方不行,针对性提升。23 年年底时,惊喜发现我们的 Photon(Boson 的一种)系列模型在客户应用上的效果都打赢 GPT4 了。定制模型的好处是推理成本是调用 API 的 1/10。虽然今天 API 已经便宜很多,但我们自己技术也同样在进步,仍然是 1/10 成本。另外,QPS,延时等都更好控制。这个阶段的认知是对于具体应用,我们是可以打赢市面最好模型的。第四阶段是创业的第二个半年。虽然客户拿到了合同里要的模型,但还不是他们理想中的东西,因为 GPT4 还远不够。年初时发现针对单一应用训练,模型很难再次飞跃。回过头想,如果 AGI 是达到普通人类水平,客户要的是专业人士的水平。游戏要专业策划和专业演员、教育要金牌老师、销售要金牌销售、金融保险要高级分析师。这都是 AGI 加上行业专业能力。虽然当时我们内心对 AGI 充满敬畏,但感觉是避不开的。年初我们设计了 Higgs(上帝粒子,Boson 的一种)系列模型。主打通用能力紧跟最好的模型,但在某个能力上突出。我们挑选的能力是角色扮演:扮演虚拟角色、扮演老师、扮演销售、扮演分析师等等。24 年年中的时候迭代到第二代,在测试通用能力的 Arena-Hard 和 AlpacaEval 2.0 上,V2 跟最好的模型打得有来有回,在测试知识的 MMLU-Pro 上也没差很远。
1. Higgs-V2 是基于 Llama3 base,进行了完整的 post-training。好的垂直模型通用能力也需较强,例如推理、指令遵循等垂直所需能力。长远来看,通用和垂直模型都朝着 AGI 发展。垂直模型可偏科较明显,专业突出,通用能力尚可,研发成本较低,研发方式亦有别。
第五阶段认识
目前正在进行中,期待尽快分享。
愿景:人类陪伴
我们追求愿景为“人类陪伴的智能体”,高情商、高智商,相当于一个专业团队。例如,它能陪伴玩耍(策划 + 演员)、运动(鼓励师 + 运动教练)、学习(辅导讲授)。模型陪伴长久,深入了解用户,可“真心为用户着想”。
팀: 어려운 일은 팀에 달려있습니다
저는 사업을 시작하고 나서야 팀의 중요성을 실감했습니다. 팀원들은 나사처럼 '자동차' 전체를 구성하고 있으며, 다양한 상황에 유연하게 대응할 수 있고 막중한 책임을 짊어지고 있습니다. 회사 설립 초기에는 팀 규모가 작았으며 모든 구성원이 중요했으며 중복이 없었고 한 사람의 실패가 전체 운영에 영향을 미칠 수 있었습니다. 예전에는 제가 개발을 주도할 수 있는 프로젝트를 선택했는데, 그만큼 문제가 그리 어렵지 않았다는 뜻이기도 합니다. 사업을 시작하는 것은 해결해야 할 큰 문제를 선택했으며 이는 팀에만 의존할 수 있습니다. 이 기사에서는 "나"가 광범위하게 사용되었지만 작업은 팀에서 수행됩니다.
개인적인 추구: 명성 또는 재산?
박사 공부든, 영상 제작이든, 창업이든 내면의 목소리에 따라 결정을 내립니다. 창업에는 어려움을 극복하기 위한 강한 동기가 필요합니다. 나의 가장 깊은 동기는 삶이 의미가 없을 수도 있다는 두려움에서 비롯됩니다. 나는 가치 창출 능력을 향상시키기 위해 "앞으로 나아가기"를 선택했습니다. 나는 교육적 가치를 창출하기 위해 업무 및 기업 요약을 작성하기로 선택했습니다. 더 큰 가치를 창출하기 위한 나의 노력.
마지막 광고는 저희 회사 채용정보입니다
(Bay Area 및 Vancouver) https://jobs.lever.co/bosonai
해외 지원이 있는 경우 api@boson.ai
위 내용은 리무(Li Mu): 사업을 시작하는 데 1년, 사는 데 3년의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!