ホームページ  >  記事  >  テクノロジー周辺機器  >  私のリーダーであるマスク氏: 会議が嫌い、技術系以外の中間管理職は望まない、そして人員削減を主張する

私のリーダーであるマスク氏: 会議が嫌い、技術系以外の中間管理職は望まない、そして人員削減を主張する

PHPz
PHPz転載
2024-04-01 09:01:331100ブラウズ

マスク氏はすでに「悪魔のボス」として有名だ。

さて、彼の昔の部下であるカルパシー (アンドレイ・カルパシー) 最新のインタビューで彼(ドージ)を再び「叩きつけた」:

私は彼に許可を懇願しなければならない人を募集します。

(マスク)はいつもデフォルトで従業員を解雇します。

私のリーダーであるマスク氏: 会議が嫌い、技術系以外の中間管理職は望まない、そして人員削減を主張する

カパシ氏は、レイオフに加えて、セコイア主催の AI Ascent イベントでマスク氏の管理会社についてさらに詳細を明らかにしました:

会議を嫌い、拒否する横になり、VP よりもエンジニアと直接仕事について話すことを好みます...

さらに、彼は誰もが関心を持つ多くの大きなモデルのトピックについても話しました。

  • LLM OS
  • サイズは重要ですか?
  • 若いスタートアップはどのようにして OpenAI と競争できるのでしょうか?

詳細については、テキスト バージョンを以下に共有します~

(Claude 3 も貢献しました)

大きな言語モデルが新しい Times CPU

Q: アンドレ、今日はご参加いただき、誠にありがとうございます。 OpenAI の当初のオフィスはサンフランシスコ オフィスの向かいにあり、多くの人が集まっていました。

チョコレート工場の2階で働き、ウィリー・ウォンカの夢を実現すること以外に、ここで働いている中で最も記憶に残る瞬間は何ですか?

KAPASI: はい、Greg のアパートを除けば、OpenAI の元のオフィスはそこにありました。

2年ほど滞在しましたが、階下にチョコレート工場があり、いつも美味しそうな香りが漂っていました。当時のチームの人数は10~20名程度でした。

私たちはそこでとても楽しい時間を過ごしました。 Lao Huang 氏は GTC カンファレンスで、最初の DGX スーパーコンピューターを OpenAI に送り、それがそこで起こったと述べました。

私のリーダーであるマスク氏: 会議が嫌い、技術系以外の中間管理職は望まない、そして人員削減を主張する

Q: アンドレについては説明の必要はありませんが、それでも彼の経歴について触れておきたいと思います。彼はジェフリー・ヒントンとリー・フェイフェイに師事し、スタンフォード大学での深層学習コースで最初に有名になりました。

2015 年に OpenAI を共同設立しました。 2017年にマスク氏に引き抜かれた。

あなたは当時の状況を覚えていないかもしれません。テスラは 6 人のオートパイロット リーダーを経験しましたが、それぞれの勤務期間はわずか 6 か月でした。アンドレがその職を引き継いだとき、私は彼の幸運を祈ったのを覚えています。

彼が OpenAI に戻るまでに時間はかかりませんでした。しかし今、彼は完全な自由を手に入れ、やりたいことは何でもできます。したがって、私たちは今日彼が共有する洞察を聞くことを楽しみにしています。

私がアンドレについて最も尊敬しているのは、彼が魅力的な未来思想家であり、根っからの楽観主義者であると同時に、非常に現実的な建築家であるということです。今日、彼はこれらの側面についていくつかの洞察を私たちに共有してくれるでしょう。

まず第一に、7 年前でさえ、AGI は私たちが生きている間に達成するのはほぼ不可能な目標のように思えました。そして今、それが見えてきたようです。 今後 10 年には何があると思いますか?

カパシ: おっしゃるとおりです。数年前、AGI の道筋はまだ非常に不明確で、非常に学術的な議論の段階にありました。しかし今ではそれは明らかであり、誰もがその穴を埋めるために懸命に働いています。

最適化作業が本格化しています。ざっくり言うと、誰もが「ラージ モデル オペレーティング システム (LLM OS)」を構築しようとしています。

私はこれをオペレーティング システムと比較するのが好きです。さまざまな周辺機器を準備し、新しい CPU に接続する必要があります。 これらの周辺デバイスには、テキスト、画像、音声などのさまざまなモダリティが含まれます。 CPU は言語モデルそのものです。また、私たちが構築したすべての Software 1.0 インフラストラクチャにも接続します。

誰もがこのようなものを構築し、経済のあらゆる分野で機能する製品にカスタマイズしようとしていると思います。

一般に、開発の方向性は、これらの比較的独立したエージェントを調整し、それらに高レベルのタスクを割り当て、さまざまなタスクに特化させることができるというものです。これは非常に興味深く、刺激的なものとなるでしょう。そして、エージェントは 1 人だけではなく、多数存在します。それがどのようなものになるか想像してみてください。

私のリーダーであるマスク氏: 会議が嫌い、技術系以外の中間管理職は望まない、そして人員削減を主張する

Q: 将来が本当にあなたの言う通りだとしたら、私たちは今どのようにライフスタイルを調整すべきでしょうか?

カパシ: わかりません。それを構築し、影響を与え、確実にポジティブなものにするために、私たちは懸命に働く必要があると思います。要するに、できるだけ良い結果が得られるように努めてください。

Q: あなたはもう自由人なので、明らかな問題を提起したいと思います。それは、OpenAI がエコシステム全体を支配しているということです。

今日ここにいる人々のほとんどは、ニッチ市場を開拓しようとしている起業家で、OpenAI によって一夜にしてビジネスが潰れないように祈っています。

まだチャンスはあると思いますか? OpenAI は今後もどの分野で優位に立つのでしょうか?

Kapasi: 私の全体的な印象は、OpenAI が LLM オペレーティング システムの構築に熱心に取り組んでいるということです。今日初めに聞いたように、OpenAI はプラットフォームを開発しようとしています。これに基づいて、さまざまな業種でさまざまな会社を設立できます。

Windows などのオペレーティング システムにはブラウザなどの既定のアプリケーションも付属しているため、オペレーティング システムのたとえは非常に興味深いものです。

つまり、OpenAI や他の企業もいくつかのデフォルト アプリケーションを起動する可能性があると思いますが、それはそれらのアプリケーション上で別のブラウザを実行できないという意味ではなく、それらのエージェント上で別のブラウザを実行することができます。

デフォルトのアプリもいくつかありますが、特定のシナリオに合わせて微調整されたさまざまなアプリを備えた活気に満ちたエコシステムも存在する可能性があります。

私は初期の iPhone アプリの例えが好きです。これらのアプリはすべてちょっとした冗談から始まり、開発には時間がかかります。私たちは今同じことを経験していると思います。人々は、このものの何が優れているのかを理解しようとしています。何が苦手ですか?どうやって使用すればいいですか?どうやってプログラムするの?デバッグ方法は?実際のタスクを実行させるにはどうすればよいでしょうか?どのような監督が必要ですか?それは完全に自律的ではありますが、完全に自律的ではないからです。それでは、監督はどのようにあるべきでしょうか?評価はどのようなものであるべきですか?考えるべきこと、理解すべきことがたくさんあります。この新しいインフラストラクチャとどのように連携するかを理解するには、しばらく時間がかかると思います。したがって、今後数年以内にそれが分かると思います。

Q

: OpenAI、Anthropic、Mistral、Llama、Gemini、オープンソース モデル エコシステム全体、および多数の小規模言語モデルを含む、大規模な言語モデルをめぐる競争が現在本格化しています。モデル。エコシステムの将来の発展をどのように予測しますか?

KAPASI

: そうですね、やはり、オペレーティング システムの例えは興味深いですね。 Windows や macOS などのクローズド ソース システムだけでなく、オープン ソースの Linux も提供しています。おそらく大型モデルも同様のパターンかと思います。 Llama、Mistral など、あなたがリストしたモデルの多くは、真のオープンソースではないと思います。これは、使用できるものの、まったく役に立たないオペレーティング システムのバイナリを廃棄するようなものです。確かに、完全にオープンソースであると私が考える言語モデルがいくつかあり、データ収集からモデルのトレーニングに至るまで、「オペレーティング システム」のコンパイルに必要なすべてのインフラストラクチャが完全にリリースされています。モデルを微調整できるため、単にモデルの重みを取得するよりも確実に優れています。

しかし、微妙な問題があると思います。モデルを完全に微調整することはできないということです。モデルを微調整すればするほど、他のすべてのタスクのパフォーマンスが低下するからです。

したがって、他の能力に影響を与えずに特定の能力を追加したい場合は、実際には、トレーニング用に以前のデータセットの分布と新しいデータセットの分布を混合する必要があるかもしれません。モデルの重みだけが与えられている場合、実際にはこれを行うことはできません。トレーニング ループやデータ セットなどが必要です。したがって、これらのモデルでできることは非常に限られています。

これらは確かに役立ちますが、説明するにはもっと適切な用語が必要かもしれません。オープンウェイトモデル、オープンソースモデル、独自モデルのエコシステムは次のようになります。そしてそれは、私たちが今日持っているエコシステムと非常によく似ている可能性があります。

私のリーダーであるマスク氏: 会議が嫌い、技術系以外の中間管理職は望まない、そして人員削減を主張するスケールが主な決定要因

Q

: もう 1 つの質問はスケールです。簡単に言えば、サイズが最も重要であるようです。データスケールとコンピューティング能力スケール。したがって、今日、大手研究機関、大手テクノロジー企業は大きな優位性を持っています。あなたはこのことについてどう思いますか?サイズがすべてですか?そうでなければ、他に何が重要なのでしょうか?

Kapasi

: 間違いなくスケールが第一だと思います。 実際に注意する必要がある詳細がいくつかあります。データセットの準備も非常に重要であり、データを非常に良好でクリーンにし、計算をより効率的にすることができると思います。

しかし、規模が主な決定要因、最初の主要素になると思います。もちろん、他の多くのことを正しく行う必要があります。

スケールがなければ、基本的にこれらの大規模なモデルをトレーニングすることはできません。微調整などを行うだけであれば、おそらくそのようなスケールは必要ありませんが、それが完全に実現されているのをまだ見ていません。

Q

: 規模以外に重要だと思う他の要素 (優先度は低いかもしれません) について詳しく教えていただけますか?

Kappasi

: まず第一に、これらのモデルを単にトレーニングすることはできません。資金と規模を提供するだけでも、これらのモデルを実際にトレーニングすることは依然として非常に困難です。

理由の 1 つは、インフラストラクチャが新しすぎて、まだ開発中であり、まだ完成していないことです。しかし、この規模でモデルをトレーニングするのは非常に難しく、非常に複雑な分散最適化問題です。この分野の人材は現在非常に不足しています。これは基本的に、モデルが数千の GPU で実行され、さまざまな時点でランダムに失敗するというおかしなことです。このプロセスを監視し、機能させることは、実際には非常に困難な課題です。

最近まで、GPU は 10,000 GPU ワークロードを処理できるほどの能力がありませんでした。したがって、多くのインフラがこの圧力の下できしんでいるので、それに対処する必要があると思います。

さて、誰かにたくさんのお金やたくさんの GPU を与えたとしても、その人が大規模なモデルを直接生成できるかどうかはわかりません。だからこそ、規模だけの問題ではありません。実際には、インフラストラクチャ、アルゴリズム、データなど、多くの専門知識が必要であり、非常に注意する必要があります。

Q: エコシステムは急速に成長しており、1 年前に存在すると考えられていた課題のいくつかは、ますます解決されつつあります。イリュージョン、コンテキスト ウィンドウ、マルチモーダル機能により、推論がより速く、より安価になっています。現在、夜も眠れないような言語モデル研究の課題は他にありますか?十分に緊急であると同時に解決可能である問題は何だと思いますか?

Kapasi: アルゴリズムに関して、私がよく考える問題の 1 つは、拡散モデルと自己回帰モデルの明確な違いです。これらはすべて確率分布を表す方法です。さまざまなモダリティがどちらか一方に明らかに適していることがわかりました。それらを何らかの形で統一したり、接続したりする余地はあるのではないかと思います。

もう 1 つ指摘しておきたいのは、大規模なモデルを実行するためのインフラストラクチャの固有の効率性です。私の脳は約20ワットを消費します。 Huang 氏は、GTC で構築したい大型スーパーコンピューターについて話しましたが、その数字はすべてメガワットの範囲にあります。つまり、脳を動かすのにそれほど多くのエネルギーは必要ないのかもしれません。どれくらいの時間がかかるか正確にはわかりませんが、これらのモデルを実行すると 1,000 倍から 1,000,000 倍の効率が得られると言っても間違いないと思います。

問題の一部は、現在のコンピューターがこのワークロードにまったく適していないことだと思います。非常に高い並列処理が必要なため、Nvidia の GPU はこの方向への良い一歩となります。何らかの形でデータに依存する逐次計算についてはあまり気にしません。多くの異なる配列要素に対して同じアルゴリズムを実行するだけです。したがって、1 番目は新しいデータ ワークフローに対応するためにコンピューター アーキテクチャを適応させることであり、2 番目は現在改善が見られるいくつかのことを推進することだと思います。

最初のものは精度かもしれません。精度が元の 64 ビットの 2 倍から、現在は 4、5、6 ビット、または読む論文に応じて 1.5 ~ 8 ビットに低下することが確認されています。したがって、この問題を制御するには精度が大きな鍵になると思います。

2 つ目はもちろんスパーシティです。実際、大規模なモデルの多くのパラメーターはゼロ、またはゼロに近い値です。したがって、疎行列の乗算をより効率的にするなど、何らかの方法でこれを活用できれば素晴らしいと思います。この分野では有望な研究がいくつかあります。

また、より小さな行列に分解して再組み立てできるかどうかを確認する特異値分解 (SVD) のような興味深いアイデアもいくつかあります。たとえば、逆伝播を行わずに順伝播のみが計算され、より小さなモデルがより大きなモデルの出力を予測するようにトレーニングされます。

したがって、根本的に解決すべき問題は 2 つあると思います。

1 つは、より適切なハードウェアを構築することです。もう 1 つは、パフォーマンスを維持しながら効率を高める、より優れたアルゴリズムを見つけることです。

両方の側面において、まだ検討の余地がたくさんあると思います。エネルギー効率の観点から見ると、脳とのギャップを埋めることができれば、大きな改善となります。これは、私たち一人ひとりがモデルを購入できる、またはクラウドに接続することなくデバイス上でモデルを実行できることを意味する可能性があります。

マスクは「世界最大のスタートアップを経営している」

私のリーダーであるマスク氏: 会議が嫌い、技術系以外の中間管理職は望まない、そして人員削減を主張する

Q: さて、話題を変えましょう。あなたは、マスク氏だけでなく、サム、グレッグ、OpenAI の他のチームメンバーなど、この時代の多くの偉人たちと一緒に仕事をしてきました。

ここにいる皆さんのうち、アメリカのボートチームと日本のボートチームに関するジョークを聞いたことがある人は何人いるでしょうか?これは興味深い話です。マスク氏はこのジョークを共有しましたが、これは文化とチームの構築に関する彼の哲学を多く反映していると思います。物語には 2 つのチームがあり、日本チームは漕ぎ手 4 名と車長 1 名、アメリカチームは車長 4 名と車長 1 名で構成されています。チーム USA が負けたときに何をするか予想できる人はいますか?声を上げて。まさに、彼らはその漕ぎ手を解雇するつもりだ。

マスク氏がこの例を共有したとき、彼は適切な人材を雇用し、適切なチームを構築することについての自分の見解を説明していたと思います。これらの素晴らしいリーダーたちと緊密に連携して何を学びましたか?

KAPASI: マスク氏の会社経営のやり方は非常にユニークだと思います。それがどれほど特別なことなのか、人々はあまり気づいていないように感じます。他人の話を聞いても、完全に理解することは難しいです。言葉で説明するのは難しいと思います。どこから始めればよいのかさえ分かりません。しかし、それは本当にユニークで異なる方法です。

私の言葉で言えば、彼は世界最大の新興企業を経営しているです。今はそれを明確に説明するのが難しく、考えてまとめるにはさらに時間がかかるかもしれません。

しかし、まず第一に、彼は強力な力と高い技術内容を備えた小さなチームで会社を設立することを望んでいます

他の企業では、開発プロセス中にチームの規模が大きくなることがよくあります。一方、マスク氏はチームの過度な拡大には常に反対してきた。従業員を採用するために一生懸命働かなければなりませんでした。私は彼に人を募集することを許可してくれるように懇願しなければなりませんでした。

また、大企業では成績の悪い従業員を解雇するのが難しい場合が多いです。一方、マスク氏は従業員の解雇に率先して取り組む姿勢を示している。

実際、彼は常に従業員を解雇することを怠らなかったため、私は何人かの従業員を引き留めるために懸命に戦わなければなりませんでした。

したがって、最初のポイントは、強力な力と優れた技術を備えた小さなチームを維持することです。技術者以外の中間管理職は絶対に存在しません。これが最も重要な点です。

2 つ目のポイントは、職場の雰囲気とオフィスに入ったときの雰囲気をどのように作り出すかです。

彼は職場環境が活気に満ちていることを望んでいます。人々は動き回り、物事を考え、刺激的なことに集中します。ホワイトボードに書いたり絵を描いたり、コンピューターの前でコードを入力したりしています。彼は停滞した水のプールが好きではありませんし、オフィスに活気がないのも好きではありません。

彼はまた、長時間の会議を好まず、会議が無意味な場合には、思い切って席を立つよう常に人々に勧めています。この会議から何も貢献することも得るものも何もないのなら、その場から立ち去っても構わないということがよく分かりました。そして彼はそれを非常に支持してくれました。これは他の会社ではなかなか見られないと思います。

だから私は、

前向きな職場環境を作り出すことが、彼が植え付けた 2 番目に重要な概念であると考えています。おそらくこれには、企業が規模が大きくなるにつれて従業員を過保護にする傾向も含まれているのでしょう。彼の会社ではそんなことはないだろう。会社の文化は、専門能力を 100% 発揮しなければならないというもので、仕事のペースと強度は非常に高いです。 おそらく最もユニークで興味深く、珍しい点は、

彼がチームと非常に結びついているということだと思います

通常、企業の CEO は、5 つのレベルの部下を管理し、副社長とのみコミュニケーションを取り、連絡が取れない人物です。副社長は部下の上司とコミュニケーションをとり、スーパーバイザはマネージャーとコミュニケーションをとります。あなただけが能力があります。直属の上司と話すこと。しかし、マスク氏はまったく異なるやり方で会社を経営している。彼はオフィスに来て、エンジニアと直接話しました。

私たちが会議をするときは、会議室に 50 人が集まることが多く、マスク氏はエンジニアたちと直接話します。彼は副社長や幹部とだけ話すことを望んでいませんでした。

通常、CEO は時間の 99% を副社長とのコミュニケーションに費やし、エンジニアとのコミュニケーションに 50% を費やすこともあります。したがって、チームが小規模で効率的である場合、エンジニアとコードが最も信頼できる情報源となります。彼らは真実を直接知っています。マスク氏はエンジニアと直接コミュニケーションをとり、実際の状況を理解し、改善方法を議論したいと考えている。

つまり、彼がチームと離れ離れではなく、つながっているという事実は非常にユニークだと言えます。

また、彼の社内での権力の使い方も異常です。たとえば、エンジニアと話し、プロジェクトの進行を妨げているいくつかの問題について学んだとします。たとえば、エンジニアが「プログラムを実行するのに十分な GPU がありません」と言った場合、彼はそれを真剣に受け止めます。同様の苦情を 2 回聞くと、彼はこう言うでしょう。「それでは、問題が発生しました。それで、今のスケジュールはどうなっているのですか? いつ解決されますか?」

満足のいく答えが得られない場合、彼はこう言うでしょう。 「GPU クラスターの担当者と話をするつもりです」と言うと、誰かがその人に電話して、文字通り「クラスターの容量を今から 2 倍にしてください。明日から毎日私に連絡してください。」と言うでしょう。クラスターサイズが 2 倍になるまでの進捗状況を報告してください。」

相手は、調達プロセスがまだ必要であり、それには 6 か月かかると言って回避する可能性があります。この時、マスク氏は眉をひそめて「黄仁勲氏と話がしたい。」と言い、プロジェクトの障害を直接取り除くだろう。

だから、彼がさまざまな仕事にどれだけ深く関与し、障害を取り除き、影響力を及ぼしているか、人々はあまり気づいていないのだと思います。

正直、そのような環境を離れて普通の会社に就職すると、こうしたユニークな場所が本当に恋しくなるでしょう。

以上が私のリーダーであるマスク氏: 会議が嫌い、技術系以外の中間管理職は望まない、そして人員削減を主張するの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。