ホームページ  >  記事  >  Luma の主任研究員 Jiaming Song が画像およびビデオ モデルの歴史とマルチモーダル モデルの将来について語る

Luma の主任研究員 Jiaming Song が画像およびビデオ モデルの歴史とマルチモーダル モデルの将来について語る

王林
王林オリジナル
2024-07-18 09:42:30750ブラウズ

AI + a16z ポッドキャストのこのエピソードでは、Luma の主任科学者 Jiaming Song が a16z ジェネラル パートナー Anjney Midha に加わり、ビデオ モデルにおける Jiaming の尊敬されるキャリアについて話し合います

Luma Chief Scientist Jiaming Song on the History of Image and Video Models and the Future of Multimodal Models

AI + a16z ポッドキャストのこのエピソードでは、Luma の主任科学者 Jiaming Song が登場します。 a16z ゼネラルパートナーである Anjney Midha と、ビデオ モデルの分野における Jiaming の印象的なキャリアについて語りました。その結果、最近リリースされた Luma の Dream Machine 3D ビデオ モデルで頂点に達しました。このモデルは、多次元にわたる世界について推論する能力を実証しています。 Jiaming は、画像およびビデオ モデルの進化、マルチモーダル モデルの将来に対するビジョン、および新しい推論機能を実証する Dream Machine の能力の背後にある推論について語ります。 Jiaming 氏によると、このモデルは大量の高品質ビデオ データでトレーニングされており、言語データとの関連で測定した場合、数百兆のトークンに相当します。

以下は彼らのディスカッションの抜粋で、Jiaming 氏は次のように説明しています。苦い教訓」を生成モデルのトレーニングの文脈で説明し、その過程で、Dream Machine がコンテキスト豊富なビデオ データを使用して実行できる理由の重要な要素を次のように要約しています。

「人工知能に関連する多くの問題については、多くの場合、事前分布を開発して事前分布を活用して計算量を減らすよりも、単純な方法を使用してより多くの計算量を使用する方が、長期的にはより生産的です。

「この質問のケースは、最初に発生しました。言語では、人々は当初、文法や意味解析などの技術を使用して言語理解に取り組んでいました。しかし最終的に、これらのタスクは大規模な言語モデルに置き換えられ始めました。そして、同様のケースが視覚領域でも起こっています。 。 。そして現在、人々はほぼすべてのタスクにディープラーニング機能を使用しています。これは、より多くのコンピューティングを使用し、事前確率を減らすことがいかに良いことであるかを明確に示しています。

「しかし、言語ではどのように機能するのでしょうか?言語自体も人間の構築物です。もちろん、これは非常に優れた、高度に圧縮された種類の知識ですが、人間が現実世界から日々取り込むデータよりもはるかに少ないデータであることは間違いありません。 。 .

「[そして] データセットのサイズは視覚信号よりもはるかに小さいです。そして、私たちはすでに をほぼ使い果たしています。 。 。世界中にある高品質の言語ソース。人間が言語を生成できる速度は、スケーリングの法則の要求に追いつくには明らかに十分ではありません。したがって、たとえそのためにコンピューティング インフラストラクチャをスケールアップできる世界があったとしても、実際にはデータの取り組みをスケールアップするためのインフラストラクチャがありません。 。 .

「たとえ人々は、大規模な言語モデルの出現はすでにスケーリング則の証拠であると主張するでしょう。 。 。言語理解におけるルールベースの方法に反対して、物理世界で起こっているより豊富なデータ信号に直面して、言語自体も事前確率であると私たちは主張しています。」

以上がLuma の主任研究員 Jiaming Song が画像およびビデオ モデルの歴史とマルチモーダル モデルの将来について語るの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。