ホームページ >テクノロジー周辺機器 >AI >清華大学のZhou Bowen氏: ChatGPTの人気は、新世代のコラボレーションとインタラクティブインテリジェンスの重要性を明らかにしています
以下は、Heart of the Machine AI Technology Annual Conference での Zhou Bowen 氏の講演の内容です。Heart of the Machine は、元の意味を変えることなく編集し、整理しました:
ありがとう、機械の心臓 心からお招きいただきました、私は清華大学のジョウ・ボーウェンです。旧暦が終わり、グレゴリオ暦が始まる時期ですが、このようなお誘いをいただき、過去の人工知能の発展傾向の概要と、それについての考えを共有したいと思いますので、大変うれしく思います。未来。
最初に核となるアイデアを共有します。スピーチ全体を聞いても 3 つのポイントしか思い出せない場合は、次の 3 つのポイントを思い出してください:
第一に、人工知能の次のブレークスルーは、純粋に仮想的な存在から、人々がより効率的な洞察を獲得し、物理的世界、生物学的世界、情報の世界、タスクを完了し、より価値の高いシナリオを作成します。
第二に、次世代の人工知能は、知識 (闇の知識を含む)、計算、推論の組み合わせ能力を緊急に強化する必要があります。この組み合わせ能力は非常に重要ですが、私たちは、人工知能と人間および環境との間の効率的な相互作用と協力が、これらの能力を組み合わせる核心であると考えています。
理由は 2 つあり、1 つは、高い価値を生み出すためには、人や環境との連携やインタラクションが必要条件であり、AI と人間の連携がなければ、AI が単独でこれらのタスクを遂行することはできません。価値の高いシナリオ、第二に、この種のコラボレーションと対話は、AI の知識、コンピューティング、推論、組み合わせ能力を向上させる効果的な方法でもあるためです。 AI はコンピューティングにおいて大きな進歩を遂げましたが、知識と推論とモジュールの効果的な組み合わせの間には依然として大きなボトルネックがあります。人と環境の間にコラボレーションとインタラクションを追加すると、これらの分野における AI のボトルネックの一部を補うことができます。
第三に、マルチモーダリティについては 3 つの判断があります。第一に、マルチモーダルの理解と生成はコラボレーションと相互作用の重要な基礎です。第二に、過去 2 年間、さまざまなモダリティの間で、これは第三に、最近人気の ChatGPT は、人間と機械の協調的な共創とインタラクションのための将来のパラダイムのプロトタイプとして、将来的には確実にマルチモダリティに進化し、動的学習は新たな機会をもたらします。まだ多くの未熟な側面がありますが、このパラダイムの提示は私たちに将来の方向性を示しています。
上記が核心部分です。今日のレポートでは、協調的インタラクティブ インテリジェンスとマルチモーダル学習について説明し、最新の進歩と機会をレビューします。
パート 1 では、従来のインタラクティブ インテリジェンスの観点から、私たちは長い道のりを歩んできました。まず最初に、今日私たちが話しているコラボレーションとインタラクションは、本来の対話型インテリジェンスとはまったく異なるものであることを強調したいと思います。歴史におけるインタラクションとは、ELIZA、IBM Watson、Microsoft Xiaoice、Siri から JD.com のインテリジェントな顧客サービスに至るまで、トレーニングされたシステムを提供し、タスクとしてインタラクションを完了することです。私たちが今日話しているコラボレーションとインタラクションとは、インタラクションを学習方法として、コラボレーションを AI と人間の分業として使用して、人間とマシンのコラボレーションの統合をより完全にして、洞察を獲得し、新しい知識を形成し、タスクを完了することです。これは、インタラクティブ インテリジェンス全体の歴史的観点です。進歩を促進するのは、初期のルール テンプレートからフレームベースのタスクベースの対話、統計言語モデル、Seq2seq モデル、超大規模事前トレーニング モデルの生成など、技術的な観点の変化であることがわかります。 。
これらの変化については、新たな AI イノベーションが確実に生産性の変化をもたらすと判断しています。パターン、進化。数年前、誰もが人工知能のアプリケーション シナリオについて、インテリジェントな品質検査や顧客サービスなどの分野に焦点を当てて話題になっていました。しかし現在、AI イノベーションのシナリオはますます複雑になり、芸術的なコンテンツの作成、創薬、新しい知識の発見が含まれ始めています。 2002 年にノーベル経済学賞を受賞したダニエル・カーネマンのベストセラー本「Thinking Fast And Slow」では、人間の思考方法には 2 種類あると提唱しました。システム 1 は直観と無意識によって特徴付けられ、システム 1 は直感と無意識によって特徴付けられます。直観と無意識 2 そこには言語、アルゴリズム、計算、論理が含まれています。
過去数年間、人工知能はシステム 1 のシナリオでより多く使用されてきましたが、現在起こっていることを含め、将来的には人工知能の方が実際にはより優れており、より多くのタスクを引き受けるのに適しています。人間と機械のコラボレーションの視点 システム 2 が機能します。システム 1 は人間にとってより効率的であるため、脳の消費量と認知負荷が低いタスクですが、システム 2 は人間にとって非常に重い認知負荷を伴います。ただ、これまでの人工知能の技術進歩はシステム 1 のみでシステム 2 はうまく機能しませんでしたが、現在の傾向として AI はシステム 2 に近づいています。
# 反復的な作業 (品質検査、顧客サービスなど) は、ホワイトカラーおよび知識革新の応用分野となっています。これにより、より大きな価値空間とより多くのフライホイール効果がもたらされることは間違いありません。フライホイール効果とは何ですか?つまり、AI は、ホワイトカラーや知識労働者がより深く理解し、洞察を得て、新しい知識を形成するのに役立ちます。新しい知識はより優れた AI の設計に役立ち、より優れた AI はより多くの新しい知識を生み出すことができます。
この傾向の下では、AI はもはや本来のシステム 1 の AI ではなく、システム 2 の AI になっているため、AI と人のコラボレーションの方法も変わらなければならないことを明確に認識する必要があります。この場合、AI がどのように連携し対話するべきかは、検討する必要がある最先端の課題です。
なぜ AI には知識、計算、推論を組み合わせる能力が必要なのでしょうか?参考までに、マルチモーダル計算の例をいくつか示します。
#たとえば、左側の最初の図では、 、赤いジャケットを着た人がゲーム終了時にどこでゴールする可能性が最も高いかを尋ねると、答えは 4 位です。このような質問に答えるには、非常に正確な画像セグメンテーションとセマンティック セグメンテーションに加えて、多くの常識的推論と離散的推論も必要です。これらは、現在の AI システムには非常に欠けているものです。 2 番目の例として、これらの椅子はなぜ持ち運びが簡単なのでしょうか?答えは「折りたためる」です。そこには論理的な推論も含まれています。このようなシステム 2 の課題には、実際には人工知能のさらなる反復と進化が必要です。
現在誰もが知っている開発は、大規模な事前トレーニング済み言語モデルの画期的な進歩です。したがって、当然の疑問は、このパラダイムに従い続けた場合、高価値のアプリケーション シナリオと知識、計算、推論の効果的な統合を解決できるかということです。 ############ GPT-3 を例に挙げると、GPT-3 には 1,750 億個のパラメータがあることは誰もが知っていますが、GPT-3 はパラメータとモデル アーキテクチャ内の情報をエンコードし、計算を強調し、知識と推論を弱体化させます。一方では、「スケーリングの法則」のサポートにより、データがますます増え、そのモデル機能がますます強化されていますが、他方では、ニューヨーク大学の数人の学者が、すべての人のための「逆スケーリング」と呼ばれる課題を抱えています。一部のアプリケーション シナリオ - モデルが大きくなりパラメーターが大きくなるほど、パフォーマンスが低下します。 ###########################上の図には 2 つの例があります。1 つは否定 QA と呼ばれるもので、否定の否定です。二重否定: 事前トレーニングされたモデルの理解力と推論能力をテストします。もう 1 つは数学の再定義です。######このタスクは、既存の数学的計算問題の数学定数を再定義して、言語モデルがその意味を理解して正しく計算できるかどうかをテストすることを目的としています######### ### ###計算#########。右側の 2 つの図からわかるように、これらのタスクでは、モデル パラメーターが大きいほど精度が低くなります。 ######これらの例は、基本モデルが将来のインタラクティブ インテリジェンスの基礎となる可能性があることを示しています。個人的には、「ビッグ モデル」よりも重要な言葉だと考えています。非常に重要な点は、基本モデルが最終形ではないということであり、直面する問題を解決するには、モデルをより適切に視覚化する必要があります。したがって、知識、計算、推論の効果的な組み合わせが次に研究されるべき方向であると提案します。この組み合わせの重要な側面は、人間のコラボレーションと対話によってこれらの基本モデルのアップグレードを促進できることです。
GPT3 モデル「InstructGPT」に基づく別の例を比較のために使用します。
##一部の質問については、GPT-3 はプロンプトに基づいて非常にうまく答えることを学習できます。しかし、GPT3 の基本的なモデル機能の観点から、6 歳の子供に月面着陸について説明するように求めた場合、その背景には多数の値があるため、この質問に答えるにはさまざまな角度があります。例えば、これは重力の物理原理から始まって一つ目、二つ目は歴史的背景の観点から、米ソ冷戦中に月面着陸が起こり、冷戦がどのように起こったかを説明したものです。何が起こり、それがどのようにして月面着陸計画につながったのか、3 つ目は、天文学的な観点から見ると、月は地球の惑星であるということです。 4つ目は人間の視点から始まりますが、例えば人類は常に月面着陸を夢見てきましたが、中国には嫦娥に関する美しい伝説がたくさんありますし、西洋でも同様です。
しかし、現在の GPT3 モデルでは、6 歳児にそのようなことを伝えるのにどの方法が適しているかを判断するのは困難です。コーパスの重要性 月面着陸と月面着陸プロジェクトとは何かを説明するウィキペディアのページに基づいている可能性が高く、明らかに文脈を適切に提供していません。したがって、InstructGPT はこれに基づいており、ユーザーが a、b、c、d の 4 種類の回答を選択して採点することができます。ランキングが与えられた後、このフィードバックを GPT3 モデルの微調整に戻すことができます。このようにして、次に「カエルの物語を書いてください」などの新しい質問がある場合、このモデルの始まりは「むかしむかし」となり、子供たちが物語を聞き始めるのに非常に適した方法になります。
その結果、最初の点はモデルが間違いなくより効率的であるということであり、もう 1 つの点はモデルのパラメーターの削減に役立つということです。 InstructGPT にはモデル パラメーターが 13 億しかなく、GPT3 モデルと比較して数百倍圧縮されていますが、特定のシナリオで人々によりよくサービスを提供できます。協調的な対話は、AI のクローズドループ コンピューティングの知識、計算、推論能力を向上させるために必要な条件です。
私たちは、インテリジェンスには知識、計算、推論という 3 つの基本的な能力が含まれると考えています。コンピューティングは現在非常に急速に進歩していることがわかります。もちろん、コンピューティングには計算能力とデータの面でも課題がありますが、知識と推論の欠如は特に明らかです。
それでは質問があります: 3 つの間の閉ループを実現するにはどうすればよいでしょうか? AI、人間、環境の間の積極的な協力的な相互作用を強化することで、AI が 3 つの間の閉ループを実現できるようになるでしょうか?私たちの学術的な観点は、AI、人間、環境の間にコラボレーションとインタラクションを導入する必要があるということですが、一方では各モジュールの機能を向上させることができ、他方ではモジュールを組み合わせて協調的なシステムを形成することができます。相互作用。
私たちの冒頭のポイントを繰り返しますが、次の AI の画期的な進歩は、仮想的な存在から、人々がより効率的に新しい知識への洞察を得て、物理的、生物学的、情報の世界でタスクを完了できるよう支援することに移行することになります。
#清華大学の協調インタラクティブ インテリジェンス研究センターでは、主に次の学術課題について提案および研究を行っています。
#第一に、新しい協調的な視点を提案することです。つまり、AI がシステム 2 に対してより責任を持つようにし、人々に任せられるようにする方法を研究します。システム 1 に対してより責任があります。これがもたらす最初の課題は、AI 自体がシステム 1 のパターン認識や直感的な作業だけを行うのではなく、論理的推論、高度な計算、高度な複雑さなどのタスクにさらに移行する必要があるということです。 2 つ目の課題は、この新しい分業のもとで人間と AI がどのように連携できるかということです。これらは 2 つの研究方向です。
2 つ目は AI と人間のコラボレーションで、AI が人間の強化学習をループ内でより適切に学習できるようになります。私たちは、より優れた AI の継続学習を研究し、AI、環境、人間の間のコラボレーションにおいて多くのマルチモーダル表現の強化作業を行う必要があります。マルチモダリティはコラボレーションの重要なチャネルであると同時に、会話型インタラクションの強化メカニズムを強化する必要があります。
AI と環境とのコラボレーションという非常に重要なコラボレーションもあります。 AI はさまざまな環境に適応する必要がありますが、これらの環境適応は、クラウドからエッジへの適応とエッジからクラウドへの自己進化という一文に要約できます。クラウドからエッジへの自己適応を理解するのは簡単です。さまざまなコンピューティング能力と通信条件の下で、これらの基本モデルをこれらの環境によりよく適応させるにはどうすればよいでしょうか。エッジからクラウドへの自己進化により、実際にインテリジェンスが可能になります。基本モデルの反復がより適切になります。言い換えれば、これは小さなモデルと大きなモデルの間のコラボレーションと相互作用です。しかし、私たちはこの種のコラボレーションとインタラクションが一方通行であるとは考えず、知識の蒸留と枝刈りを通じて小さなモデルを得るのは大きなモデルだけであると考えています。私たちは、小さなモデルの反復と相互作用には、基本モデルへのより効果的なパスが必要であると信じています。
私たちは、上記の 3 つの技術的なパスが非常に重要であると考えています。以下に最下層のサポートがあります。おそらく、私たちの現在の研究は、信頼できる人工知能にいくつかの基本的な理論上のブレークスルーをもたらすでしょう。なぜなら、知識、計算、推論をより適切に組み合わせることで、もともと知識によって引き起こされた問題をより適切に解決できるからです。計算と推論: 計算と推論の融合によって作成されたブラック ボックスの解釈可能性、堅牢性、一般化の課題。私たちは、信頼できる人工知能のこの進歩を、分割および構成可能な方法でより適切に達成したいと考えています。人間が人工知能の推論プロセスを透明に見ることができない場合、人工知能のシステム 2 の結果を信頼することは実際には困難です。
この問題を別の視点から見てみましょう。 ChatGPT が最近非常に人気があることは誰もが知っているため、ChatGPT を回避するために多くの作業を行ってきました。もちろん、Facebook が少し前に提案した、科学論文の執筆を支援するために AI を使用するシステム、ギャラクティカも含まれています。これらはすべて、シーンを作成するために人々と環境の協力が必要であることがわかりました。こうした価値シナリオは以前は実際には存在しませんでしたが、現在では可能になり始めています。しかし、この可能性が人間のコラボレーションや相互作用から切り離されると、これらの AI システムでは不十分であることがすぐにわかります。
ギャラクティカを含めると、非常にスムーズな論文を書くことができますが、多くの基本的な事実や参考文献が間違っています。たとえば、著者の名前は正しいが、タイトルの一部が真実で一部が虚偽である、または複数の論文が結合されているなどです。私が強調したいのは、現在の AI には知識、計算、推論のこの完全な閉ループを完了する能力がないため、人間が関与する必要があるということです。
ギャラクティカはまもなくオフラインになりますが、その目的は、誰もが独自に論文や科学研究を完了するためにそれを使用できるようにすることではなく、人々をより良く支援することであるため、人々はクローズドループに入る必要がありますで。これは、人間の協力と相互作用が非常に重要な基本条件であることを強調するもう 1 つの視点です。
次に、協力的な相互作用の文脈におけるマルチモーダル学習の進歩と新たな機会を私がどのように見ているかについて話します。まず第一に、マルチモダリティは最近非常に急速に発展しており、いくつかの明らかな傾向をもたらし始めていると思います。
第一に、構造のモデリングと特徴付けの次元において、マルチモダリティ間の収束が見られます。たとえば、以前は、画像やビデオでは、テキストはシーケンス モデルであるため、誰もが CNN を使用し、誰もが主に RNN と LSTM を使用していましたが、現在では、モダリティが何であれ、誰もがすべてのトークン化された入力を 1 つのシーケンスとして扱うことができます。またはグラフ モデルはセルフ アテンションとマルチヘッド メカニズムを使用して処理されます。近年人気のTransformerアーキテクチャにより、基本的にすべてのモデルの構造が収束しています。
しかし、深い疑問は、なぜ Transformer のこのアーキテクチャがすべてのモーダル表現に対して利点があるのかということです。私たちにもいくつかの考えがありますが、その結論は、Transformer はより普遍的な幾何学的位相空間でさまざまなモードをモデル化でき、複数のモード間のモデリングの障壁をさらに減らすことができるというものです。したがって、Transformer のこの利点は、マルチモーダルな方向でのアーキテクチャの収束の基礎を築くだけです。
第二に、マルチモーダルな事前トレーニングの次元も収束していることがわかりました。最も初期の Bert は自然言語の分野で提案され、このマスク モードは事前トレーニング モデルを爆発させました。何開明氏の MAE の研究を含む最近の研究では、音声分野の研究も同様のアイデアを使用し続けています。このマスク方法を通じて、異なるモダリティ間で収束性の事前トレーニング済みモデル アーキテクチャが形成されます。現在、モダリティ間の事前トレーニングの壁は取り払われ、事前トレーニングされたモデルの次元はさらに収束しています。たとえば、MAE は BERT の事前トレーニング手法を視覚、画像、音声などのさまざまなモダリティに導入しています。したがって、マスクメカニズムは複数のモダリティにおいて普遍性を示します。
3 番目のトレンドは、アーキテクチャ前のパラメータとトレーニング前の目標の統合です。現在、Transformer アーキテクチャはテキスト、画像、オーディオのモデル化に使用されており、パラメータは複数のタスク間で共有できます。
具体的に言えば、現在のマルチモーダル事前トレーニング モデルは主にシングル ストリームとデュアル ストリームに分けられます。モデル。シングルストリーム アーキテクチャでは、2 つのモデル間の基礎的な相関関係と調整が比較的単純であると仮定します。デュアルストリーム アーキテクチャは、より優れたマルチモーダル表現を取得し、異なるモーダル情報をエンコードして融合できるようにするために、モダリティ内のモーダル クラスの相互作用とクロスモダリティ間の相互作用を分離する必要があることを前提としています。
問題は、これらのアイデアを統一するためのより良い方法があるかどうかです。現在の傾向は、スパース性とモジュール性が、より強力なマルチモーダル、マルチタスク間の 2 つの重要な特性である可能性があるということです。スパース エキスパート モデルは、シングル ストリームとデュアル ストリームの間でバランスのとれたスパース エキスパート モデル システムとみなすことができ、異なるエキスパート、異なるモダリティ、およびタスクを処理できます。
私たちが提起した 1 つの疑問は、協調的インタラクション モデルを使用して、これらの特定のタスクで Google Pathway モデルを 100 回圧縮できるが、この疎性とモジュール構造は維持できるかどうかということです。この種の研究は追跡調査の価値があります。
会話型の協調的インタラクションの側面に戻ると、ChatGPT は現時点で非常に重要な作品だと思います。その核となる価値は、協調的インタラクションの方向に新たなマイルストーンを照らすことです。学術論文、コード生成、百科事典の Q&A、指示の理解などに使用できます。事前トレーニングされた基本モデルは、インタラクティブなインテリジェントな質問応答、書き込み、コード生成などのさまざまな機能を提供できます。 ChatGPT の中核となる機能の改善は、GPT 3 に人間参加型の強化学習と、人間によるさまざまな回答の選択とランキングを追加することです。
ChatGPT の現在のプレゼンテーション フォームは主なキャリアとして自然言語を使用していますが、インタラクション モダリティ全体は間違いなくこのマルチモダリティに拡張されるでしょう。マルチモーダル シナリオにおける人間のコラボレーションとインタラクションは実際により効率的となり、より多くの情報がもたらされ、さまざまなモダリティからの知識の統合がもたらされます。
ループ内のこれらの人々の協力的な対話機能と AI 生成機能が統合されれば、多くのことが可能になります。たとえば、協調的なインタラクションである ChatGPT モデルと拡散モデルは、製品の革新と設計の革新のために統合されています。 ChatGPT などのモデルは、協調的な対話のプロセスにおいて、現在のデザインの主流トレンドと特定の消費者の好みを常に探しており、消費者シナリオの感情的な経験への洞察を通じて、デザインの傾向と技術の傾向についての判断を行い、多数の写真の分析では、デザイナーやプロのプロダクト マネージャーとの複数回の共同作業を通じて、共同創造を実現できます。
非常に詳細なシナリオでは、スマート ホームの分野など、多くの人が実際に予備知識を持っていませんが、人間とコンピューターの複数回の共同作業を通じてこれらのアイデアを生み出すことができます。設計し、安定拡散モデルを使用して、人間の創造性の核となるキーワード シーンの経験を、忠実度の高い復元されたオリジナルの設計図に変換します。協力的なインタラクションは、人々がより効率的な製品革新と設計革新を実行するのに役立ちます。それが私たち Xianyuan Technology が取り組んでいることです。
マルチモーダルな取り組みはますます重要になっているため、当センターは率先して「大規模マルチモーダル学習」に関する TPAMI 2023 特集号を創刊します。コンピュータービジョン、自然言語処理、機械学習、ディープラーニング、スマートヘルスケア、バイオインフォマティクス、認知科学などの複数の分野の人々が重要な科学的問題を提起し、ディープラーニング時代のマルチモーダルラーニングに対処するための研究機会を発見します。そしてビッグデータの分野における未解決の課題。
以上が清華大学のZhou Bowen氏: ChatGPTの人気は、新世代のコラボレーションとインタラクティブインテリジェンスの重要性を明らかにしていますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。