ホームページ > 記事 > テクノロジー周辺機器 > ジェフリー・ヒントンへの最新インタビュー: 5 年以内に、私たちは脳の仕組みを解明できるだろうが、バックプロパゲーションによるものではない
過去 10 年間、AI はコンピューター ビジョン、音声認識、機械翻訳、ロボット工学、医学、計算生物学、タンパク質の折り畳み予測の分野で次々と画期的な進歩を遂げてきました。など、これらのブレークスルーの背後には、ディープ ラーニングと切り離すことができません。では、ディープラーニングはいつどこで生まれ、いつ最も有力な AI 手法になったのでしょうか?
最近、カリフォルニア大学バークレー校教授で深層学習の専門家であるピーター・アッビール氏が、自身のポッドキャスト「Robot Brains」で ジェフリー・ヒントン 氏とのインタビューを実施しました。
2018 年にチューリング賞を受賞したヒントンは、「ディープラーニングの三巨人」の 1 人であり、人工知能の歴史の中で最も重要な学者の 1 人として知られています。彼の論文は 500,000 回以上引用されており、500,000 以上の研究論文が彼の研究に基づいていることになります。
彼は約半世紀にわたりディープラーニングの分野で研究を続けており、その間ほとんど無名でしたが、2012 年に事態は一変しました。彼は、AlexNet との ImageNet コンペティションで優勝しました。彼は、ディープラーニングが画像認識において他のコンピューター ビジョン手法よりも優れていることを証明しました。これは「ImageNet モーメント」と呼ばれ、AI 分野全体を変え、ディープラーニングの波を引き起こしました。
この会話では、ヒントンが大学から Google Brain で働くまでの道のり、心理学の研究、大工として働くまでの道のり、さらには t-SNE アルゴリズムの背後にある視覚化テクノロジーについて語ります。
AI テクノロジ コメントを変更せずにコメントします。当初の意図 インタビューは編集され、整理されました:
Abbeel: 何ニューラルネットワークですか?なぜそれを気にする必要があるのでしょうか?
ヒントン: 私たちの脳は次のように機能します:
脳には多くの神経と呼ばれるものがあります。一方、ニューロンは ping を送信しますが、ニューロンが ping を送信する理由は、他のニューロンの ping を受信しているためです。別のニューロンからの「ping」を受信するたびに、取得した入力ストアに重みを追加し、重みが特定の入力に達すると、同様に ping を送信します。
したがって、脳がどのように機能するかを知りたければ、ニューロンがこれらの重みをどのように調整するかを知る必要があるだけです。 重みを調整するにはいくつかの手順があり、それが理解できれば脳の仕組みが理解できます。今後 5 年以内にこれらのプログラムを解読できると思います。
私は、既存の人工知能はすべて、脳が高レベルで行うこととはまったく異なるものに基づいていると信じています。 同じ傾向になるはずです。多数のパラメーターがある場合、たとえば数十億のパラメーターがあり、これらのニューロン間の重みが多数のトレーニング例に基づいてパラメーターを調整すると、素晴らしいことが起こります。脳もそうですし、ディープラーニングも同様です。問題は、調整するパラメータの勾配をどのように取得するかということです。そのため、達成したいことを改善できるように調整するメトリクスとパラメータについて考える必要があります。
しかし、私の現在の信念は、バックプロパゲーション、つまりディープラーニングの現在の仕組みは、脳が行うものとはまったく異なり、脳は異なる方法で勾配を取得するということです。
アブビール: あなたはニューラル ネットワークをトレーニングするためのバックプロパゲーションに関する論文を書きました。それが今日誰もが行うすべてのことのきっかけとなりました。そして今、あなたはこう言いました。何か変更を加えるべきかどうか?脳と同じになるように努めるべきでしょうか?バックプロパゲーションは脳が行っていることより優れていると思いますか?
ヒントン: Rumelhart、Williams と私は、バックプロパゲーションに関する論文 (下記) を書きました。これは最も多く引用されています。
論文アドレス: http://www.cs.toronto.edu/~hinton/absps/naturebp.pdf
バックプロパゲーションはよく知られています。私たちが実際にやったことは、バックプロパゲーションを発明したのではなく、バックプロパゲーションを再定義したことであり、興味深い表現を学習できることを示したことです。私たちは、単語の埋め込みなどの興味深い表現を学習できると提案し、したがってバックプロパゲーションは脳内で行われるものよりもはるかに効率的である可能性があると考えています。多くの情報を少数の接続に押し込みますが、その数少ない接続はわずか数十億です。脳の問題は、接続が非常に安価であり、何兆もの接続があり、経験は非常に高価であるため、私たちはYu は、小さな経験に多くのパラメータを投入します。
そして、私たちが使用しているニューラル ネットワークは、基本的にその逆です。彼らは豊富な経験を持っており、入力情報と出力情報をパラメータに関連付けようとします。 バックプロパゲーションは脳が使用する方法よりも効率的だと思いますが、あまり多くのデータから多くの構造を抽象化するのはあまり得意ではありません。
Abbeel: この点でパフォーマンスを向上させる方法について何か仮説はありますか?
ヒントン: 私は長い間、教師なし目的関数が必要であると信じてきました。 これは主に知覚学習を指します。世界を観察してモデルを学習できれば、元のデータの代わりにこのモデルに基づいてアクションを実行できるため、精度が高くなります。
私は、脳は局所的な小さな目的関数を多数使用していると考えていますが、トレーニングを通じて目的関数を最適化するエンドツーエンドのシステムチェーンではありません。
たとえば、画像の小さなパッチを見て、何らかの表現を抽出しようとすると、その小さなパッチから得られる表現を、近くにある他のパッチと組み合わせることができます。表現から取得したコンテキストを使用して、画像に何が含まれているかを予測します。
このドメインに慣れると、コンテキストとローカルに抽出された特徴からのこれらの予測が一致することがよくあります。たとえ矛盾していても、そこから多くのことを学ぶことができます。
脳は、このような局所的な意見の相違から多くのことを学ぶことができると思います。大きな画像と画像の多数の小さな局所パッチは、多くのフィードバック、つまり画像内の局所抽出とコンテキスト予測の一貫性を意味すると思われるかもしれません。コンテキスト予測とのこれらの調整から、より豊富なフィードバックを引き出すことができます。それを実現するのは難しいですが、今はその線に沿って進んでいると思います。
Abbeel: SimCLR の取り組みについて、また、それがより一般的な学習とどう違うのかについてどう思いますか?最近の MAE (Masked Autoencoders) についてどう思いますか?それはあなたが今説明したこととどのように関係しますか?
ヒントン: 私が入手した関連証拠は、この目的関数が良好であることを示しています。
私は個人的にこの論文を書いたことはありませんが、ずっと前に、画像の 2 つの異なるパッチから一貫した表現を取得することについて考えることについてスー ベッカーと論文を書きました。これが、同じ画像の 2 つのパッチ表現を一致させることで自己教師あり学習を行うというアイデアの起源だったと思います。
Abbeel: エンドツーエンド学習をサポートするためにエンドツーエンド学習バックプロパゲーションを使用するというあなたが言及した方法について話しましょう。あなたが言いたいのは、脳に近い方法で学習すること、つまりより少ないデータから学習し、より多くのデータを抽出することが、脳の仕組みの理解が進む鍵となるということです。現在、人的労力が少なくて済むため、ラベルのないデータから効率的に学習するという問題の解決に多くの人が取り組んでいますが、バックプロパゲーションと同じメカニズムが依然として使用されています。
ヒントン: MAE の気に入らない点は、入力パッチがあり、複数の表現層を通過し、再構築しようとすることです。ネットワーク入力パッチの出力に何が欠けているか。
脳にはこれらのレベルの表現があると思いますが、各層はその下のレベルにあるものを再構築しようとしています。たくさんの層を通過して戻ってくるわけではありませんが、非常に多くの層があり、それぞれの層が次の層から何かを再作成しようとしています。これは私にとっては頭脳のように見えますが、問題は、バックプロパゲーションを使用せずにこれを実行できるかということです。
明らかに、複数の層を通じて出力の欠落部分を再構築する場合、情報を取得するためにすべての層を通過する必要があり、バックプロパゲーションはすでにすべてのシミュレータに組み込まれていますが、脳はこのようにはなっていません。
Abbeel: これらのローカル目標を処理するときに、脳には 3 つの選択肢があると想像してください。まず、最適化したいローカル目標は何ですか?次に、最適化にどのようなアルゴリズムが使用されていますか?第三に、学習のためにニューロンを接続するアーキテクチャは何でしょうか? 3 つの問題すべてに関して、私たちはまだあまり良い仕事をしていないようです。どう思いますか?
ヒントン: 認知学習に興味があるなら、それは非常に明白です。
視覚的なトピック マップ、つまりアーキテクチャ的にローカルに接続された記述されたトピック マップの階層が必要です。このため、反電子マップ上の特定の位置にある何かが、対応する視神経マップによって決定されると仮定することで、多くの単位割り当て問題を解決できます。システムを詳しく調べるのではなく、ローカル インタラクションを使用して、システム内でピクセルが何をしているかを把握します。
現時点では、ニューラル ネットワークの動作は、すべての場所で同じ関数が使用されることを前提としています。これは畳み込みニューラル ネットワークにも当てはまり、トランスフォーマーにも同じことが当てはまります。重みを共有し、どこでもまったく同じ計算を行う必要があるため、脳は必ずしもこれを行うことができません。重みを共有するという目標を達成する方法があり、それが畳み込みです。これは脳内でより効果的な役割を果たすことができると思います。
コンテキスト予測によるローカル抽出に同意したい場合は、ローカル予測を実行する多数の列があり、コンテキスト予測を取得するために近くの列を調べることを想像してください。コンテキストをローカル予測の教師と考えることも、その逆も同様です。コンテキスト内の情報は、ローカルの抽出プログラムに抽出されると考えてください。ここから生まれるのは相互抽出であり、両方が他方に教育信号を提供しています。これは、ある場所で何を抽出すべきかについての知識が他の場所に転送されていることを意味します。
同意に達しようとするとき、または異なる場所にあるものに同意してもらいたいとき、たとえば、鼻と口が同じ顔の一部であることを同意してもらいたい場合、それらはすべて同じ表現を生成する必要があります。異なる場所で同じ表現を取得しようとする場合、ある場所から別の場所へ知識を洗練できるようにする必要があり、これには実際の重み共有よりも大きな利点があります。
明らかに、生物学的な観点から見ると、詳細なアーキテクチャが異なる場所で同じである必要がないことが利点の 1 つであり、もう 1 つの利点は、フロントエンドの処理が必要ないことです。同じであること。
網膜を例に挙げます。網膜の異なる部分には異なるサイズの知覚フィールドがあります。畳み込みネットワークは、複数の異なる解像度を無視し、各解像度で畳み込みを実行します。しかし、それらはできません。さまざまなフロントエンド処理を実行します。また、ある位置から別の位置に抽出する場合、光学アレイの異なる位置で同じ関数の表現を取得する必要があるため、このとき、光学アレイの異なる位置で異なる前処理を使用できます。フロントエンドの処理が異なっていても、機能全体を表すナレッジを抽出できます。
つまり、抽出は実際の表示重みよりも効率的ではありませんが、より柔軟で神経学的に信頼性が高くなります。これは私が 1 年前に述べた重要な点でもあり、効率を向上させるには重み共有などの工夫が必要ですが、隣接するものを一致させようとする場合は、ローカル抽出が機能します。
アブビール: 脳の働きは異なるため、体重の分担については別の方法で考え続けるべきでしょうか、それとも体重の分担を続けるべきではないでしょうか?
ヒントン: 畳み込みネットワークで畳み込みを実行し、変換器で重みを共有し、重みを共有することで知識を共有する必要があると思います。 脳は、重みを共有することではなく、入力から出力までの機能を共有し、抽出を使用して知識を伝達することによって知識を共有することを忘れないでください。
Abbeel: 今、別の話題が議論されています。脳は現在のニューラル ネットワークとは大きく異なるということが広く議論されており、ニューロンはスパイク信号で動作し、GPU の人工ニューロンとは大きく異なります。この問題についてのあなたの考えが知りたいのですが、これは単なるエンジニアリングの違いでしょうか、それとももっと理解するにはもっと多くの知識が必要なのでしょうか?
ヒントン: これは単なるエンジニアリングの違いではありません。このハードウェアがなぜそれほど優れているのかを理解すると、このハードウェアが脳の位置情報タグが付けられた部分である網膜に敏感であることが理解できます。たとえば、網膜はスパイク ニューロンを使用せず、処理のために多数の非スパイク ニューロンを備えています。大脳皮質が機能する理由を理解すると、これが生物学的に正しいことであることがわかります。それは学習アルゴリズムがスパイキング ニューロン ネットワークの勾配をどのように取得するかに依存すると思いますが、現時点では誰も実際には知りません。
ニューロンのスパイクの問題に関しては、多くの場合、2 つのまったく異なる決定があります。いつスパイクするか、スパイクするかどうかです。 これは個別の意思決定です。システムを最適化するために、さまざまな代替機能が考案されています。
2000 年に、アンディ ブラウンと私は、スパイクされたボルツマン マシンを学習しようとする論文を発表しました。スパイクされたコードに適した学習アルゴリズムがあれば素晴らしいでしょう。私はこれだと思います。これがスパイキング ニューロン ハードウェアの開発を妨げる主な理由です。
多くの人は、この方法でよりエネルギー効率の高いハードウェアを作成できることに気づき、巨大なシステムも構築されましたが、本当に欠けているのは、素晴らしい学習成果です。したがって、優れた学習アルゴリズムが得られるまでは、スパイク ニューロンを実際に使用することはできないだろうと私は考えています。
それでは、標準的な人工ニューロンを取り上げるときは、「入力の 2 つの値が同じかどうかを見分けることができるでしょうか?」と尋ねてください。できません。しかし、スパイク ニューロンを使用すると、2 つのスパイクが同時に到着し、発火時に音が鳴るが、異なる時間に到着すると鳴らないというシステムを簡単にセットアップできます。したがって、ピーク時間を使用することは、一貫性を測定する良い方法であると思われます。
生物システムと同じように、方向や音が見えるのは、両耳に届く信号の遅れによって起こります。片足を例にとると、光はは約 1 ナノ秒、最初の音は約 1 ミリ秒です。しかし、物体を数インチあなたの側に移動した場合、2 つの耳までの時間遅延の差は、2 つの耳までの経路長はわずか 1 インチのほんの数分の一です。つまり、信号の時間遅延の差は、両耳はわずか1ミリ秒です。したがって、サウンドをステレオにするためには 30 ミリ秒に敏感です。これは、2つの軸索とスパイクが異なる方向に向かうことで行われ、1つは一方の耳から、もう1つはもう一方の耳から来ます。スパイクが同時に到着すると、信号を送信する細胞が存在します。
ラッシュアワーは非常にデリケートな作業に使用される可能性があるため、その正確なタイミングが使用されない場合は驚くべきことになります。自己教師あり学習などでスパイクタイムを利用して整合性を検出できれば、つまり口と鼻の情報を抽出して口から顔全体を予測して、鼻、いつ 口と鼻が顔を正しく形成している場合、これらの予測は一貫しています。スパイク時間を使用して、これらの予測が一貫しているかどうかを確認できればよいのですが、ニューロンなどのネットワークをトレーニングするための優れたアルゴリズムが分からず、持っていないため、実行するのは困難です。
アッビール: 網膜はすべてのスパイク ニューロンを使用するわけではない、と今言いましたか?脳には 2 種類のニューロンがあり、人工ニューロンに近いものとスパイク ニューロンがあります。
ヒントン: 網膜が人工ニューロンに似ているかどうかはわかりませんが、新皮質にはスパイク ニューロンがあり、これが主要なコミュニケーション モードであり、1 つのパラメーターから他のパラメーターにスパイクを送信します。別のパラメータセル。
私には良い議論があります: 脳には多くのパラメーターがあり、私たちが使用する典型的なニューラル ネットワークと比較するとデータはそれほど多くありません。この状態では、次のことが可能です。強力な正則化が使用されない限り、過学習します。 優れた正則化手法は、ニューラル ネットワークを使用するたびに、多数のユニットを無視するため、おそらくニューロンがスパイクを送信しているという事実も無視することです。それらが実際に伝えているのは、基礎となるポアソン率です。それは推移的であると仮定します。このプロセスにはコストがかかり、パルスがランダムに送信され、ニューロンに入力された情報によって決定されるプロセス中にレートが変化します。必要に応じて、ある尿から別の尿へレートの真の値を送信するとよいでしょう。多くの正則化を行うには、真の値のレートにノイズを追加できます。ノイズを増やす 1 つの方法は、多くのノイズを追加するパルスを使用することです。ほとんどの場合、これが終了の動機になります。
ほとんどのニューロンが何にも関与していない時間枠を見ると、スパイクを基礎となる個々のレートの代表と考えることができます。うるさいので本当に不快です。しかし、一度正則化を理解すると、それは非常に良いアイデアになります。
つまり、私は今でもこのアイデアのファンですが、実際にはスパイク タイミングをまったく使用していません。これは、優れた正則化機能として非常にノイズの多い個別レート表現を使用しているだけで、私はこの 2 つを切り替えているところです。何年かの間、私はニューラルネットワークは決定論的であると考えていました。数年後には決定論的なニューラル ネットワークが完成するはずです。 5年周期だと思います。最良のランダム性も非常に重要であり、それによってすべてが変わります。したがって、ボルツマン マシンは本質的に確率的であり、これはボルツマン マシンにとって重要です。ただし、どちらかのシナリオに完全にコミットするのではなく、両方のシナリオにオープンであることが重要です。
ここで、先ほど述べたスパイキング ニューロンの重要性についてさらに考え、スパイキング ニューロンのネットワークを効果的にトレーニングする方法を見つけることが重要です。
Abbeel: ここで、トレーニング部分については心配しないでください (より効率的に見えることを考慮して) と言ったら、人々は純粋な推論チップを配布したくなるのではないでしょうか。それぞれ効率的な事前トレーニングを実行し、それをスパイク ニューロン チップ上にコンパイルして、非常に低電力の推論機能を提供しますか?
ヒントン: これは多くの人が考えたもので、非常に賢明であり、将来的には推論にニューラル ネットワークを使用することが有効になるかもしれません。誰もがそれを行っており、より効率的であることも証明されており、さまざまな企業がこれらの大きなスパイク システムを製造しています。
これらのことを行うと、ピーク時に利用可能なエネルギーをより有効に活用する方法を学ぶ方法として、推論にますます興味を持つようになります。したがって、この低エネルギーのハードウェアではなく、ハードウェアをエミュレートするのではなく、補助デバイスを使用して学習するシステムがあることを想像できますが、それを低エネルギーのハードウェアに問題なく転送できます。
Abbeel: AlexNet とは何ですか?それはどのようにして生まれたのでしょうか?制限されたボルツマンマシンの研究から脳の仕組みを理解しようとするまでの道のりはどのようなものでしたか?
ヒントン: あなたは、より伝統的なニューラル ネットワークのアプローチが機能することを突然証明したかもしれません。
2005 年頃、私は、電圧制限されたマシンを多数使用して特徴検出器を事前トレーニングできるというアイデアに魅了されました。そうすれば、Backdrop を簡単に動作させることができます。結果は、十分なデータがありました。その後、フェイス アリと彼女の画像認識チームには十分なデータがあったため、事前トレーニングは必要なくなりましたが、事前トレーニングは再び行われようとしていました。
GPT-3 には事前トレーニングがあります。事前トレーニングも良いアイデアですが、事前トレーニングができることがわかったら、これによりバックグラウンドの動作が向上し、役立つようになります。ジョージ・ジョンとアブドゥル・ラーマン・ムハンマドが2009年にやったように、スピーチで多くのことを行った。その後、私のグループの大学院生である Alex が同じアイデアを視覚に適用し始め、ImageNet データがあれば事前トレーニングが必要ないことがすぐにわかりました。
ある日、イリヤが研究室に来て、「ほら、音声認識ができるようになったので、これは本当にうまくいきました。誰よりも早く ImageNet を作らなければなりません。」ジャネラも研究室に入ってきたのを覚えています。がこのアイデアを表明すると、学生やポスドクは「うわー、でも他のことで忙しいんだ。」と言ったそうです。実際、彼にはこれに取り組んでもらう方法がありませんでした。その後、彼はデータを前処理して実験を完了するようアレックスを説得し、データは彼が必要とするものに前処理されました。
#これは単なる背景です。このことは多くの研究者が知っていると思いますが、ImageNet 画像認識コンテストにおける Alex の結果が Ilya の以前の研究と比較してエラー率が半分であったことは、おそらく誰もが知っているわけではありません。だからこそ、誰もが手作業で設計した手法からコンピューター ビジョンに移行し、ダイレクト プログラミングを試みているのです。
Abbeel: あなたのキャリアに大きな変化をもたらした瞬間は何ですか?学術界から Google への移行はあなたにどのような影響を与えましたか?なぜこのような変化が起こったのでしょうか?
ヒントン: 私には障害のある息子がいて、育てる必要があるので、たくさんのお金が必要です。教えるのも一つの方法です。 2012 年に、私はニューラル ネットワークに関するコースを教えました。しかし、彼らのソフトウェアはあまり良くないので、非常に面倒です。週に 1 章ずつ、説明ビデオを提供する必要があるのですが、それを見たい人がたくさんいるでしょう。ヨシュア・ベンジオは、次の日の授業後に時々尋ねました:「なぜ(授業中に)そんなことを言ったのですか?」大学がそれを教授たちと共有してくれることを願っています。具体的にどのように配布するのかはまだ指定されていませんが、人々はおそらく 50% かそれに近いものだと考えていますが、私はそれについて何の問題もありません。しかし、私が教え始めた後、学長は私や他の誰にも相談せずに一方的な決定を下しました。資金がコースプラットフォームから提供された場合、大学がすべてのお金を受け取り、教授は何も得られません。学校にビデオの準備を手伝ってくれるように頼んだところ、ビデオを作成した人たちが来て、「ビデオを作るのにどれくらいの費用がかかるか知っていますか?」と尋ねてきました。
このことで私は学校で本当に腹が立ったので、教授以外の他のキャリアの選択肢を考え始めました。当時、私たちは突然さまざまな企業の関心を呼び起こし、多額の助成金を付与したり、スタートアップに資金を提供したりして私たちを採用したいと考えてきました。研究で余分なお金を稼ぐつもりはなかったので、通常なら「ノー」と言うでしょうが、学校にお金を騙し取られた経験から、お金を稼ぐ別の方法を見つけたいと思うようになりました。
アブビール: 当時のオークションはどんな感じでしたか?
ヒントン: それは NIPS カンファレンスでのことで、テリーはカジノでいくつかの小さなアクティビティを企画しました。ホテルの地下にある煙そうな部屋で、上の階ではギャンブルに興じる人々がいて、まるで映画が撮影されているような気分だった。私たちは自分たちの価値がどれくらいなのか全く分かりません。弁護士に相談したところ、プロの交渉人を雇うか、競売にかけるしかないと言われました。
私の知る限り、このような小規模グループがオークションを実施するのは初めてです。私たちは Gmail 経由でオークションを運営しており、入札者はメールのタイムスタンプを添えて私にメールを送信する必要があります。価格は上がり続け、最初は 50 万ドル、次に 100 万ドルになりました。これは興奮したもので、私たちが思っていたよりもはるかに価値があることがわかりました。
振り返ってみると、おそらくもっと多くのものが得られたはずですが、天文学的だと思われる量が得られました。私たちは二人とも Google で働きたかったので、オークションを中止して Google に入社することにしました。
Abbeel: 聞いたところによると、あなたは現在も Google に在籍されていますね。
ヒントン: 私は今も Google で働いており、9 年になります。私が Google を好きな主な理由は、コアチームが本当に優れているからです。
私はジェフ・ディーンととても仲が良く、彼はとても賢く、私はとても率直です。彼は私がまさにやりたいと思っていたこと、つまり基礎研究をやってほしいと思っていました。彼は、私がやるべきことは全く新しいアルゴリズムを考え出すことだと考え、それが私がやりたいことだったので、それがぴったりでした。私は、音声認識を 1% 改善するために大規模なチームを管理するのが苦手です。しかし、できればこの分野に再び革命を起こしたいと思っています。
アブビール: あなたはトロント大学のコンピューター サイエンスの教授でしたが、コンピューター サイエンスの学位は取得しておらず、心理学の学位を取得し、大工として働いていました。心理学を学び、大工になり、人工知能の分野に入るまではどのように進んだのでしょうか?
ヒントン: ケンブリッジでの最後の年はとても大変でした。私は試験後に学校を中退し、何よりも大好きだった大工になりました。高校の授業を全部受けて、夜も家にいて大工仕事ができるようになったので、大工になって半年ほど働きました。
しかし、私は大工として生計を立てることはできません。私は大工や装飾家として働き、改修しながらお金を稼ぎましたが、大工仕事は本当に楽しかったです。本物の大工さんに出会って初めて、自分が木工に関してはまったくダメだと気づきました。彼は手鋸を使って木片を完全に正方形に切ることができます。彼に比べて私はあまりにも絶望的だったので、人工知能に戻ることを決意しました。
アブビール: 私の知る限り、あなたの博士号はエディンバラ大学で取得されました。
ヒントン: はい、私はニューラル ネットワークの博士号取得のためにそこに行き、有名なクリストファー ロンガ ヒギンズ教授と一緒に研究をしました。彼は本当に優秀でした。彼は30代の時に水素化ホウ素の構造の研究でノーベル賞を受賞するところだった。彼はニューラル ネットワークとそのホログラムとの関係に非常に興味を持っていました。私がエディンバラに到着した日ごろ、彼はニューラル ネットワークへの興味を失い、ウィノグラードの論文を読んでニューラル ネットワークは間違った考え方だと考えた後、完全に考えを変えました。彼は私のやっていることに完全に反対していましたが、私がそれをするのを止めませんでした。
アッビール: 1970 年代初頭、ミンスキーとパパートが提案したニューラル ネットワークはナンセンスだと他の人が言っていたのに、なぜこんなことをしたのですか?
ヒントン: 実際、私がそのグループに行った最初の講演は、ニューラル ネットワークで真の再帰を行う方法についてでした。これは今から49年前の1973年の演説だ。私が見つけたプロジェクトの 1 つは、形状を描画できるニューラル ネットワークが必要で、形状をさまざまな部分に分割する場合、形状の一部を同じニューラル ハードウェアで描画し、形状全体を描画することができるというものでした。神経中枢による 描画するには、神経中枢が形状全体を保存し、形状全体における位置、および形状全体の方向と位置を記憶する必要があります。
しかし、今は考えが変わりました。同じニューロンを使用して図形の一部を描画したいときは、その図形全体が何なのか、そして自分がどこにいるのかをどこかで覚えておく必要があります。どこまで進んだんだろう。このサブルーチンが完了したら、その場所に戻ることができます。この部分の形状の問題は、ニューラル ネットワークがそれをどのように記憶するかということです。当然、ニューロンをコピーするだけではだめです。そこで、私は、ニューラル ネットワークに高速で記憶させることで、常にシステムを動作させ、適応させることができました。重さと重さ。そこで、1973 年の高度な呼び出しと同じニューロンと重みを再利用して再帰呼び出しを行う、真の再帰を実行するニューラル ネットワークを用意しました。
私はプレゼンテーションが苦手なので、人々は私のプレゼンテーションを理解できないと思いますが、なぜコンテストで再帰を行うのかと尋ねられます。彼らが理解していないのは、ニューラル ネットワークに再帰などの処理を行わせない限り、多くのことは決して説明できないということです。そして、これがまた興味深い問題になるので、私はそれまでもう 1 年待つつもりです。このアイデアが本物のアンティークになります。 50歳になったら研究報告書を書きます。
アッビール: あなたが他の人と同じように博士課程の学生であるか、博士号を卒業したばかりのとき、ほとんどの人はあなたがしている仕事は時間の無駄だと言います。しかし、あなたはそうではないと固く信じています。あなたの信念はどこから来ていますか?
ヒントン: その大きな部分は私の学校教育によるものだと思います。父は私を科学教育が充実した学費の高い私立学校に通わせ、7歳からそこに通いました。そこはキリスト教の学校で、他の子供たちは皆神を信じていましたが、私は家でそれはすべてでたらめであると教えられ、私の意見ではその通りだったので、他の人がみんな間違っていることに慣れていました。
これは重要だと思います。 科学を信じ、たとえ他の人がナンセンスだと言うとしても、明らかに真実であることを積極的に研究する必要があります。 そして実際、誰もがそう考えているわけではありません。 1970 年代初頭、AI に取り組んでいるほぼ全員が (私がやっていることは) ナンセンスだと考えていました。しかし、もう少し遡ってみると、1950 年代には、フォン ノイマンとチューリングの両方がニューラル ネットワークを信じており、チューリングは特にニューラル ネットワークの強化トレーニングを信じていました。もし彼らが若くして亡くなっていなかったら、人工知能の歴史全体は大きく変わっていたかもしれないと私は今でも信じています。なぜなら、彼らはこの分野全体を支配するほど強力な知的な人々であり、脳がどのように機能するかにも非常に興味を持っていたからです。
5Abbeel: 今日の深層学習は非常に効果的です。必要なのはそれだけですか、それとも他に何か必要ですか?あなたはかつて、(引用していないかもしれませんが)ディープラーニングは何でもできると言いました。
ヒントン: これが本当に言いたいのは、ランダムな勾配を持つ多くのパラメーターを送信することで、深層学習が勾配を取得する方法がうまくいかない可能性があるということです。伝播と得られる勾配は、最終的なパフォーマンスの尺度ではなく、局所的な目的関数である可能性があります。それが脳の仕組みだと思いますし、それですべてが説明できると思います。
もう 1 つ言いたいのは、現在私たちが所有しているコンピューターは、口座にいくら入っているかを記憶できるため、銀行業務に非常に役立つということです。銀行に行って聞いても、おおよその金額しか教えてくれません。そこまで厳密にはできず、大まかなことしか言えないため、明確な答えは出せません。私たちは、コンピューターが銀行業務を行ったり、スペースシャトルを飛行させたりするときにそのようなことが起こることを望んでいません。コンピューターが正確に正しい答えを得ることが本当に望ましいのです。人々は、コンピューティングがどのように進化するか、そして私たちのコンピュータや知識が不滅になるという決定を私たちが下したことを十分に理解していないと思います。既存のコンピューターには、コンピューター プログラム、または多くの重みを備えたニューラル ネットワーク (別の種類のプログラム) が組み込まれています。ただし、ハードウェアが壊れた場合でも、別のハードウェアで同じプログラムを実行できます。これにより知識が不滅になります。生き残るために特定のハードウェアに依存することはありません。不死性の代償は莫大です。なぜなら、ハードウェアの異なるビットがまったく同じことを実行しなければならないことを意味するからです。これは、明らかにすべてのエラー修正が完了した後のゼロ点修正です。それらはまったく同じことを実行する必要があります。つまり、できればデジタルか基本的にデジタルで、数値を掛け合わせるなどのことを行いますが、操作を非常に目立たないようにするために非常に多くのエネルギーがかかり、これはハードウェアの対象ではありません。プログラムやニューラル ネットワークを不滅にしようとすると、非常に高価な計算プロセスと製造プロセスに取り組むことになります。
もし私たちが不死を喜んで放棄するなら、私たちが得られる報酬は、非常に低エネルギーのコンピューティングと非常に安価な製造です。つまり、私たちがやるべきことはコンピューターを作ることではなく、コンピューターを進化させることなのです。 例として、鉢植えの植物を鉢から引き抜くと、鉢の形とまったく同じ根の塊が得られるため、さまざまな鉢植えの植物はすべて同じ形になります。根と根系の詳細はすべて異なりますが、それらはすべて同じことを行い、土壌から栄養素を抽出し、その機能は同じです。
そして、これが本当の脳の姿であり、私が不滅ではないコンピューターと呼んでいるものです。これらのコンピューターは作られたものではなく、育てられたものです。プログラムすることはできません。学習する必要があり、ある程度の学習アルゴリズムが組み込まれている必要があります。アナログは、電圧を取得し、それに抵抗を掛け、それを電荷に変換し、それらの電荷を加算するなどの処理に優れているため、ほとんどの計算を行うためにアナログが使用されます。これはチップがすでに実行していることです。問題は、次に何をするか、これらのチップでどのように学習するかです。現在、バックプロパゲーションやさまざまなバージョンのボクシング マシンが提案されています。他に何か必要だと思いますが、 近い将来、安価に製造でき、すべての知識を学習する必要があり、必要なエネルギーが非常に少ない不滅ではないコンピューターが登場すると思います。 これらの不滅ではないコンピューターが死ぬと、その知識も一緒に消えます。これらの重みはハードウェアにのみ適用されるため、重みを調べても意味がありません。したがって、あなたがしなければならないことは、この知識を他のコンピュータに抽出することです。 Abbeel: 今日の見出しを独占しているニューラル ネットワークは非常に大規模です。ある意味、大規模な言語モデルのスケールは脳のスケールに近づき始めており、これは非常に印象的です。これらのモデルについてどう思いますか?そこにはどのような限界があると思いますか?一方、たとえばアリの脳は明らかに人間よりもはるかに小さいですが、公平を期すために言うと、人工的に開発された私たちの視覚運動システムはまだアリやミツバチのレベルに達していません。では、言語モデルにおける最近の大きな進歩についてどう思いますか? ヒント: ミツバチの脳は小さいように思えるかもしれませんが、ミツバチには約 100 万個のニューロンがあり、ミツバチは GPT-3 に近いと思います。しかし、ミツバチの脳は実際には大規模な神経ネットワークです。 私の言いたいことは、大きなパラメータを持つシステムがあり、それらのパラメータが何らかの合理的な目的関数で勾配降下法を使用して調整されている場合、次のような優れたパフォーマンスが得られるということです。 GPT-3 と、私が何度も言及した Google の同様のモデル。それは、彼らが私たちと同じことができるかどうかという問題には対処していません。私たちはニューラルネットワークで行う再帰のようなことをもっと行っていると思います。 私は、GLOM に関する昨年の論文、つまりニューラル ネットワークで部分的なホール階層を作成する方法について、これらの問題について詳しく説明しようとしました。構造が必要です。部分構造と全体構造があることをシンボリック計算で意味するのであれば、私たちが行うのはシンボリック計算です。これは一般に、一般にハード シンボリック コンピューティングと呼ばれるものではなく、シンボルを使用しており、シンボルに適用するルールは、扱っているシンボルの文字列の形式にのみ依存することを意味します。それは他のシンボルと同じか異なり、おそらく何かへのポインタとして使用できる可能性があります。 論文アドレス: https://arxiv.org/pdf/2102.12627.pdf ##ニューラル ネットワークはそれとは大きく異なるため、難しい記号処理を行っているわけではないと思いますが、ホール階層を行っていることは間違いありません。しかし、私たちはそれを巨大なニューラルネットワークで行っており、GPT-3が実際に何を言っているのかをどの程度理解しているのかは今のところよくわかりません。これは非常に明白だと思います。以前のチャットボット プログラム Eliza とは異なり、何を言っているのかまったく分からずに記号の文字列を並べ替えるだけでした。これを信じる理由は、例えば「赤い帽子をかぶったハムスターの絵をください」と英語で言うと、赤い帽子をかぶったハムスターの絵を描いてくれるのですが、これが一致したことがないからです。したがって、絵を与える前に、英語の文字と絵の関係を理解する必要があります。これらのニューラル ネットワーク懐疑論者、ニューラル ネットワーク否定者に「理解していることをどうやって証明しますか?」と尋ねれば、彼らはそれを受け入れると思います。絵を描くように頼んで、その絵を描いてくれれば、それは理解します。 Abbeel: Google の PaLM モデルは最近、ジョークの仕組みを効果的に説明できることを実証しました。これは言語を非常に深く理解しているようです。 ヒント : いいえ、トレーニング中の単語を並べ替えているだけです。私は、ジョークの内容が理解できないのに、どうやってそのようなジョークの解釈を生成できるだろうかという考えには同意しません。フレームワークはバックプロパゲーションであり、理解に向けてそれは私たちのものとはまったく違います。敵対的な画像が、オブジェクトがそのテクスチャによって識別できることを示していることは明らかであり、それが他のオブジェクト インスタンスにも一般化されるという意味ではおそらく正しいでしょう。 しかし、これは私たちのアプローチとはまったく異なるアプローチであり、私は昆虫や花を例として使用するのが好きです。昆虫は紫外線を見ることができます。私たちには同じように見える 2 つの花も、昆虫にとってはまったく異なって見えることがあります。さて、私たちには花が同じに見えるので、昆虫が間違っていると言えるでしょうか?これらの花は昆虫とともに進化し、紫外線が昆虫にそれがどの花であるかを知らせます。明らかに昆虫のほうが正しいのですが、私たちはその違いに気づいていないだけです。これは、敵対的な例についての別の考え方です。そこで問題は、昆虫の場合、誰が正しいのかということです。私たちには 2 つの花が同じに見えるからといって、実際に同じであるとは限りません。その場合、2 つの花は大きく異なるという昆虫の判断が正しい可能性があります。 Abbeel: 現在の画像認識用のニューラル ネットワークに関しては、私たちがネットワークを作成し、それに何かをしてもらいたいのであれば、実際にはそうしたくないのではないかと考える人もいるかもしれません。 「彼らは正しかったが、私たちは間違っていた」とただ認めることです。つまり、車と歩行者を認識する必要があるのです。 ヒントン: はい。誰が正しくて誰が間違っているかは、思っているほど単純ではないということだけをお伝えしたいと思います。 GLOM に関する私の論文の焦点の 1 つは、より人間に近い知覚システムを構築しようとすることです。そのため、彼らは珍しい間違いではなく、私たちと同じ間違いを犯す可能性が高くなります。 たとえば、自動運転車があり、通常の人間のドライバーが犯すような間違いを犯したとしても、本当に愚かな間違いを犯すよりも、そのほうが許容されるようです。 Abbeel: 私の知る限り、睡眠はあなたが考えていることでもあります。それについてもっと詳しく話してもらえますか? ヒント: 人々の睡眠を奪うと、人々は非常に奇妙になります。例えば、誰かを 3 日間ハイ状態に保つと、幻覚が見え始めます。 。それが1週間続くと、彼らは気が狂い、回復することはありません。 問題は、なぜですか?睡眠の計算機能とは何ですか?睡眠を奪うと完全に気が狂ってしまう場合は、おそらく考えるべき非常に重要な何かがあるでしょう。現在の理論では、睡眠は記憶を強化する、または記憶を海馬から大脳皮質にダウンロードするために使われているということですが、これはキャンパス内で法廷に立っているようなものなので少し奇妙です。昔、1980年代初頭、テレンス・セジノフスキーと私はボルツマンマシンと呼ばれる理論を持っていました。これはフランシス・クリックがホップフィールド・ネッツについて考えていたときの洞察に部分的に基づいていました。彼は睡眠に関する論文を発表し、彼の主張は次のとおりでした。それは、ネットワークにランダムなものを与えて、ランダムなものに落ち着かないようにすることができるということでした。 つまり、ホップフィールド ネットでは、覚えておきたい何かを与えると、重みが変わります。したがって、このベクトルのエネルギーは低くなります。ランダムなベクトルを与えてエネルギーを高くすると効果が良くなるということでボルツマンマシンが生まれ、それを実現しているのです。ランダム以外の値を与えると、モデル自体のマルコフ連鎖によって生成された値が得られます。この可能性を減らしてデータのランダム性を高めることは、実際には最尤学習の一形態です。 これが睡眠のすべてだと私たちは考えています。睡眠は学習のネガティブな段階です。対照学習では、同じ画像からの 2 つのパッチについては同様に動作させようとし、異なる画像からの 2 つのパッチについては大きく異なる動作をさせようとします。一度異なったものを、さらに異なったものにするのではなく、類似しすぎないようにしなければなりません。これが対照学習の原理です。ボルツマン マシンでは、正の例と負の例を分離することはできません。肯定的な例と否定的な例を交差させなければ、すべてがうまくいきません。私はそれらを交差させないようにして、ポジティブな例をたくさんやってから、ネガティブな例をたくさんやろうとしましたが、それは難しいです。 対照学習では、正のフェーズと負のフェーズを分離できます。したがって、正のペアの例をたくさん実行してから、負のペアの例をたくさん実行できます。したがって、異なる時点でポジティブなフェーズとネガティブなフェーズを分離し、ポジティブな更新を大量に実行した後、ネガティブな更新を大量に実行できれば、比較学習がより合理的になります。標準的な対照学習でさえ、比較的上手に行うことができますが、かなりの勢いなどを使用する必要があります。したがって、sleep 関数は、忘れたり、夢を覚えていない理由となる否定的な例を実行する可能性が最も高いと思います。 高速ウェイトは一時的なストレージであるため、目覚めたときに高速ウェイトの内容を覚えています。しかし、目が覚めると、起きたときに見た夢の最後の瞬間しか覚えていないので、これは他のどの睡眠理論よりも信頼できると思います。この瞬間の記憶が削除されれば、その理由が説明され、システム全体が崩壊するでしょう。致命的な間違いを犯したり、幻覚を見始めたり、あらゆる種類の奇妙なことをするでしょう。 否定的な例の必要性についてもう少しお話ししましょう。ニューラル ネットワークがある場合、その表現に関して、またはコンテキスト予測とローカル予測の間の一貫性に関して、何らかの内部目的関数を最適化しようとします。この一貫性が実際のデータの特性であることが必要ですが、ニューラル ネットワーク内の問題は、入力であらゆる種類の相関関係が得られることです。私がニューロンであるとします。私の入力にはあらゆる種類の相関関係があります。これらの相関関係は実際のデータとは何の関係もありません。ネットワークの配線とネットワーク内の状態によってもたらされます。両方のニューロンが同じピクセルを見ている場合、それらは関連していることになります。しかし、これではデータについては何もわかりません。したがって、問題は、ネットワーク接続ではなく、実際のデータに関する構造を抽出する方法を学ぶ方法です。これを行う方法は、肯定的な例を入力し、否定的な例ではなく肯定的な例の構造を見つけることです。なぜなら、否定的な例はまったく同じ行を通過するからです。 構造が負の例には存在しないが、正の例には存在する場合、構造は負の例と正の例の違いに関するものであり、それをどのように接続するかではありません。したがって、人々はこれについてあまり考えませんが、強力な学習アルゴリズムがある場合は、ニューラル ネットワーク自体の重みと接続を学習させない方がよいでしょう。 アブビール: 「生徒モデルが教師モデルに勝つ」という概念についても言及しました。それはどういう意味ですか? ヒント: MNIST は標準的なデジタル データベースです。トレーニング データを間違ったラベルに置き換えることで、20% 正しいラベルを持つデータ セットを取得できます。率と 80% のエラー率。問題は、このデータセットから学べるかどうかです。学習の効果は何ですか?答えは、95% の精度で学習できるということです。 教師モデルの誤り率が 80%、生徒モデルの正解率が 95% であるため、生徒の方が教師よりもはるかに優れていると仮定します。これらのトレーニング サンプルを一度にバンドルしているため、類似した画像が含まれているさまざまなトレーニング サンプルの誤差を平均することはできません。破損したケースがある場合、どれだけのトレーニング ケースが必要になるかというと、画像データセットが小さいため興味深いです。間違ってラベル付けされた 100 万枚の画像と、正しくラベル付けされた 10,000 枚の画像のどちらを使用しますか?私には、重要なのはラベル間の相互情報量と精度であるという仮説があります。 ラベルが正しく破損している場合、90% の確率でラベルと精度の間に相互情報は存在しません。80% の確率でラベルが破損している場合は、少量の相互情報しか存在しません。 最近、あなたが実際のシミュレーションを行う作業を行っていることに気付きました。ニューラル ネットワークを使用して実際のデータに不完全性のラベルを付け、生徒はこれらのラベルから学習します。そして、生徒はより良く学習できるようになります。先生よりも。人々は混乱しています。どうして生徒が教師より優れているのでしょうか?しかし、ニューラル ネットワークでは、これを簡単に実現できます。教師が信頼できなくても、十分な訓練データがあれば、生徒の方が教師よりも優れています。私は数年前にメロディー Y. グアンとともにこれに関する論文を書き、いくつかの医療データを使用しました。この論文の最初の部分ではこれについて説明しており、私たちの経験則では、割り当てられたラベル間の相互情報と精度が重要であるということです。 文書のアドレス: https://www.cs.toronto.edu/~hinton/absps/WhoSaidWhat.pdf Abbeel: 先ほどおっしゃった私たちの研究や、最近の非常に人気のある研究に関しては、通常、教師はノイズを含むラベルを提供しますが、すべてのノイズ ラベルが使用されるわけではありません。もっと自信のある教師に目を向けるだけだという議論もある。 ヒント: これは良いアプローチです。信じる理由があるものだけに注目するのが役立つかもしれません。 MNIST では、メロディーは、ラベルの 20% が正しい限り、生徒は 95% 正解するというグラフを描きました。しかし、それが約 15% に低下すると、突然段階が変わります。この時点でできることは、運を試すことだけです。なぜなら、生徒はいずれにしても必ずそれを理解するからです。教師がこれらのラベルを言うと、生徒はどの例が正しく、どの例が間違っているかをある程度知る必要があります。学生がラベルと入力の関係を理解すると、誤ったラベルの誤った性質が明らかになります。したがって、誤ってランダムに有効になっても問題ありませんが、生徒が理解できる程度に適切なものにする必要があるフェーズ移行が存在します。これは、学生が私たちよりも賢い理由も説明します。 Abbeel: ニューラル ネットワークを学習するとき、特にモデルを構築するときは、それが何なのか、何を学習しているのかを理解する必要があります。通常、人々は学習プロセス中に何が起こっているかを視覚化しようとしますが、あなたは最も人気のある視覚化手法の 1 つを発明しました。t-SNE(t-Distribution Stochastic Neighbor Embedding) )、その背後にある物語は何ですか? 論文アドレス: http://www.cs.toronto.edu/~hinton/absps/tsne.pdf ヒント: 高次元データがあり、2 次元または 3 次元のマップを描画しようとすると、最初の 2 つの主成分の場合は、最初の 2 つの主成分のみを描画します。ただし、主成分は、長い距離を正確に取得することに関係します。したがって、2 つのものが大きく異なる場合、主成分は、それらが 2 次元で大きく異なることを非常に心配します。大きな差異の二乗を演算するため、小さな差異はまったく考慮されず、高次元の類似性はあまり保持されません。しかし、私たちが興味があるのはその逆であることがよくあります。取得されたデータについて、私たちが興味があるのは、何とよく似ているかであり、距離が小さければ、大きな距離が多少間違っていても気にしません。距離は正しいです。私はずっと前にこのアイデアを思いつきました。距離をペアごとの確率に変換したらどうなるでしょうか? t-SNE にはさまざまなバージョンがありますが、これを確率のペアにすると、距離が小さいペアは確率が高く、距離が長いペアは確率が低くなります。 。距離を確率に変換します。短い距離は大きな確率に対応し、データ ポイントの周囲にガウス分布を配置します。次に、このガウス分布に基づく他のデータ ポイントの密度を計算します。これは非標準化確率です。その後、正規化します。それは一つの変革です。これらの点は、これらの確率を維持するために 2 次元に配置されます。したがって、2 つの点が遠く離れていても関係ありません。それらのペアごとの確率は非常に低く、2 つの点の相対位置は考慮されません。これにより、確率的近傍埋め込みと呼ばれる非常に美しいマップが生成されます。私たちは、ガウス分布を入力し、そのガウス分布の密度に基づいて近傍をランダムに選択することを考えました。これには非常に単純な導関数があります。 私たちが取得するマップは、さまざまなものが密集する傾向があります。これは、高次元データを低次元データに変換する際の基本的な問題です。これは高次元空間と低次元空間の性質によってもたらされます。高次元空間では、1 つのデータ ポイントが他の多くのポイントに近くなる可能性がありますが、低次元空間では、これらのポイントは互いに近づきすぎません。それらがすべてこのデータ ポイントに近い場合、それらは互いに近いはずです。したがって、高次元から低次元への埋め込みには問題が発生します。 t-SNEに取り組んでいたときに、確率を「中間通貨」として利用したハイブリッドモデルを作ることを思いつきました。 私たちはそのアイデアをうまく実装しましたが、決してうまくいきませんでした。私は、人々がこのアイデアを活用してくれなかったことに残念に思い、ガウス分布と一様分布を組み合わせたより単純なバージョンを作成しました。その方がより効果的でした。 アイデアは次のとおりです: 1 つのマップでは、すべてのペアの可能性が等しいため、長距離にわたる背景の確率、つまり小さな背景の確率が得られます。別のマップでは、あなたの貢献の確率は、あなたの貢献の確率に比例します。このマップでは二乗距離ですが、これは、均等化するにはある程度の確率が必要であるという事実により、このマップでは、望むならそれらを非常に遠くに離すことができることを意味します。実際、このバージョンは混合ガウス分布を使用する特殊なケースであり、均一で非常に広いガウス分布です。ガウス関数の階層全体を使用するとどうなるでしょうか?多くのガウス関数は t 分布と呼ばれる異なる幅を持ち、これが t-SNE をもたらします。 t-SNE は、物事に関するマルチスケールの情報を提供できるという優れた特性を持っており、距離が離れると、全体構造と微細構造の両方で、さまざまなレベルの構造を取得できます。 これらすべての研究で使用されている目的関数 は、私とアルベルト パシネロによる以前の研究から導出された相対密度のガウス関数です。当時、このアイデアを発表するのは困難でした。また、カンファレンスで拒否されたことについて、「ヒントンはこのアイデアに 7 年間取り組んできましたが、誰も興味を持ちません。」というコメントを受け取りました。これらのコメントが実際に私に伝えているのは、私が非常に革新的なことをやっているということだと思います。これには、対照的な手法を使用する NCE と呼ばれる機能が含まれており、t-SNE は実際にはこの機能のバージョンです。しかし、t-SNE はマップを作成するためのもので、ハイブリッド バージョンを作成しようとしましたが、最初はうまくいきませんでしたが、最終的に偶然に、それが私が使いたかった t 分布になりました。
6 大規模言語モデルは言語をどの程度理解しているのでしょうか
7 ボルツマン マシン、知識蒸留、t-SNE 次元削減アルゴリズム
以上がジェフリー・ヒントンへの最新インタビュー: 5 年以内に、私たちは脳の仕組みを解明できるだろうが、バックプロパゲーションによるものではないの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。