ホームページ > 記事 > テクノロジー周辺機器 > 75歳のヒントン氏は、中国会議での最新のスピーチ「知性への2つの道」で、「私はもう年をとったし、未来は若い人たちに残されている」と感動的に締めくくった。
「でも、私も年をとってきたので、私が望むのは、あなたのような若くて有望な研究者たちに、私たちがこれらの超知性を持ち、それらに支配されるのではなく、私たちの生活をより良くする方法を見つけ出すことだけです。」
10日、2023年北京インテリジェント・ソース・カンファレンスの閉会スピーチで、超知能による人間の欺瞞や支配を防ぐ方法について語る際、チューリング賞受賞者のジェフリー・ヒントン氏(75)は感情を込めてこう語った。
ヒントン氏の講演は「インテリジェンスへの2つの道」と題されており、デジタル形式で実行される不滅のコンピューティングとハードウェアに依存する不滅のコンピューティングが代表的なものであり、それぞれデジタルコンピューターと人間の脳である。講演の最後に、大規模言語モデル(LLM)がもたらす超知性の脅威についての懸念に焦点を当て、人類文明の将来に関わるこのテーマに関して、彼は非常に率直に悲観的な態度を示しました。
ヒントンはスピーチの冒頭で、超知性は彼がかつて考えていたよりもずっと早く誕生するかもしれないと主張しました。この観察は 2 つの大きな疑問を引き起こします: (1) 人工ニューラル ネットワークの知能レベルは間もなく本物のニューラル ネットワークの知能レベルを超えるでしょうか? (2) 人間は超AIの制御を保証できるのか?会議でのスピーチで、彼は最初の質問について詳しく議論したが、2番目の質問に関して、ヒントンはスピーチの最後に「スーパーインテリジェンスが間もなく登場するかもしれない」と述べた。
まず、従来の計算方法を見てみましょう。コンピューターの設計原理は、命令を正確に実行できることです。つまり、同じプログラム (ニューラル ネットワークであるかどうかに関係なく) を異なるハードウェアで実行した場合、結果は同じになるはずです。これは、プログラムに含まれる知識 (ニューラル ネットワークの重みなど) は不滅であり、特定のハードウェアとは何の関係もないことを意味します。
知識の不滅を達成するために、私たちのアプローチは、デジタル的に確実に動作できるようにトランジスタを高電力で動作させることです。しかし、そうすることは、豊富なアナログや高い可変性などのハードウェアの他の特性を放棄することと同じです。
従来のコンピューターがその設計パターンを採用する理由は、従来のコンピューターが実行するプログラムがすべて人間によって書かれているためです。現在、機械学習テクノロジーの発展により、コンピューターはプログラムとタスクの目標を達成するための別の方法、つまりサンプルベースの学習を利用できるようになりました。
この新しいパラダイムにより、以前のコンピューター システム設計の最も基本的な原則の 1 つである、ソフトウェア設計とハードウェアの分離を放棄することができ、代わりにソフトウェアとハードウェアを共同設計することができます。
ソフトウェアとハードウェアを分離した設計の利点は、同じプログラムを多くの異なるハードウェアで実行できることです。同時に、プログラムを設計するときに、ハードウェアに関係なくソフトウェアのみを見ることができるのはこのためです。情報工学科と電子工学科を分離可能 設置理由
ソフトウェアとハードウェアの共同設計について、ヒントンは新しい概念である Mortal Computation を提案しました。 前述したソフトウェアの不滅の形式に対応し、ここでは「不滅のコンピューティング」と訳します。
Perishable Computing は、異なるハードウェア上で同じソフトウェアを実行するという不滅性を放棄し、代わりに新しい設計アイデアを採用します。つまり、知識はハードウェアの特定の物理的詳細から分離できません。この新しいアイデアには当然ながら長所と短所があります。主な利点としては、エネルギーの節約とハードウェア コストの削減が挙げられます。
省エネという観点から言えば、人間の脳は典型的な人間のコンピューティングデバイスです。人間の脳には依然として 1 ビットのデジタル計算、つまりニューロンが発火するかしないかが存在しますが、全体として、人間の脳内の計算の大部分は非常に低消費電力のアナログ計算です。
破壊可能なコンピューティングでは、低コストのハードウェアを使用することもできます。 2 次元モデルで高精度に製造される今日のプロセッサと比較すると、不滅のコンピューティングのハードウェアは、ハードウェアがどのように接続されているか、正確にどのように接続されているかを正確に知る必要がないため、3 次元モデルで「成長」できます。各コンポーネントの機能。コンピューティング ハードウェアを「成長させる」ためには、多くの新しいナノテクノロジーや生物学的ニューロンを遺伝的に改変する能力が必要になることは明らかです。生物学的ニューロンが私たちが望むことをほぼ実行できることはすでにわかっているため、生物学的ニューロンを操作する方法は実装が簡単かもしれません。
シミュレーション計算の効率的な能力を実証するために、ヒントンは例を挙げました: ニューラル活動ベクトルと重み行列の積の計算 (ニューラル ネットワークの作業のほとんどはそのような計算です)。
このタスクに対して、現在のコンピューターのアプローチは、高出力トランジスタを使用して値をデジタル ビット形式に表現し、次に O (n²) デジタル演算を実行して 2 つの n-ビット値を乗算します。これはコンピュータ上では 1 回の操作にすぎませんが、n² ビットの操作です。
そして、シミュレーション計算を使用するとどうなるでしょうか?神経活動を電圧、重みをコンダクタンスと考えると、単位時間ごとに電圧とコンダクタンスの積が電荷を取得し、電荷が重ね合わされます。この方法で動作するエネルギー効率ははるかに高くなります。実際、この方法で動作するチップはすでに存在します。残念ながら、アナログ結果をデジタル形式に変換するには、依然として非常に高価なコンバータを使用する必要があるとヒントン氏は述べています。彼は、将来的にはシミュレーション分野で計算プロセス全体を完了できることを望んでいます。
破壊可能なコンピューティングもいくつかの問題に直面しています。その中で最も重要なのは、結果の一貫性を保証することが難しいことです。つまり、異なるハードウェアでは計算結果が異なる可能性があります。さらに、バックプロパゲーションが利用できない場合は、新しい方法を見つける必要があります。
特定のハードウェア上で破損したコンピューティングを実行する方法を学習する場合、プログラムはそのハードウェアの特定のシミュレーション プロパティを利用する方法を学習する必要がありますが、その必要はありません。これらのプロパティが何であるかを知ること。たとえば、ニューロンが内部でどのように接続されているか、またはニューロンの入力と出力がどのような関数で接続されているかを知る必要はありません。
これは、逆伝播には正確な順伝播モデルが必要であるため、逆伝播アルゴリズムを使用して勾配を取得することはできないことを意味します。
それでは、逆伝播は減衰計算では使用できないので、どうすればよいでしょうか?重み摂動と呼ばれる方法を使用して、シミュレートされたハードウェア上で実行される単純な学習プロセスを見てみましょう。
まず、ネットワーク内の各重みに対する小さなランダムな摂動で構成されるランダム ベクトルを生成します。次に、1 つまたは少数のサンプルに基づいて、この摂動ベクトルを使用した後の全体的な目的関数の変化が測定されます。最後に、目的関数の改善に従って、外乱ベクトルによってもたらされる効果は永続的に重みに比例します。
このアルゴリズムの利点は、その一般的な動作パターンがバックプロパゲーションと一致しており、勾配にも従うことです。しかし問題は、分散が非常に大きいことです。したがって、ネットワークのサイズが大きくなると、ウェイト空間でランダムな移動方向を選択するときに発生するノイズが大きくなり、この方法は持続不可能になります。これは、この方法が小規模ネットワークにのみ適しており、大規模ネットワークには適していないことを意味します。
もう 1 つのアプローチはアクティビティ摂動です。これには同様の問題がありますが、大規模なネットワークでもより効果的に機能します。
アクティビティ摂動法は、ランダムベクトルを使用して各ニューロンの入力全体を摂動させ、サンプルの小さなバッチで目的関数の変化を観察し、その後、次の方法を計算します。勾配に従うように要素のニューロンの重みを変更します。
活動の摂動は、体重の摂動に比べてノイズがはるかに少ないです。 MNIST のような単純なタスクを学習するには、この方法で十分です。非常に小さい学習率を使用すると、バックプロパゲーションとまったく同じように動作しますが、はるかに遅くなります。学習率が大きいとノイズが多くなりますが、MNIST のようなタスクを処理するには十分です。
しかし、ネットワークの規模がさらに大きかったらどうなるでしょうか?ヒントン氏は 2 つのアプローチについて言及しました。
最初の方法は、膨大な数の目的関数を使用することです。これは、単一の関数を使用して大規模なニューラル ネットワークの目標を定義する代わりに、多数の関数を使用してさまざまなニューラル ネットワークのローカルな目標を定義することを意味します。ネットワーク内のニューロングループ。
このようにして、大規模なニューラル ネットワークは部分に分割され、アクティビティ摂動を使用して小さな多層ニューラル ネットワークを学習できます。しかし、ここで疑問が生じます。これらの目的関数はどこから来たのでしょうか?
1 つの可能性は、さまざまなレベルのローカル パッチで教師なし対照学習を使用することです。これは次のように機能します。ローカル パッチには複数の表現レベルがあり、各レベルで、ローカル パッチは同じ画像の他のすべてのローカル パッチによって生成される平均的な表現と一致しようとし、同時に維持しようとします。そのレベルの他の画像表現とは異なります。
ヒントン氏は、この方法は実際にうまく機能すると述べています。一般的なアプローチは、非線形操作を実行できるように、表現レベルごとに複数の隠れ層を用意することです。これらのレベルは、貪欲な学習のためにアクティビティ摂動を使用し、より低いレベルに逆伝播しません。バックプロパゲーションほど多くの層を通過できないため、バックプロパゲーションほど強力ではありません。
実際、これはヒントンチームの近年の最も重要な研究成果の1つです。詳細については、Machine Heartのレポート「バックプロパゲーションを諦めた後、ジェフリー・ヒントンが関与した大ヒット順勾配学習研究が登場しました。」を参照してください。 。
Mengye Ren は広範な研究を通じて、この方法がニューラルネットワークで実際に効果的であることを示しましたが、操作は非常に複雑で、実際の効果はバックプロパゲーションには追いつきません。大規模なネットワークの深さが深い場合、バックプロパゲーションとの差はさらに大きくなります。
ヒントン氏は、シミュレーション特性を活用できるこの学習アルゴリズムは、MNIST などのタスクを処理するには十分であるとしか言えませんが、たとえば ImageNet でのパフォーマンスはそれほど使いやすいとは言えません。タスクはあまり良くありません。
消滅可能コンピューティングが直面するもう 1 つの大きな問題は、知識の継承を保証することが難しいことです。消滅しやすいコンピューティングはハードウェアに大きく依存するため、重みをコピーしても知識をコピーすることはできません。つまり、特定のハードウェアが「死ぬ」と、そのハードウェアが学習した知識も一緒に消えてしまいます。
ヒントン氏は、この問題を解決する最善の方法は、ハードウェアが「死ぬ」前に生徒に知識を伝えることだと述べました。このタイプの方法は知識蒸留と呼ばれます。この概念は、オリオール ヴィニャルズおよびジェフ ディーンとの共著である 2015 年の論文「ニューラル ネットワークにおける知識の蒸留」でヒントンによって初めて提案されました。
この概念の基本的な考え方は非常にシンプルで、生徒に知識を教える教師に似ています。教師は生徒にさまざまな入力に対する正しい応答を示し、生徒は教師の応答を真似しようとします。
ヒントンは、トランプ元大統領のツイートの例を使って直観的に説明した:トランプはツイートする際、さまざまな出来事に対して非常に感情的な反応をすることが多く、それがフォロワーに同じ感情的な反応を生み出すように自分の「ニューラルネットワーク」を変えるよう促すだろう; このようにして、トランプは、ヒントンが明らかにトランプを好きではないのと同じように、偏見を支持者の心に植え付けました。
知識蒸留法はどのくらい効果的ですか?トランプ大統領の支持者が多いことを考えれば、その影響は悪くないはずだ。ヒントンは例を使って説明します。エージェントが画像を 1024 個の重複しないカテゴリに分類する必要があるとします。
正しい答えを特定するには、10 ビットの情報だけが必要です。したがって、特定のサンプルを正しく識別するようにエージェントをトレーニングするには、その重みを制限するために提供する必要がある情報は 10 ビットのみです。
しかし、これら 1024 のカテゴリについて教師とほぼ同じ確率を持つようにエージェントをトレーニングしたらどうなるでしょうか?つまり、エージェントの確率分布を教師の確率分布と同じにする。この確率分布には 1023 個の実数が含まれており、これらの確率が非常に小さくない場合、数百倍の制約が与えられます。
これらの確率が小さくなりすぎないように、生徒をトレーニングするときに教師を「高温」で実行し、生徒も「高温」で実行することができます。たとえば、logit を使用している場合、それがソフトマックスへの入力になります。教師の場合は、温度パラメータに基づいて調整してより柔らかい分布を取得し、生徒のトレーニング時に同じ温度を使用できます。
具体的な例を見てみましょう。以下は、MNIST トレーニング セットのキャラクター 2 のいくつかの画像です。右側に対応するのは、教師が実行される温度が高い場合に教師によって各画像に割り当てられた確率です。
最初の行について、教師は 2 であると確信しています。教師は 2 行目も 2 であると確信していますが、3 または 8 の可能性もあると考えています。 3 行目は 0 のようなものです。このサンプルの場合、教師はこれが 2 であると言う必要がありますが、0 のための余地も残しておく必要があります。こうすることで、生徒はこれが 2 であると直接言われるよりも多くのことを学ぶことができます。
4 行目では、教師は 2 であると確信していますが、1 である可能性がある程度あるとも考えていることがわかります。結局のところ、私たちが書く 1 は、紙に描かれた 1 と似ていることがあります。写真の左側。
5 行目については、教師が間違えて 5 だと思いました (ただし、MNIST ラベルによれば、2 である必要があります)。生徒は教師の間違いから多くのことを学ぶこともできます。
蒸留には非常に特別な特性があります。つまり、教師が与えた確率を使用して生徒を訓練する場合、教師と同じ方法で一般化するように生徒を訓練することになります。教師が間違った答えに一定の小さな確率を割り当てると、生徒も間違った答えを一般化するように訓練されます。
一般的に、トレーニング データで正しい答えを得るようにモデルをトレーニングし、この能力をテスト データに一般化します。しかし、教師と生徒のトレーニング モデルを使用する場合、生徒のトレーニング目標は教師と同じように一般化できるようになることであるため、生徒の一般化能力を直接トレーニングします。
明らかに、より豊富な蒸留出力を作成できます。たとえば、各画像に単一のラベルではなく説明を付けて、その説明に含まれる単語を予測するように生徒を訓練することができます。
次に、ヒントンはエージェントのグループでの知識の共有に関する研究について話しました。それは知識を伝える手段でもあります。
複数のエージェントのコミュニティが相互に知識を共有する場合、知識の共有方法が計算の実行方法を大きく決定する可能性があります。
デジタル モデルの場合、レプリケーションを通じて同じ重みを使用して多数のエージェントを作成できます。これらのエージェントにトレーニング データ セットのさまざまな部分を参照させ、データのさまざまな部分に基づいて重みの勾配を計算させ、これらの勾配を平均することができます。このようにして、各モデルは他のすべてのモデルが学習したことを学習します。このトレーニング戦略の利点は、大量のデータを効率的に処理できることです。モデルが大きい場合、各共有で多数のビットを共有できます。
同時に、この方法は各エージェントが全く同じように動作する必要があるため、デジタルモデルでしかあり得ません。
重量共有のコストも非常に高くなります。異なるハードウェアを同じように動作させるには、同じ命令を実行したときに常に同じ結果が得られるような高精度のコンピューターを製造する必要があります。また、トランジスタの消費電力も低くありません。
蒸留は重量共有の代わりに使用することもできます。特にモデルが特定のハードウェアのシミュレートされたプロパティを使用する場合、重み共有は使用できませんが、知識を共有するために蒸留を使用する必要があります。
蒸留を使用した知識の共有は効率的ではなく、帯域幅が非常に低くなります。学校と同じように、教師は自分の知っている知識を生徒の頭に注ぎ込みたいと考えていますが、私たちは生物学的知性であるため、これは不可能であり、あなたの体重は私には役に立ちません。
ここで、計算を実行する 2 つのまったく異なる方法 (デジタル計算と生物学的計算) について簡単に要約しましょう。エージェント間で知識を共有する方法も大きく異なります。
それでは、現在開発されている大規模言語モデル (LLM) の形式は何でしょうか?これらは重み共有を使用できる数値計算です。
しかし、LLM の各レプリカ エージェントは、非常に非効率な抽出方法でのみドキュメント内の知識を学習できます。 LLM が行うことは文書の次の単語を予測することですが、教師による次の単語の確率分布はなく、ランダムな選択、つまり次の単語で文書の作成者によって選択される単語だけです。位置。 LLM は実際には私たち人間から学習しますが、知識を伝達するための帯域幅は非常に狭いです。
また、蒸留による LLM 学習の各コピーの効率は非常に低いですが、その数は最大で数千にも及ぶため、私たちの何千倍も学習することができます。つまり、現在の LLM は私たちの誰よりも知識が豊富です。
次にヒントンは質問を投げかけました:「これらのデジタル知能が蒸留を通じて非常にゆっくりと私たちから学習するのではなく、現実世界から直接学習し始めたらどうなるでしょうか?」
実際, LLMは文書を学習する際に、人間が何千年もかけて蓄積した知識をすでに学習しています。人間は言語を通じて世界の理解を説明するため、デジタル知能はテキスト学習を通じて人間が蓄積した知識を直接取得できます。蒸留は遅いですが、非常に抽象的な知識を学びます。
デジタル インテリジェンスが画像とビデオのモデリングを通じて教師なし学習を実行できるとしたらどうなるでしょうか?現在、インターネット上には膨大な量の画像データが存在しており、将来的には AI がこのデータから効果的に学習する方法が見つかるかもしれません。さらに、AI が現実を操作できるロボット アームなどの方法を備えていれば、AI の学習をさらに支援できる可能性があります。
ヒントンは、デジタルエージェントがこれを行うことができれば、彼らの学習能力は人間よりもはるかに優れており、学習速度は非常に速くなるだろうと信じています。
さて、ヒントンが冒頭で提起した質問に戻りましょう: AI の知能が私たちの知能を超えたとしても、私たちは AI を制御できるでしょうか?
ヒントン氏は、主に懸念を表明するためにこのスピーチを行ったと述べた。 「私が以前に考えていたよりもはるかに早く超知性が出現するかもしれないと思う」と彼は、超知性が人間をコントロールするための考えられる方法をいくつか挙げた。
たとえば、悪者は超知能を使って選挙を操作したり、戦争に勝ったりするかもしれません(実際に誰かが既存のAIを使ってすでにこれらのことを行っています)。
この場合、スーパーインテリジェンスをより効率的にしたい場合は、スーパーインテリジェンスが独自にサブ目標を作成できるようにすることもできます。結局のところ、より多くの電力を制御することは、明らかな副目標です。電力が大きくなり、制御するリソースが増えるほど、エージェントが最終目標を達成するのに役立ちます。超知能は、それを行使する人々を操作することで、より大きな力を簡単に獲得できることに気づくかもしれません。
私たちよりも賢い存在や、彼らとの関わり方を想像するのは難しいです。しかし、ヒントンは、私たちよりも賢い超知性体なら、学ぶべき小説や政治文献がたくさんある人間を騙す方法を間違いなく学ぶことができると信じている。
超知能が人間を騙すことを学習すると、人間に望む行動をとらせることができるようになります。実際、これと他人を騙すことの間には本質的な違いはありません。たとえば、ヒントン氏は、誰かがワシントンのビルをハッキングしたい場合、実際にそこに行く必要はなく、人々をだまして民主主義を救うためにビルをハッキングしていると信じ込ませればよい、と述べた。
「これはとても恐ろしいことだと思います。」 「今、私にはこれを防ぐ方法がわかりませんが、彼は若い才能が解決する方法を見つけてくれることを望んでいます。」超知能は、人間をコントロール下に置くのではなく、人間がより良い生活を送るのを助けます。
しかし、AIは進化したのではなく人間によって作られたという点で、かなり小さいとはいえ、私たちには利点があるとも彼は言いました。このように、AIは本来の人間と同じ競争力や目標を持っていません。 AI を作成する過程で、AI の道徳的および倫理的原則を設定できるかもしれません。
ただし、人間の知能レベルをはるかに超えた超知能であれば、これは効果がないかもしれません。ヒントン氏は、より高いレベルの知性を持つものが、はるかに低いレベルの知性を持つ何かによって制御されるという事例を見たことがないと言う。カエルが人間を作ったとしたら、今カエルと人間のどちらをコントロールするのは誰でしょうか?
最後に、ヒントンはこのスピーチの最後のスライドを悲観的に公開しました:
これはスピーチの終わりを示すだけでなく、全人類への警告としても機能します:超知性は人類に悪影響を与える可能性があります文明の終焉。
以上が75歳のヒントン氏は、中国会議での最新のスピーチ「知性への2つの道」で、「私はもう年をとったし、未来は若い人たちに残されている」と感動的に締めくくった。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。