ホームページ >テクノロジー周辺機器 >AI >SGD の優秀性がもたらすディープラーニングの重要性
ビッグデータダイジェストを作成
7月、ニューヨーク大学(NYU)の博士研究員ナオミ・サフラ氏が「解釈可能性創造論」というタイトルの記事を執筆し、進化論の観点から説明した。確率的勾配降下法 (SGD) と深層学習の関係は考えさせられるものです。
例: 「人間の尾骨と同じように、一部の現象はモデルのトレーニング プロセス中に本来の役割を失い、変性した器官に似たものになる可能性があります。」
「寄生ヒヨコの挙動やニューラルネットワークの内部性能など、システムがどのように発展するかを考慮しなければ、何が貴重な情報であるかを区別することは困難になります。」
以下は原文をそのまま編集したものです。本来の意味で、お楽しみください。
何世紀も前のヨーロッパ人にとって、カッコウの卵が巣に存在することは、営巣する鳥にとって名誉なことでした。というのは、巣を作るこの鳥は、自分の(追放された)雛よりも熱心に「聖なる客人」に餌をやるからであり、これはキリスト教のもてなしの精神と一致する行動だからである。
1859年、チャールズ・ダーウィンは、時折寄生する別のフィンチを研究することによって、鳥の行動に関する楽観的で協力的な概念に疑問を投げかけました。
進化の観点からカッコウの役割を考慮しないと、営巣する鳥がカッコウの雛を寛大に所有するのではなく、不運な犠牲者であることを理解するのは困難です。 。
進化生物学者テオドシウス・ドブジャンスキーはこう言いました:「進化の輝きがなければ、生物学は何も理解できません。」
確率的勾配降下法は生物学的進化の真の形式ではありませんが、事後分析は機械学習における科学的手法は、多くの場合、モデルの動作の起源を理解する必要がある生物学における科学的手法と多くの類似点があります。
寄生ヒヨコの動作を研究している場合でも、ニューラル ネットワークの内部動作を研究している場合でも、システムがどのように発展するかを考慮せずに、何が貴重な情報であるかを識別することは困難です。
したがって、モデルを分析するときは、トレーニング終了時の状態だけでなく、トレーニング プロセス中の複数の中間チェックポイントにも注意を払うことが重要です。このような実験の費用は最小限ですが、モデルの動作をよりよく理解して説明するのに役立つ有意義な発見につながる可能性があります。
人間は因果的思考の持ち主であり、たとえ科学的根拠が欠けていたとしても、物事間の因果関係を探すことを好みます。
NLP の分野では、研究者は観察された動作について説明可能な因果関係の説明を提供する傾向がありますが、この説明ではモデルの内部動作が実際には明らかにならない可能性があります。たとえば、構文上の注意分布や選択ニューロンなどの解釈可能性のアーティファクトに細心の注意を払うかもしれませんが、実際には、モデルが実際にこれらの動作パターンを使用しているかどうかはわかりません。
この問題を解決するには、因果モデリングが役に立ちます。モデルの動作に対する影響をテストするためにモデルの特定の機能やパターンに介入 (変更または操作) しようとする場合、この介入は特定の明白な特定の種類の動作のみを対象とする可能性があります。言い換えれば、モデルが特定の機能やパターンをどのように使用するかを理解しようとする場合、これらの動作の一部しか観察できず、他の潜在的な、それほど明白ではない動作は無視される可能性があります。
したがって、実際には、表現内の特定のユニットに対して特定の種類の小規模な介入しか実行できず、特徴間の相互作用を正しく反映できない可能性があります。
モデルの動作に対する影響をテストするために、モデルの特定の機能やパターンに介入 (変更または操作) しようとすると、分布のシフトが導入される場合があります。大幅な分布の変化は不安定な動作を引き起こす可能性がありますが、なぜそれが偽の解釈可能性アーティファクトを引き起こさないのでしょうか?
訳者注: 分布シフトとは、トレーニング データ上のモデルによって確立された統計規則と介入後のデータとの間の差異を指します。この違いにより、モデルが新しいデータ分布に適応できなくなり、不安定な動作が示される可能性があります。
幸いなことに、生物進化を研究する方法は、モデルで生成される現象のいくつかを理解するのに役立ちます。人間の尾骨と同じように、いくつかの現象はモデルのトレーニングの過程で本来の役割を失い、退化した器官のようなものになっている可能性があります。一部の現象は相互に依存している可能性があります。たとえば、動物が複雑な目を発達させる前に基本的な光感知能力を必要とするのと同じように、訓練の初期に特定の特性が出現すると、その後の他の特性の発達に影響を与える可能性があります。
また、形質間の競合によると考えられる現象もいくつかあり、たとえば、嗅覚能力が強い動物は視覚への依存度が低いため、視覚能力が弱まる可能性があります。さらに、一部の現象は、ゲノム内のジャンク DNA と同様、トレーニング プロセスの単なる副作用である可能性があり、ゲノムの大部分を占めますが、私たちの外観や機能に直接影響を与えるものではありません。
モデルのトレーニングのプロセス中に、いくつかの未使用の現象が現れることがありますが、この現象を説明する理論は数多くあります。たとえば、情報ボトルネック仮説は、トレーニングの初期段階で入力情報が記憶され、その後モデル内で圧縮され、出力に関連する情報のみが保持されると予測します。これらの初期の記憶は、目に見えないデータを処理するときに必ずしも役立つとは限りませんが、最終的に特定の出力表現を学習するためには非常に重要です。
トレーニングされたモデルの初期の動作と後期の動作は大きく異なるため、機能が縮退している可能性も考慮できます。初期のモデルはもっとシンプルでした。言語モデルを例に挙げると、初期のモデルは単純な N-gram モデルに似ていますが、後のモデルはより複雑な言語パターンを表現できるようになります。トレーニング プロセスでのこの混合は、モデルのトレーニングの重要な部分であると誤解されやすい副作用を引き起こす可能性があります。
トレーニング後の特徴だけからモデルの学習傾向を理解することは非常に困難です。 Lovering らの研究によると、トレーニングの開始時に特徴抽出の容易さを観察し、微調整データを分析することは、トレーニングの最後に単に分析するよりも、微調整のパフォーマンスの理解にはるかに深い影響を与えます。
言語の階層化された動作は、分析静的モデルに基づいた典型的な説明です。文構造内で互いに近い単語はモデル内でより近くに表現され、構造的により離れた単語はより遠くに表現されることが示唆されています。では、モデルが文構造の近さによって単語をグループ化していることをどのようにして知ることができるのでしょうか?
実際、初期のモデルは長短期記憶ネットワーク (LSTM) と Transformer でより多くのローカル情報をエンコードしているため、一部の言語モデルは階層的であるとより自信を持って言えます。また、これらの依存関係がいつスタックされるかについても同様です。なじみのある短いコンポーネントを階層化することで、より遠くにある依存関係を簡単に学習できるようになります。
解釈上の創造論の問題を扱っているときに、実際の事例に遭遇しました。異なるランダム シードを使用してテキスト分類器を複数回トレーニングすると、モデルがいくつかの異なるクラスターに分散していることがわかります。また、モデルの一般化動作は、モデルが損失曲面上で他のモデルとどの程度よく接続されているかを観察することで予測できることもわかりました。つまり、損失が表面のどこに現れるかによって、モデルの汎化性能が異なる可能性があります。この現象は、トレーニング中に使用されるランダム シードに関連している可能性があります。
しかし、本当にそう言えるでしょうか?クラスターが実際にモデルの初期段階に対応している場合はどうなるでしょうか?クラスターが実際にはモデルの初期段階のみを表している場合、最終的にはそれらのモデルは汎化パフォーマンスがより優れたクラスターに移行する可能性があります。したがって、この場合、観察された現象は、一部の微調整プロセスが他のプロセスよりも遅いことを示しているだけです。
トレーニングされたモデルにおける汎化動作の多様性を説明するには、トレーニングの軌跡が損失曲面上の盆地に入る可能性があることを証明する必要があります。実際、トレーニング中にいくつかのチェックポイントを調べた結果、クラスターの中心にあるモデルは、トレーニング中にクラスター内の他のモデルとのより強い接続を確立することがわかりました。ただし、一部のモデルは引き続き、より優れたクラスターに正常に移行できます。
研究課題に答えるには、トレーニング プロセスを観察するだけでは十分ではありません。因果関係を探るには介入が必要です。生物学における抗生物質耐性の研究を例にとると、研究者は細菌を意図的に抗生物質にさらす必要があり、自然実験に頼ることはできません。したがって、トレーニングダイナミクスの観察に基づくステートメントには実験による確認が必要です。
すべてのステートメントでトレーニング プロセスの観察が必要なわけではありません。古代人類の目には、見るための目や血液を送り出す心臓など、多くの器官が明らかな機能を持っていました。自然言語処理 (NLP) の分野では、静的モデルを分析することで、特定の属性の存在下で特定のニューロンが発火する、またはモデル内で特定の種類の情報がまだ利用可能であるなど、単純な解釈を行うことができます。
ただし、トレーニング プロセスを観察することで、静的モデルで行われた多くの観察の意味を明らかにすることができます。これは、すべての問題でトレーニング プロセスの観察が必要なわけではありませんが、多くの場合、観察を理解するためにトレーニング プロセスを理解することが役立つことを意味します。
アドバイスはシンプルです。トレーニングされたモデルを調査および分析するときは、トレーニング プロセスの最終結果だけに注目しないでください。代わりに、トレーニング中に複数の中間チェックポイントに分析を適用する必要があります。モデルを微調整するときは、トレーニングの初期と後期にいくつかのポイントをチェックします。トレーニング中にモデルの動作の変化を観察することは重要です。これは、研究者がモデル戦略が合理的かどうかをより深く理解し、トレーニングの初期に何が起こったかを観察した後にモデル戦略を評価するのに役立ちます。
参考リンク:https://thegradient.pub/interpretability-creationism/
以上がSGD の優秀性がもたらすディープラーニングの重要性の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。