AIxivコラムは、本サイト上で学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。提出電子メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com
この記事の著者は、天津大学インテリジェンス・コンピューティング学部の Zhang Peng 教授、修士課程の学生 Zhao Jiaming、博士です。学生のQiao WenboとGao Jue。この研究活動は、中国国家自然科学財団と天津大学・中国科学技術ウェンゲ共同実験室から資金提供を受けました。
- 論文タイトル: Quantum Implicit Neural Representations
- 論文著者: Jiaming Zhao、Wenbo Qiao、Peng Zhang*、Hui Gao
- 論文リンク: https://arxiv.org/ab s /2406.03873
天津大学の量子知能・言語理解チームは、量子コンピューティングを陰的神経表現の分野に革新的に導入し、量子暗黙的表現ネットワーク( Q uantum I暗黙的な Reプレゼンテーション Nネットワーク、QIREN)。古典的なニューラル ネットワーク手法と比較して、この手法は理論的には指数関数的に強力な信号表現能力を備えています。実験結果では、QIREN が信号表現タスクにおいて実際に SOTA モデルを超える優れたパフォーマンスを示し、フィッティング誤差が最大 35% 減少することも確認されています。図 1 は、この論文の中核となる考え方と主な結論を示しています。 関連論文が、機械学習の分野で最も権威のあるカンファレンスの 1 つである ICML 2024 に採択されました。図 1. 古典的なフーリエ ニューラル ネットワークと量子フーリエ ニューラル ネットワーク。 近年、暗黙的ニューラル表現は、新しい信号表現方法として広く注目を集めています。暗黙的ニューラル表現には、ピクセルのグリッドで表現される画像などの従来の離散グリッド表現に比べて、多くの独自の利点があります。まず、「無限解像度」の機能があり、任意の空間解像度でサンプリングできます。第 2 に、暗黙的ニューラル表現はストレージ領域の節約に優れており、データの保存に便利です。これらの独自の利点により、暗黙的ニューラル表現は、画像、オブジェクト、3D シーンなどの信号を表現するための主流のパラダイムになりました。暗黙的ニューラル表現に関する初期の研究のほとんどは、ReLU ベースの多層パーセプトロン (MLP) に基づいて構築されました。ただし、図 2 に示すように、ReLU ベースの MLP では信号の高周波部分を正確にモデル化することが困難です。最近の研究では、この制限を克服するためにフーリエ ニューラル ネットワーク (FNN) の使用を検討し始めています。しかし、現実世界のアプリケーションではフィッティング タスクがますます複雑になる中、古典的なフーリエ ニューラル ネットワークでもより多くのトレーニング パラメーターが必要となり、コンピューティング リソースの需要が増加します。この記事で提案する量子暗黙的ニューラル表現は、量子の利点を利用してパラメータと計算消費量を削減し、暗黙的ニューラル表現、さらには機械学習の分野に新たなインスピレーションをもたらす可能性があります。 図 2. 実際の画像 (上) のさまざまな周波数成分とフィッティングされた画像のさまざまな周波数成分by ReLU ベースの MLP (下)
️図 3. モデル アーキテクチャ
QIREN の全体的なアーキテクチャを図 3 に示します。N 個の混合層と最後にある線形層で構成されます。モデルは座標を入力として受け取り、信号値を出力します。データはまず、線形層と BatchNorm 層から始まるハイブリッド層に入り、結果: となり、データ再アップロード量子回路 QC に供給されます。図 2 (b) と (c) では、パラメータ層とコーディング層の量子回路の具体的な実装を示します。パラメータ レイヤーは、K 個の積み重ねられたブロックで構成されます。各ブロックには、各量子ビットに適用されるスピン ゲートと、ラウンドロビン方式で接続された CNOT ゲートが含まれています。コーディング層は各量子ビットにゲートを適用します。最後に、オブザーバブルに対する量子状態の期待値を測定します。量子回路の出力は次の式で与えられます: ここで、O は任意のオブザーバブルを表します。 n 番目のブレンディング レイヤの出力は、(n+1) 番目のレイヤの入力として使用されます。最後に、受信および出力する線形レイヤーを追加します。モデルをトレーニングするための損失関数として平均二乗誤差 (MSE) を使用します。 いくつかの以前の研究では、データ再アップロード量子回路の数学的特性は、本質的に、目的関数を次の形式に適合させることであることが明らかにされています。フーリエ級数の。しかし、以前の研究では、多層単一量子ビット回路または単層多量子ビット回路のみを調査しており、古典的な方法と比較しておらず、データを再アップロードする量子回路の利点も見つかりませんでした。私たちは研究を多層多量子ビット回路に拡張します。さらに、陰的ニューラル表現の分野では、データ再アップロード量子回路をコアコンポーネントとして使用するハイブリッド量子ニューラルネットワーク QIREN が、古典的な手法に比べて指数関数的な利点があることを証明しました。 QIREN における量子層と古典層の役割を分析し、次の 3 点にまとめました。 1. 最適な条件下では、量子回路のフーリエ級数を表現するデータの再アップロード能力は、回路のサイズは指数関数的に増大します。 具体的な導出については、論文のセクション 4.2 と 4.3 を参照してください。 2. 線形層の機能は、スペクトルをさらに拡大し、周波数を調整することで、フィッティング性能を向上させることです。 データを量子回路にアップロードする前に線形層を適用することは、符号化層のハミルトニアンの固有値を調整することと同等であり、最終的にスペクトルに影響を与えます。このアプローチには 2 つの利点があります。まず、スペクトルを大きくすることができます。ゲートのみを使用してエンコードする場合、スペクトル内にいくつかの冗長な項が生成されます。この冗長性は、線形層を使用することで削減できます。第 2 に、より重要なより大きな係数を持つ周波数をカバーすることを目的として、スペクトルのカバー範囲を調整できるようになります。したがって、リニアレイヤーを追加することで、QIREN のフィッティング性能をさらに向上させることができます。 3. Batchnorm 層の役割は、量子モデルの収束を加速することです。 フィードフォワード ニューラル ネットワークでは、データは通常、活性化関数の前に BatchNorm 層を通過します。これにより、勾配消失問題が効果的に防止されます。同様に、QIREN では、量子回路が活性化関数を置き換え、非線形性を提供する役割を果たします (量子回路自体は線形ですが、古典データを量子回路にアップロードするプロセスは非線形です)。したがって、モデルの収束を安定させ、加速することを目的として、ここに BatchNorm レイヤーを追加しました。 画像表現と音声表現のタスクを通じて、信号、特に高周波信号の表現においてQIRENの優れた性能を検証しました。実験結果を表 1 に示します。 QIREN と SIREN は、音声表現タスクにおいて同様のパフォーマンスを示しました。 2 つのモデルのパフォーマンスは同等であるように見えますが、私たちのモデルは最小限のパラメーターで 35.1% のメモリ節約を達成しており、SIREN の収束には適切なハイパーパラメーターの設定が必要であるのに対し、私たちのモデルにはこの制限がないことを強調する価値があります。次に、周波数の観点からモデル出力を分析しました。図 4 にモデル出力のスペクトルを視覚化します。モデルによって出力された低周波分布が実際の状況に近いことは明らかです。ただし、高周波分布に関しては、QIREN と SIREN の両方がよく適合し、次にランダム フーリエ特徴 (RFF) を備えた ReLU ベースの MLP が続きます。 ReLU ベースおよび Tanh ベースの MLP には、信号の高周波部分さえ欠けています。
表 1. 信号表現および画像超解像度タスクに関するモデルの MSE()。 SOTA とみなされるモデルには * のマークが付いています。 params はモデル パラメーターの量を表し、mem は離散グリッド表現と比較してモデルによって節約されるメモリを表します。図 4. タスクにおけるモデル出力のスペクトルを示すサウンド。SOTA モデルと比較して、Qiren は最高のパフォーマンスを達成しました。最大の削減率は 34.8% でした。モデルの信号表現機能をさらに調べるために、フィルターを使用して出力の高周波成分と低周波成分を分離し、これら 2 つの成分のフィッティング誤差をそれぞれ比較します。結果が図 5 に示されています。 QIREN は、高周波コンポーネントと低周波コンポーネントをフィッティングする際に、常に最小の誤差を達成します。 図 5. Tanh ベースの MLP と比較した各モデルの有効誤差。影付きの領域は低周波エラーを表し、影なしの領域は高周波エラーを表します。 最新の研究では、暗黙的なニューラル表現を画像生成に拡張する画期的なフレームワークが導入されました。より具体的には、このフレームワークは、ランダム分布を入力として受け取るハイパーネットワークを利用して、ネットワークを暗黙的に特徴付けるパラメータを生成します。その後、これらの生成されたパラメータが暗黙的表現ネットワークに割り当てられます。最後に、暗黙的表現ネットワークは、座標を入力として取得して画像を生成します。生成された画像が望ましい結果と一致することを保証するために、敵対的なアプローチが採用されています。このタスクでは、このようなフレームワークを採用し、StyleGAN2 上に構築します。 実験結果を表2に示します。また、図 6 と 7 に示すように、QIREN ジェネレーターのいくつかの興味深い機能についてもさらに詳しく調べます。 F 表 2. FFHQ および CELEBA-HQ データセットにおけるモデルの FID スコア。
要約この作業は、量子の利点を暗黙の神経表現に統合するだけでなく、量子の有望なアプリケーションの方向を開きますニューラル ネットワーク - 暗黙的なニューラル表現。暗黙的ニューラル表現には、シーンや 3D オブジェクトの表現、時系列予測、微分方程式の解法など、他にも多くの潜在的な用途があることを強調する価値があります。連続信号をモデル化する大規模なタスクの場合、基本コンポーネントとして陰的表現ネットワークの導入を検討できます。この論文の理論的および実験的基礎に基づいて、今後の研究で QIREN をこれらのアプリケーションに拡張することができ、QIREN はこれらの分野でより少ないパラメーターでより良い結果を生み出すことが期待されます。同時に、量子機械学習に適した応用シナリオも発見しました。これにより、量子機械学習コミュニティ内での実用的で革新的な研究がさらに促進されます。 以上がICML 2024 | 信号表現が飛躍的に強化され、メモリ節約率が 35% を超え、量子暗黙的表現ネットワークが登場の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。