search
HomeTechnology peripheralsAIThe ultimate question of explainability is, what is the first explanation? 20 CCF-A+ICLR papers give you answers

The ultimate question of explainability is, what is the first explanation? 20 CCF-A+ICLR papers give you answers

Die AIxiv-Kolumne ist eine Kolumne, in der diese Website akademische und technische Inhalte veröffentlicht. In den letzten Jahren sind in der AIxiv-Kolumne dieser Website mehr als 2.000 Berichte eingegangen, die Spitzenlabore großer Universitäten und Unternehmen auf der ganzen Welt abdecken und so den akademischen Austausch und die Verbreitung wirksam fördern. Wenn Sie hervorragende Arbeiten haben, die Sie teilen möchten, können Sie gerne einen Beitrag leisten oder uns für die Berichterstattung kontaktieren. E-Mail-Adresse: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com


Les auteurs de cet article sont Zhang Junpeng, Ren Qihan et Zhang Quanshi. Parmi eux, Zhang Junpeng est un futur doctorant de Zhang Quanshi et Ren Qihan est un doctorant de Zhang Quanshi.

Cet article passe d'abord brièvement en revue le "Système théorique d'interprétabilité des interactions équivalentes" (20 articles CCF-A et ICLR), et sur cette base, déduit et prédit rigoureusement les performances des réseaux de neurones dans la dynamique changements de sa représentation conceptuelle et de sa généralisation au cours du processus de formation, c'est-à-dire que, dans une certaine mesure, nous pouvons expliquer la généralisation du réseau neuronal à tout moment au cours du processus de formation et ses causes profondes internes.

1. Introduction

Depuis longtemps, notre équipe réfléchit à une question ultime dans le domaine de l'interprétabilité, à savoir Quel est le premier principe dans le domaine de l'interprétabilité ? Les soi-disant premiers principes ne disposent pas actuellement d’un cadre largement accepté. Il n’existe aucun moyen au monde de définir progressivement un tel modèle. Nous devons mettre en avant un grand nombre d'exigences axiomatiques dans un nouveau système théorique et proposer une théorie capable d'expliquer avec précision et rigueur le mécanisme interne des réseaux de neurones sous différents angles. Un système théorique capable d'expliquer rigoureusement tous les aspects des réseaux de neurones est appelé « premiers principes ».

Si vous faites vraiment de la « science » avec rigueur, alors le premier principe ne doit pas être aussi simple qu'on l'imagine, mais un système complexe qui nécessite des recherches et une prise en compte de tous les aspects de l'apprentissage profond. Bien sûr, si vous n’êtes pas subjectivement disposé à le faire ou si vous ne croyez pas qu’une théorie doit être suffisamment rigoureuse, la recherche deviendra alors des millions de fois plus facile. Tout comme le modèle standard de la physique doit être plus compliqué que les lois de Newton, selon le chemin que vous souhaitez emprunter.

Dans cette direction, notre équipe a construit indépendamment le «
Système théorique d'interprétabilité des interactions équivalentes » indépendamment à partir de zéro, et sur la base de cette théorie, a expliqué le mécanisme intrinsèque des réseaux de neurones sous trois perspectives.

1. Base théorique de l'explication sémantique : prouver mathématiquement si la logique décisionnelle du réseau neuronal peut être entièrement couverte (entièrement expliquée) par une petite quantité de logique symbolique. "Prouver si la logique décisionnelle des réseaux de neurones peut être expliquée clairement par une logique symbolique limitée"Cette proposition est la proposition fondamentale pour expliquer les réseaux de neurones. Si cette proposition est falsifiée, fondamentalement parlant, l’interprétabilité des réseaux neuronaux sera sans espoir, et tous les algorithmes interprétatifs ne peuvent fournir que des interprétations approximatives, mais ne peuvent pas couvrir avec précision toute la logique décisionnelle. Heureusement, nous avons trouvé trois conditions communes de robustesse orientée vers l'occlusion que les réseaux de neurones peuvent satisfaire dans la plupart des applications, et avons prouvé mathématiquement que la logique de décision des réseaux de neurones qui satisfait à ces trois conditions peut être écrite symboliquement comme un concept d'interaction.
Voir https://zhuanlan.zhihu.com/p/693747946

2. Trouver les causes profondes prouvables et vérifiables derrière les indicateurs de performance : combiner la généralisation et la robustesse du réseau neuronal La cause profonde des indicateurs de performance ultimes. telles que les performances sont décomposées en quelques logiques détaillées
. L'interprétation des performances des réseaux de neurones (robustesse, généralisation) est un autre enjeu important dans le domaine de l'interprétabilité des réseaux de neurones. Cependant, il est généralement admis que les performances des réseaux neuronaux sont une description du réseau neuronal dans son ensemble, et que les réseaux neuronaux ne peuvent pas démanteler leurs jugements de classification en petites quantités concrètes de logique décisionnelle comme les humains. À cet égard, nous donnons une perspective différente : établir une relation mathématique entre les indicateurs de performance et les interactions concrètes. Nous avons prouvé que 1. la complexité des interactions équivalentes peut directement déterminer la robustesse/transférabilité contradictoire des réseaux de neurones, 2. la complexité des interactions détermine la capacité de représentation des réseaux de neurones, 3. et explique la capacité de généralisation des réseaux de neurones [ 1], et 4. Expliquer le goulot d'étranglement de la représentation des réseaux de neurones.

Voir 1 : https://zhuanlan.zhihu.com/p/369883667
  • Voir 2 : https://zhuanlan.zhihu.com/p/361686461
  • Voir 3 : https://zhuanlan.zhihu.com/p/704760363
  • Voir 4 : https://zhuanlan.zhihu.com/p/468569001

3. Algorithme d'apprentissage en profondeur d'ingénierie unifié
. En raison du manque de support théorique de base, la plupart des algorithmes d’apprentissage profond actuels sont empiriques et techniques. Les premiers principes dans le domaine de l’explicabilité devraient être capables d’entreprendre la tâche de résumer la grande quantité d’expérience en ingénierie des générations précédentes en lois scientifiques. Dans le cadre du système théorique d'interprétabilité des interactions équivalentes, notre équipe a prouvé que la nature informatique de 14 algorithmes différents d'attribution d'importance d'entrée peut être mathématiquement unifiée sous la forme de redistribution des interactions. En outre, nous avons également unifié 12 algorithmes pour améliorer la transférabilité contradictoire et prouvé qu'un mécanisme commun à tous les algorithmes visant à améliorer la transférabilité contradictoire consiste à réduire l'effet d'interaction entre les perturbations contradictoires, réalisant ainsi la plupart des capacités d'ingénierie dans le sens de l'interprétabilité théorique des réseaux neuronaux. condensation des algorithmes.

  • 1を参照: https://zhuanlan.zhihu.com/p/610774894
  • 2を参照: https://zhuanlan.zhihu.com/p/546433296

同等のインタラクティブ解釈可能性理論システムの下で、私たちのチームは、以前の研究で 20 件の CCF-A および機械学習のトップカンファレンス ICLR 論文を発表することに成功し、理論的および実験的に上記の質問に完全に答えました。

2. この記事の研究の概要

この Zhihu の記事では、上記の理論的枠組みに沿って、ニューラル ネットワークのトレーニング プロセス中に変化する一般化ルールを正確に説明したいと考えています。 2 つの論文が関係しています。

  • 1.Junpeng Zhang、Qing Li、Liang Lin、Quanshi Zhang、「相互作用の 2 相ダイナミクスが過適合特徴を学習する DNN の開始点を説明する」、arXiv: 2405.10262
  • 2.Qihan Ren、Yang Xu、Junpeng Zhang、Yue Xin、Dongrui Liu、Quanshi Zhang、「シンボリック インタラクションを学習する DNN のダイナミクスに向けて」、arXiv:2407.19198

The ultimate question of explainability is, what is the first explanation? 20 CCF-A+ICLR papers give you answers

Figure 1 : Diagramme schématique du phénomène en deux étapes. Dans la première étape, le réseau neuronal élimine progressivement les interactions d'ordre moyen et élevé et apprend les interactions d'ordre inférieur ; dans la deuxième étape, le réseau neuronal modélise progressivement les interactions d'ordre croissant ; Lorsque l'écart de perte entre la perte de test et la perte de formation commence à augmenter au cours du processus de formation du réseau neuronal, le réseau neuronal entre dans la deuxième étape de la formation.

Nous espérons proposer une nouvelle théorie dans le cadre d'interaction équivalent pour prédire avec précision le nombre, la complexité et les changements de généralisation des concepts d'interaction appris par le réseau neuronal à chaque instant. (illustré sur la figure 1). Plus précisément, nous espérons prouver deux conclusions.

Premièrement, sur la base de la preuve précédente (la logique décisionnelle d'un réseau de neurones peut être strictement déconstruite et exprimée comme la somme de l'utilité de dizaines de concepts interactifs), en déduit en outre rigoureusement que pendant tout le processus de formation , le réseau neuronal Le processus dynamique de changements dans l'utilitaire d'interaction modélisé -
C'est-à-dire que la théorie doit prédire avec précision les changements dans la distribution des concepts d'interaction modélisés par le réseau neuronal à différentes étapes de formation - pour en déduire quelles interactions seront utilisé à quel moment Appris .

Deuxièmement, recherchez des preuves suffisantes pour prouver que les règles changeantes de la complexité d'interaction dérivée
reflètent objectivement les règles changeantes de la généralisation du réseau neuronal tout au long du cycle de formation.

Pour résumer les deux points ci-dessus, nous espérons expliquer en profondeur les causes profondes intrinsèques des changements de généralisation des réseaux de neurones.

Relation avec les prédécesseurs : Bien sûr, tout le monde peut d'abord penser au noyau tangent neuronal (NTK) [2], mais le noyau tangent neuronal ne résout que la courbe de changement de paramètre, et ne peut pas aller plus loin. Le niveau de logique décisionnelle n'établit pas de relation entre la représentation conceptuelle de la modélisation des réseaux neuronaux et sa généralisation. L'analyse de la généralisation reste toujours au niveau de l'analyse de l'espace des fonctionnalités, et il n'y a aucun lien entre [la logique conceptuelle symbolisée] et [ logique conceptuelle symbolisée]. Une relation stricte s’établit entre généralisabilité].

3. Deux contextes de recherche majeurs

Incompréhension 1 : La représentation principale du réseau neuronal est « l'interaction équivalente », et non les paramètres et la structure du réseau neuronal. Analyser les réseaux de neurones uniquement à partir du niveau structurel est une mauvaise compréhension de la représentation fondamentale de la généralisation des réseaux de neurones. À l’heure actuelle, la plupart des recherches sur la généralisation des réseaux neuronaux se concentrent principalement sur la structure, les caractéristiques et les données des réseaux neuronaux. Les gens croient que différentes structures de réseaux neuronaux correspondent naturellement à différentes fonctions et présentent naturellement des performances différentes.

Cependant, en fait, comme le montre la figure 2, la différence de structure n'est qu'une forme superficielle de représentation du réseau neuronal. À l'exception des réseaux de neurones présentant des défauts évidents qui ont un impact significatif sur les performances, tous les autres réseaux de neurones dotés de structures différentes pouvant atteindre des performances SOTA modélisent souvent des représentations d'interaction équivalentes similaires, c'est-à-dire que les réseaux de neurones hautes performances avec des structures différentes sont équivalents aux représentations interactives. conduisent souvent au même objectif à travers des approches différentes [3, 4]. Bien que les caractéristiques internes du réseau neuronal soient complexes et chaotiques, bien que les vecteurs de caractéristiques modélisés par différents réseaux neuronaux soient très différents, et bien que les neurones individuels du réseau neuronal modélisent souvent une sémantique relativement confuse (pas une sémantique strictement claire), en ce qui concerne le réseau neuronal. réseau dans son ensemble, nous prouvons théoriquement que les relations d'interaction modélisées par le réseau de neurones sont clairsemées et symboliques (plutôt que la rareté des caractéristiques, voir le chapitre « 4. Définition de l'interaction » pour plus de détails), et sont orientées vers la même tâche Des réseaux neuronaux disparates modélisent souvent des interactions similaires.

Figure 2 : Les interactions équivalentes modélisées par des réseaux de neurones de structures différentes conduisent souvent au même objectif. Pour une même phrase d’entrée, deux réseaux de neurones complètement différents ciblant la même tâche modélisent souvent des interactions similaires.

En raison des différents paramètres et échantillons d'entraînement des différents réseaux de neurones, aucun neurone des deux réseaux de neurones n'a une correspondance stricte un à un dans la représentation, et chaque neurone modélise souvent différents modèles de mélange sémantique. En revanche, comme analysé dans le paragraphe précédent, les représentations interactives modélisées par les réseaux de neurones sont en réalité invariantes dans différentes représentations de réseaux de neurones. Par conséquent, nous avons des raisons de croire que la représentation fondamentale des réseaux de neurones est une interaction équivalente, plutôt que son support (les paramètres et les échantillons d'apprentissage peuvent représenter le premier principe de la représentation des connaissances (théorème de parcimonie interagie, simulateur infini, théorème de cohérence). et le phénomène consistant à atteindre la même destination par différents chemins sont présentés dans le chapitre « 4. Définition de l'interaction ». Pour une recherche détaillée, voir l'article de Zhihu ci-dessous

Voir : https://zhuanlan.zhihu.com. /p/633531725

Incompréhension 2 : Le problème de généralisation des réseaux de neurones est un problème de modèle mixte, pas un vecteur dans un espace de grande dimension Comme le montre la figure 3, l'analyse de généralisation traditionnelle suppose toujours qu'un seul. L'échantillon est le tout. Un point dans un espace de grande dimension. En fait, la représentation d'un échantillon unique par un réseau neuronal se présente sous la forme d'un modèle de mélange - en fait exprimé à travers un grand nombre d'interactions différentes. La capacité de généralisation des interactions simples est plus forte que celle des interactions complexes, il n'est donc plus approprié d'utiliser un simple scalaire pour représenter généralement la capacité de généralisation de l'ensemble du réseau neuronal sur différents échantillons. Au contraire, le même réseau neuronal modélise le. des relations d'interaction de complexités différentes sur différents échantillons. Les interactions correspondent souvent à des capacités de généralisation différentes. Habituellement, les interactions d'ordre élevé (complexes) modélisées par les réseaux de neurones sont souvent difficiles à généraliser aux échantillons testés (les mêmes interactions ne seront pas déclenchées sur les échantillons testés). , représentant des représentations surajustées. , et les interactions d'ordre inférieur (simples) modélisées par les réseaux de neurones représentent souvent des représentations avec une forte généralisation, veuillez consulter [1] pour une recherche détaillée.
Figure 3 : (a) L'analyse de généralisation traditionnelle suppose toujours qu'un seul échantillon dans son ensemble est un point dans un espace de grande dimension. (b) En fait, le réseau de neurones représente un échantillon unique sous la forme d'un modèle de mélange. Le réseau de neurones modélise les interactions simples (interactions généralisables) et les interactions complexes (interactions non généralisables) sur un seul échantillon. 4. Définition de l'interaction
. Laissez
représenter une sortie scalaire du DNN sur l'échantillon
. Pour un réseau de neurones orienté vers les tâches de classification, nous pouvons définir sa sortie scalaire sous différentes perspectives. Par exemple, pour un problème de classification multi-catégories,
peut être défini comme , ou comme la sortie scalaire correspondant à la véritable étiquette de l'échantillon avant la couche softmax. Ici, représente la probabilité de classification de la vraie étiquette. De cette façon, pour chaque sous-ensemble
, nous pouvons utiliser la formule suivante pour définir « l'équivalence et l'interaction » et « l'équivalence ou l'interaction » entre toutes les variables d'entrée dans
.
The ultimate question of explainability is, what is the first explanation? 20 CCF-A+ICLR papers give you answers
Comme le montre la figure 4(a), nous pouvons comprendre l'interaction ET ou l'interaction ci-dessus comme ceci : nous pouvons penser que l'interaction équivalente ET représente la "relation ET" entre les variables d'entrée dans The ultimate question of explainability is, what is the first explanation? 20 CCF-A+ICLR papers give you answers codées par le réseau neuronal. Par exemple, étant donné une phrase d’entrée The ultimate question of explainability is, what is the first explanation? 20 CCF-A+ICLR papers give you answers, un réseau de neurones pourrait modéliser une interaction entre The ultimate question of explainability is, what is the first explanation? 20 CCF-A+ICLR papers give you answers telle que The ultimate question of explainability is, what is the first explanation? 20 CCF-A+ICLR papers give you answers produit un utilitaire numérique qui pilote la « pluie » de sortie du réseau de neurones. Si une variable d'entrée dans The ultimate question of explainability is, what is the first explanation? 20 CCF-A+ICLR papers give you answers est occultée, cet utilitaire numérique sera supprimé de la sortie du réseau neuronal. De même, l'équivalence ou l'interaction The ultimate question of explainability is, what is the first explanation? 20 CCF-A+ICLR papers give you answers représente la « relation OU » entre les variables d'entrée au sein de The ultimate question of explainability is, what is the first explanation? 20 CCF-A+ICLR papers give you answers modélisée par le réseau neuronal. Par exemple, étant donné une phrase d'entrée The ultimate question of explainability is, what is the first explanation? 20 CCF-A+ICLR papers give you answers, tant qu'un mot dans The ultimate question of explainability is, what is the first explanation? 20 CCF-A+ICLR papers give you answers apparaît, cela pilotera la sortie du réseau neuronal pour classer les émotions négatives.

L'interaction équivalente modélisée par le réseau de neurones satisfait aux trois critères axiomatiques du « concept idéal », à savoir l'ajustement infini, la parcimonie et la transférabilité inter-échantillons.

  1. Ajustement infini : Comme le montrent les figures 4 et 5, pour tout échantillon d'occlusion, la sortie du réseau neuronal sur l'échantillon peut être ajustée par la somme des utilités de différents concepts d'interaction. Autrement dit, nous pouvons construire un modèle logique basé sur l'interaction. Quelle que soit la manière dont nous bloquons l'échantillon d'entrée, ce modèle logique peut toujours ajuster avec précision la valeur de sortie du modèle dans n'importe quel état bloqué de l'échantillon d'entrée.
  2. Sparsity : Les réseaux de neurones pour les tâches de classification ne modélisent souvent qu'un petit nombre de concepts interactifs significatifs, et la plupart des concepts interactifs sont du bruit avec une utilité numérique proche de 0.
  3. Transférabilité entre échantillons : Les interactions sont transférables entre différents échantillons, c'est-à-dire que les concepts d'interaction significatifs modélisés par des réseaux de neurones sur différents échantillons (de la même catégorie) se chevauchent souvent beaucoup.

The ultimate question of explainability is, what is the first explanation? 20 CCF-A+ICLR papers give you answers

図 4: ニューラル ネットワークの複雑な推論ロジックは、少数の相互作用 The ultimate question of explainability is, what is the first explanation? 20 CCF-A+ICLR papers give you answers に基づくロジック モデルによって正確に適合できます。各相互作用は、特定の入力変数セット The ultimate question of explainability is, what is the first explanation? 20 CCF-A+ICLR papers give you answers をモデル化するニューラル ネットワーク間の非線形関係の尺度です。セット内の変数が同時に出現する場合にのみ、トリガーおよび相互作用し、出力 The ultimate question of explainability is, what is the first explanation? 20 CCF-A+ICLR papers give you answers に数値スコアを提供します。セット The ultimate question of explainability is, what is the first explanation? 20 CCF-A+ICLR papers give you answers 内の変数が出現すると、トリガーまたは相互作用します。

The ultimate question of explainability is, what is the first explanation? 20 CCF-A+ICLR papers give you answers

図 5: 任意のオクルージョン サンプルに対するニューラル ネットワークの出力は、さまざまなインタラクション概念の効用の合計によって適合できます。つまり、入力をどのようにオクルージョンするかに関係なく、インタラクションに基づいて論理モデルを構築できます。たとえば、入力ユニットで完全に異なるオクルージョン方法が与えられた場合でも、この論理モデルは、どのようなオクルージョン状態でもモデルの入力サンプルの出力値を正確に適合させることができます。

5. 新しい発見と証明

5.1 トレーニング中のニューラルネットワークのインタラクティブな変化の 2 段階の現象を発見する

この Zhihu の記事では、にニューラル ネットワークの解釈可能性の分野における基本的な問題、つまり、学習プロセス中のニューラル ネットワークの汎化能力の変化を分析解析の観点から厳密に予測し、ニューラル ネットワークの過小適合から過適合への移行を正確に分析する方法です。フィッティングの動的変化プロセス全体とその背後にある根本原因

まず、対話の次数 (複雑さ) を対話内の入力変数の数
として定義します。私たちのチームの以前の研究では、特定のサンプルのニューラル ネットワークによってモデル化された「またはとの相互作用」の複雑さが、このサンプルのニューラル ネットワークの汎化能力 [1]、つまりニューラル ネットワークの高次レベルを直接決定することがわかりました。ネットワーク モデリングでは、「AND-OR 相互作用」(多数の入力ユニット間) は一般化機能が劣る傾向がありますが、低次の「AND-OR 相互作用」(少数の入力ユニット間) は強力な汎化機能を持っています。 The ultimate question of explainability is, what is the first explanation? 20 CCF-A+ICLR papers give you answers

したがって、この研究の最初のステップは、トレーニング プロセス中のさまざまな時点でニューラル ネットワークによってモデル化された、さまざまな次数の「AND-OR 相互作用」の複雑さに対する分析的解決策を予測することです。さまざまな段階でのニューラル ネットワークの汎化能力は、さまざまな時点でのニューラル ネットワークによってモデル化されたさまざまな次数の「AND または相互作用」の分布を通じて説明されます。相互作用の汎化能力の定義とニューラルネットワーク全体の汎化能力の定義については、「5.2 ニューラルネットワークがモデル化する相互作用の順序と汎化能力の関係」の章を参照してください。
異なる次数の相互作用の強度(複雑さ)の分布を表すための 2 つの指標を提案します。具体的には、
を使用して順序のすべての正の有意な相互作用の強度を測定し、
を使用して順序
のすべての負の有意な相互作用の強度を測定します。ここで、The ultimate question of explainability is, what is the first explanation? 20 CCF-A+ICLR papers give you answersThe ultimate question of explainability is, what is the first explanation? 20 CCF-A+ICLR papers give you answersは有意な相互作用のセットを表し、The ultimate question of explainability is, what is the first explanation? 20 CCF-A+ICLR papers give you answersは有意な相互作用のしきい値を表します交流。 The ultimate question of explainability is, what is the first explanation? 20 CCF-A+ICLR papers give you answersThe ultimate question of explainability is, what is the first explanation? 20 CCF-A+ICLR papers give you answersThe ultimate question of explainability is, what is the first explanation? 20 CCF-A+ICLR papers give you answers
図 6: 異なるラウンドでトレーニングされたニューラル ネットワークから抽出された異なる次数相互作用の強度 The ultimate question of explainability is, what is the first explanation? 20 CCF-A+ICLR papers give you answers および The ultimate question of explainability is, what is the first explanation? 20 CCF-A+ICLR papers give you answers。異なるデータセットおよび異なるタスクでトレーニングされたさまざまなニューラル ネットワークのトレーニング プロセスには 2 段階の現象があります。最初の 2 つの選択された時点は第 1 フェーズに属し、最後の 2 つの時点は第 2 フェーズに属します。ニューラル ネットワークのトレーニング プロセスの第 2 段階に入った直後に、ニューラル ネットワークのテスト損失とトレーニング損失の間の損失ギャップが大幅に増加し始めます (最後のコラムを参照)。これは、ニューラル ネットワーク トレーニングの 2 段階の現象が、モデルの損失ギャップの変化に合わせて「調整」されていることを示しています。詳しい実験結果については論文をご覧ください。

図 6 に示すように、ニューラル ネットワークの 2 段階の現象は、具体的には次のように表されます。レベルの相互作用、高次および低次の相互作用はほとんどコード化されず、異なる次数の相互作用の分布は「紡錘型」のように見えます。ランダムな初期化パラメータを持つニューラル ネットワークが純粋なノイズをモデル化すると仮定すると、「5.4 2 段階現象の理論的証明」で、ランダムな初期化パラメータを持つニューラル ネットワークによってモデル化された異なる次数の相互作用の分布が「紡錘形」を示すことを証明しました。つまり、少数の低次および高次の相互作用のみがモデル化され、多数の中次の相互作用がモデル化されます。

    ニューラル ネットワークのトレーニング
  • の最初の段階では、ニューラル ネットワークによってエンコードされた高次および中次の相互作用の強度が徐々に弱まり、低次の相互作用の強度が徐々に増加します。最終的に、高次および中次の相互作用は徐々に排除され、ニューラル ネットワークは低次の相互作用のみをエンコードします。
  • ニューラル ネットワーク トレーニングの第 2 フェーズでは、ニューラル ネットワークによってエンコードされた相互作用の順序 (複雑さ) がトレーニング プロセス中に徐々に増加します。より複雑な相互作用を徐々に学習する過程で、ニューラル ネットワークの過剰適合のリスクも徐々に増加します。
  • 上記の 2 段階の現象は、異なるタスク、異なるデータセットで異なる構造を持つニューラル ネットワークのトレーニング プロセスに広く存在します。 VGG-11/13/16 を画像データセット (CIFAR-10 データセット、MNIST データセット、CUB200-2011 データセット (写真から切り取った鳥の画像を使用) および Tiny-ImageNet データセット) と AlexNet でトレーニングしました。 SST-2 データセットで感情意味分類のために Bert-Medium/Tiny モデルをトレーニングし、3D 点群データを分類するために ShapeNet データセットで DGCNN をトレーニングしました。上の図は、異なるトレーニング エポックで異なるニューラル ネットワークによって抽出された、異なる次数の重要な相互作用の分布を示しています。私たちは、これらのニューラル ネットワークのトレーニング プロセス中に 2 段階の現象を発見しました。実験結果と詳細については、論文を参照してください。

5.2 ニューラルネットワークによってモデル化された相互作用の順序とその汎化能力の関係
私たちのチームの以前の研究では、ニューラルネットワークによってモデル化された相互作用の順序とその汎化能力の関係、つまり、高次の相互作用は、低次の相互作用よりも汎化能力が劣ります [1]。特定の相互作用の一般化可能性は明確に定義されています。相互作用がトレーニング サンプルとテスト サンプルの両方でニューラル ネットワークによって頻繁にモデル化される場合、この相互作用は優れた一般化能力を持っています。この Zhihu の記事では、高次の相互作用には汎化能力が低く、低次の相互作用には強い汎化能力があることを証明する 2 つの実験が紹介されています。
実験 1: 異なるデータセットでトレーニングされた異なるニューラル ネットワークによってモデル化された相互作用の一般化を観察します。ここでは、テスト セットによってトリガーされたインタラクションの分布とトレーニング セットによってトリガーされたインタラクションの分布の間の Jaccard 類似度を使用して、インタラクションの一般化を測定します
。具体的には、The ultimate question of explainability is, what is the first explanation? 20 CCF-A+ICLR papers give you answers 入力変数を含む入力サンプル The ultimate question of explainability is, what is the first explanation? 20 CCF-A+ICLR papers give you answers が与えられた場合、入力サンプル The ultimate question of explainability is, what is the first explanation? 20 CCF-A+ICLR papers give you answers から抽出された The ultimate question of explainability is, what is the first explanation? 20 CCF-A+ICLR papers give you answers 次の交互作用を The ultimate question of explainability is, what is the first explanation? 20 CCF-A+ICLR papers give you answers ベクトル化します。ここで、 The ultimate question of explainability is, what is the first explanation? 20 CCF-A+ICLR papers give you answersThe ultimate question of explainability is, what is the first explanation? 20 CCF-A+ICLR papers give you answers The ultimate question of explainability is, what is the first explanation? 20 CCF-A+ICLR papers give you answers 次の相互作用を表します。次に、分類タスクでカテゴリ The ultimate question of explainability is, what is the first explanation? 20 CCF-A+ICLR papers give you answers を持つすべてのサンプルから抽出された次数 The ultimate question of explainability is, what is the first explanation? 20 CCF-A+ICLR papers give you answers の平均交互作用ベクトルを計算します。これは The ultimate question of explainability is, what is the first explanation? 20 CCF-A+ICLR papers give you answers として表されます。ここで、The ultimate question of explainability is, what is the first explanation? 20 CCF-A+ICLR papers give you answers はカテゴリ The ultimate question of explainability is, what is the first explanation? 20 CCF-A+ICLR papers give you answers を持つサンプルのセットを表します。다음으로, 분류 작업에서 카테고리 The ultimate question of explainability is, what is the first explanation? 20 CCF-A+ICLR papers give you answers를 갖는 샘플의 The ultimate question of explainability is, what is the first explanation? 20 CCF-A+ICLR papers give you answers를 측정하기 위해 훈련 샘플에서 추출된 순서 The ultimate question of explainability is, what is the first explanation? 20 CCF-A+ICLR papers give you answers의 평균 상호 작용 벡터 The ultimate question of explainability is, what is the first explanation? 20 CCF-A+ICLR papers give you answers와 테스트 샘플에서 추출된 순서 The ultimate question of explainability is, what is the first explanation? 20 CCF-A+ICLR papers give you answers의 평균 상호 작용 벡터
간의 Jaccard 유사성을 계산합니다. 순서 상호 작용의 일반화 능력, 즉

The ultimate question of explainability is, what is the first explanation? 20 CCF-A+ICLR papers give you answers

The ultimate question of explainability is, what is the first explanation? 20 CCF-A+ICLR papers give you answerswhere, The ultimate question of explainability is, what is the first explanation? 20 CCF-A+ICLR papers give you answersThe ultimate question of explainability is, what is the first explanation? 20 CCF-A+ICLR papers give you answers는 Jaccard 유사성을 계산하기 위해 두 개의 The ultimate question of explainability is, what is the first explanation? 20 CCF-A+ICLR papers give you answers차원 상호 작용 벡터를 두 개의
차원 비음수 벡터에 투영합니다. 특정 순서의 상호작용에 대해 일반적으로 이 상호작용 순서가 큰 Jaccard 유사성을 보인다면 이는 이 상호작용 순서가 강력한 일반화 능력을 가지고 있음을 의미합니다.

The ultimate question of explainability is, what is the first explanation? 20 CCF-A+ICLR papers give you answers다양한 상호작용 순서를 계산하는 실험을 진행했습니다The ultimate question of explainability is, what is the first explanation? 20 CCF-A+ICLR papers give you answers. 우리는 MNIST 데이터세트로 훈련된 LeNet, CIFAR-10 데이터세트로 훈련된 VGG-11, CUB200-2011 데이터세트로 훈련된 VGG-13, Tiny-ImageNet 데이터세트로 훈련된 AlexNet을 테스트했습니다. 계산 비용을 줄이기 위해 상위 10개 카테고리
의 평균 Jaccard 유사성만 계산했습니다. 그림 7에서 볼 수 있듯이 상호작용 순서가 증가할수록 상호작용의 Jaccard 유사성은 계속해서 감소합니다. 따라서 이는 고차 상호 작용이 저차 상호 작용보다 일반화 기능이 더 나쁘다는 것을 확인합니다. 그림 7: 훈련 샘플과 테스트 샘플에서 추출된 상호 작용 간의 Jaccard 유사성. 저차 상호작용의 상대적으로 높은 Jaccard 유사성은 저차 상호작용이 강력한 일반화 능력을 가지고 있음을 나타냅니다.

The ultimate question of explainability is, what is the first explanation? 20 CCF-A+ICLR papers give you answers

Experiment 2: Vergleich der Verteilung von Interaktionen, die durch neuronale Netze an normalen Proben und OOD-Proben modelliert wurden. Wir verglichen Interaktionen, die aus normalen Proben extrahiert wurden, mit Interaktionen, die aus Proben außerhalb der Verteilung (OOD) extrahiert wurden, um zu untersuchen, ob das neuronale Netzwerk mehr Interaktionen höherer Ordnung auf OOD-Proben modelliert. Wir haben die Klassifizierungsbezeichnungen einer kleinen Anzahl von Trainingsbeispielen auf falsche Bezeichnungen gesetzt. Auf diese Weise können die Originalproben im Datensatz als normale Proben betrachtet werden, während einige Proben mit falschen Bezeichnungen OOD-Proben entsprechen und diese OOD-Proben zu einer Überanpassung des neuronalen Netzwerks führen können. Wir haben VGG-11 und VGG-13 anhand des MNIST-Datensatzes bzw. des CIFAR-10-Datensatzes trainiert. Abbildung 8 vergleicht die Verteilung der aus normalen Proben extrahierten Interaktionen mit der Verteilung der aus OOD-Proben extrahierten Interaktionen. Wir stellen fest, dass VGG-11 und VGG-13 komplexere Wechselwirkungen (Wechselwirkungen höherer Ordnung) bei der Klassifizierung von OOD-Proben modellieren, während Wechselwirkungen niedrigerer Ordnung bei der Klassifizierung normaler Proben verwendet werden. Dies bestätigt, dass die Generalisierungsfähigkeit von Wechselwirkungen höherer Ordnung im Allgemeinen schwächer ist als die von Wechselwirkungen niedrigerer Ordnung.

The ultimate question of explainability is, what is the first explanation? 20 CCF-A+ICLR papers give you answers

常 Figure 8: Compare interactions extracted from normal samples and interactions extracted from distribution (OOD) samples. Neural networks typically model higher-order interactions on OOD samples.

5.3 The two-stage phenomenon and the change in loss gap during the neural network training process are relatively consistent

We found that the above two-stage phenomenon can fully represent the generalization dynamics of the neural network. A very interesting phenomenon is that the two-stage phenomenon in the neural network training process and the changes in the loss gap of the neural network in the test set and training set are aligned in time
. The loss gap between training loss and test loss is the most widely used metric to measure the degree of model overfitting. Figure 6 shows the curves of the loss gap between the test loss and the training loss of the training project for different neural networks, and also shows the interaction distributions extracted from the neural networks at different training epochs. We found that when the loss gap between the test loss and the training loss begins to increase during the neural network training process, the neural network happens to enter the second stage of training. This shows that the two-stage phenomenon of neural network training is "aligned" in time with changes in the model loss gap.
We can understand the above phenomenon this way: before the training process starts, the interactions modeled by the initialized neural network all represent random noise, and the distribution of interactions of different orders looks like a "spindle". In the first stage of neural network training, the neural network gradually eliminates intermediate and high-order interactions and learns the simplest (lowest-order) interactions. Then, in the second stage of neural network training, the neural network models interactions of increasing order. Since our two experiments in the chapter "5.2 The relationship between the order of interaction modeled by neural networks and its generalization ability" have verified that high-order interactions usually have worse generalization capabilities than low-order interactions, we can think In the second stage of neural network training, the DNN first learns the interactions with the strongest generalization ability, and then gradually moves to more complex interactions with weaker generalization ability. Eventually some neural networks gradually overfit and encode a large number of mid- and high-order interactions.

5.4 Theoretically prove the two-stage phenomenon
Theoretically prove the two-stage phenomenon of the neural network training process is divided into three parts. In the first part, we need to prove that the randomly initialized neural network before the training process starts The distribution of modeled interactions shows a “spindle shape”, that is, high-order and low-order interactions are rarely modeled, and mid-order interactions are mainly modeled. The second part demonstrates that the neural network models increasingly larger interactions in the second phase of training. Section 3 demonstrates that the neural network gradually eliminates mid- and high-order interactions in the first stage of training and learns the lowest-cost interactions.

1. Prove the “spindle” interaction distribution for initialization neural network modeling.
Since the randomly initialized random network models noise before the training process starts, we assume that the interactions modeled by the randomly initialized neural network obey the normal distribution with mean
and variance
. Under the above assumptions, we were able to show that the distribution of the intensity sum of interactions modeled by the initialized neural network exhibits a “spindle shape”, i.e., it rarely models high-order and low-order interactions and mainly models mid-order interactions.
The ultimate question of explainability is, what is the first explanation? 20 CCF-A+ICLR papers give you answersThe ultimate question of explainability is, what is the first explanation? 20 CCF-A+ICLR papers give you answers
2. Prove the dynamic process of interactive changes in the second stage of neural network training.

Before entering the formal certification, we need to do the following preparatory work. First, we follow the approach of [5, 6] and rewrite the inference of the neural network The ultimate question of explainability is, what is the first explanation? 20 CCF-A+ICLR papers give you answers on a specific sample as a weighted sum of different interaction trigger functions:

The ultimate question of explainability is, what is the first explanation? 20 CCF-A+ICLR papers give you answers where The ultimate question of explainability is, what is the first explanation? 20 CCF-A+ICLR papers give you answers is a scalar weight, satisfying The ultimate question of explainability is, what is the first explanation? 20 CCF-A+ICLR papers give you answers. The function The ultimate question of explainability is, what is the first explanation? 20 CCF-A+ICLR papers give you answers is an interactive trigger function, which satisfies The ultimate question of explainability is, what is the first explanation? 20 CCF-A+ICLR papers give you answers on any occlusion sample The ultimate question of explainability is, what is the first explanation? 20 CCF-A+ICLR papers give you answers. The specific form of function The ultimate question of explainability is, what is the first explanation? 20 CCF-A+ICLR papers give you answers can be derived from Taylor expansion. Please refer to the paper and will not be described here.


According to the above rewritten form, The learning of the neural network on a specific sample can be approximately regarded as the learning of the weight The ultimate question of explainability is, what is the first explanation? 20 CCF-A+ICLR papers give you answers of the interactive trigger function. Furthermore, the laboratory's preliminary work [3] found that different neural networks fully trained on the same task tend to model similar interactions, so we can regard the learning of neural networks as a series of potential ground truth interactions. fitting. Therefore, the interaction modeled by the neural network when it is trained to convergence can be seen as the solution obtained when minimizing the following objective function:

The ultimate question of explainability is, what is the first explanation? 20 CCF-A+ICLR papers give you answerswhere The ultimate question of explainability is, what is the first explanation? 20 CCF-A+ICLR papers give you answers represents a series of potential ground truth interactions that the neural network needs to fit. The ultimate question of explainability is, what is the first explanation? 20 CCF-A+ICLR papers give you answers and The ultimate question of explainability is, what is the first explanation? 20 CCF-A+ICLR papers give you answers respectively represent the vector obtained by putting together all the weights and the vector obtained by putting together the values ​​of all interaction trigger functions.


Unfortunately, although the above modeling can obtain the interaction when the neural network is trained to convergence, it cannot well describe the dynamic process of learning interaction during the neural network training process. Here we introduce our core hypothesis: We assume that the parameters of the initialized neural network contain a large amount of noise, and the magnitude of these noises gradually becomes smaller during the training process. Furthermore, noise on the parameters will lead to noise on the interaction trigger function , and this noise increases exponentially with the interaction order (it has been experimentally observed and verified in [5]). We model the learning of neural networks with noise as follows: The ultimate question of explainability is, what is the first explanation? 20 CCF-A+ICLR papers give you answers

where noise The ultimate question of explainability is, what is the first explanation? 20 CCF-A+ICLR papers give you answers satisfies The ultimate question of explainability is, what is the first explanation? 20 CCF-A+ICLR papers give you answers. And as the training proceeds, the variance of the noise The ultimate question of explainability is, what is the first explanation? 20 CCF-A+ICLR papers give you answers gradually becomes smaller.

By minimizing the above loss function for a given noise level The ultimate question of explainability is, what is the first explanation? 20 CCF-A+ICLR papers give you answers, the analytical solution of the optimal interaction weight The ultimate question of explainability is, what is the first explanation? 20 CCF-A+ICLR papers give you answers can be obtained, as shown in the theorem in the figure below.

The ultimate question of explainability is, what is the first explanation? 20 CCF-A+ICLR papers give you answers

We found that as training progresses (i.e., the noise magnitude The ultimate question of explainability is, what is the first explanation? 20 CCF-A+ICLR papers give you answers becomes smaller), the ratio of low- and medium-order interaction strengths to high-order interaction strengths gradually decreases (as shown in the theorem below). This explains the phenomenon in which the neural network gradually learns higher-order interactions during the second phase of training.

The ultimate question of explainability is, what is the first explanation? 20 CCF-A+ICLR papers give you answers

In addition, we have further experimentally verified the above conclusion. Given a sample with n input units, the metric The ultimate question of explainability is, what is the first explanation? 20 CCF-A+ICLR papers give you answers, where The ultimate question of explainability is, what is the first explanation? 20 CCF-A+ICLR papers give you answers, can be used to approximately measure the ratio of the strength of the kth-order interaction to the k+1th-order interaction. In the figure below, we can find that under different number of input units n and different orders k, the ratio will gradually decrease as The ultimate question of explainability is, what is the first explanation? 20 CCF-A+ICLR papers give you answers decreases.

The ultimate question of explainability is, what is the first explanation? 20 CCF-A+ICLR papers give you answers

Figure 9 : Sous un nombre différent d'unités d'entrée n et un ordre k différent, le rapport entre l'interaction d'ordre k et la force d'interaction d'ordre k+1 changera avec le niveau de bruit The ultimate question of explainability is, what is the first explanation? 20 CCF-A+ICLR papers give you answers diminuera progressivement . Cela montre qu'à mesure que l'entraînement progresse (c'est-à-dire que The ultimate question of explainability is, what is the first explanation? 20 CCF-A+ICLR papers give you answers devient progressivement plus petit), le rapport entre l'intensité d'interaction d'ordre inférieur et l'intensité d'interaction d'ordre élevé devient progressivement plus petit et le réseau neuronal apprend progressivement les interactions d'ordre supérieur.

Enfin, nous avons comparé la distribution des valeurs d'interaction théoriques à chaque ordre sous différents niveaux de bruit The ultimate question of explainability is, what is the first explanation? 20 CCF-A+ICLR papers give you answersThe ultimate question of explainability is, what is the first explanation? 20 CCF-A+ICLR papers give you answers avec la distribution de chaque ordre d'interaction au cours du processus de formation réel The ultimate question of explainability is, what is the first explanation? 20 CCF-A+ICLR papers give you answers et avons constaté que le théorie La distribution des interactions peut bien prédire la distribution de l'intensité des interactions à chaque instant de l'entraînement réel. The ultimate question of explainability is, what is the first explanation? 20 CCF-A+ICLR papers give you answers

The ultimate question of explainability is, what is the first explanation? 20 CCF-A+ICLR papers give you answers

그림 10: 이론적 상호 작용 분포 The ultimate question of explainability is, what is the first explanation? 20 CCF-A+ICLR papers give you answers(파란색 히스토그램)과 실제 상호 작용 분포 The ultimate question of explainability is, what is the first explanation? 20 CCF-A+ICLR papers give you answers(주황색 히스토그램) 비교. 이론적 상호작용 분포는 훈련의 두 번째 단계에서 다양한 시점의 실제 상호작용 분포를 잘 예측하고 일치시킵니다. 더 많은 결과를 보려면 논문을 참조하세요.

3. 신경망 훈련의 첫 번째 단계에서 대화형 변화의 동적 프로세스를 증명합니다.

훈련의 두 번째 단계에서 상호 작용의 동적 변화를 소음 The ultimate question of explainability is, what is the first explanation? 20 CCF-A+ICLR papers give you answersThe ultimate question of explainability is, what is the first explanation? 20 CCF-A+ICLR papers give you answers이 점차 감소할 때 가중치 의 최적 솔루션의 변화로 설명할 수 있다면 첫 번째 단계는 초기 무작위 상호작용은 점차적으로 최적의 솔루션으로 수렴됩니다.

갈 길이 멀다. 우리 팀은 이 이론을 더 많은 측면에서 확고히 하고 등가 상호 작용이 상징적 설명이라는 것을 엄격하게 증명할 수 있기를 바랍니다. , 신경망 표현의 병목 현상을 입증하고 신경망의 마이그레이션 저항성을 향상시키는 12가지 방법을 통합하고 14가지 중요도 추정 방법을 설명하는 동시에 신경망의 일반화 및 견고성을 설명할 수 있습니다. 나중에 이론적인 시스템을 더욱 개선하기 위해 더욱 탄탄한 작업을 하도록 하겠습니다.

[1] Huilin Zhou, Hao Zhang, Huiqi Deng, Dongrui Liu, Wen Shen, Shih-Han Chan 및 Quanshi Zhang이 대화형 개념을 사용하여 DNS의 일반화 능력을 설명합니다., 2024
[2] Arthur Jacot, Franck Gabriel, 신경 탄젠트 커널: 신경망의 수렴 및 일반화. NeurIPS, 2018
[3] 신경망은 실제로 ICML을 인코딩합니까? , 2023
[4] Wen Shen, Lei Cheng, Yuxiao Yang, Mingjie Li 및 Quanshi Zhang. 대규모 언어 모델의 추론 논리를 상징적 개념으로 풀 수 있습니까?
[5] Qihan Ren, Huiqi Deng, Yunuo Chen, Siyu Lou 및 Quanshi Zhang. ICML, 2023
[6] Dongrui Liu, Huiqi Deng, Xu Cheng, Qihan Ren, Kangrui Wang 및 Quanshi. Zhang. 다양한 복잡성의 개념을 학습하기 위한 심층 신경망의 어려움. NeurIPS, 2023

등가 상호 작용 이론 시스템

[1] Huiqi Deng, Na Zou, Mengnan Du, Weifu Chen, Guocan Feng, Ziwei Yang, Zheyang Li, Quanshi Zhang. Taylor 상호 작용을 통해 14가지 사후 기여 분석 방법 통합. 패턴 분석 및 기계 지능(IEEE T-PAMI)에 대한 IEEE 트랜잭션, 2024.

[2] Xu Cheng, Lei Cheng , Zhaoran Peng, Yang Xu, Tian Han 및 Quanshi Zhang. ICML, 2024.

[3] Qihan Ren, Jiayang Gao, Wen Shen 및 Quanshi Zhang. AI 모델에서 희소 상호 작용 프리미티브의 출현 증명, 2024.

[4] Lu Chen, Siyu Lou, Benhao Huang 및 Quanshi Zhang ICLR에서 일반화 가능한 상호 작용 프리미티브 정의 및 추출, 2024.

[5] Huilin Zhou, Hao Zhang, Huiqi Deng, Dongrui Liu, Wen Shen, Shih-Han Chan 및 Quanshi Zhang. 대화형 개념을 사용하여 DNN의 일반화 기능 설명, 2024.

[ 6 ] Dongrui Liu, Huiqi Deng, Xu Cheng, Qihan Ren, Kangrui Wang 및 Quanshi Zhang. 다양한 복잡성의 개념을 학습하기 위한 심층 신경망의 어려움, 2023.

[7] Quanshi Zhang, Jie Ren, Ge Huang, Ruiming Cao, Ying Nian Wu und Song-Chun Zhu. Gewinnung interpretierbarer AOG-Darstellungen aus Faltungsnetzwerken über aktive Fragebeantwortung (IEEE T -PAMI), 2020.

[8] Xin Wang, Jie Ren, Shuyun Lin, Xiangming Zhu, Yisen Wang und Quanshi Zhang. Ein einheitlicher Ansatz zur Interpretation und Steigerung der kontradiktorischen Übertragbarkeit [9] Hao Zhang, Sen Li, Yinchao Ma, Mingjie Li, Yichen Xie und Quanshi Zhang . Kodiert ein neuronales Netzwerk wirklich ein symbolisches Konzept? . ICML, 2023.

[12] Qihan Ren, Huiqi Deng, Yunuo Chen, Siyu Lou und Quanshi Zhang. Vermeiden Sie die Kodierung störungsempfindlicher und komplexer Konzepte ] Jie Ren, Mingjie Li, Qirui Chen, Huiqi Deng und Quanshi Zhang: Definition und Quantifizierung der Entstehung spärlicher Konzepte in DNNs, 2023.

[14] Jie Ren, Mingjie Li, Meng Zhou, Shih- Han Chan und Quanshi Zhang. Auf dem Weg zur theoretischen Analyse der Transformationskomplexität von ReLU-DNNs, 2022.

[15] Jie Ren, Die Zhang, Yisen Wang, Lu Chen, Zhanpeng Zhou, Yiting Chen, Xu Cheng, Xin Wang, Meng Zhou, Jie Shi und Quanshi Zhang. Eine einheitliche spieltheoretische Interpretation der gegnerischen Robustheit DNNs für die 3D-Punktwolkenverarbeitung.

[17] Xin Wang, Shuyun Lin, Hao Zhang, Yufei Zhu und Quanshi Zhang. ] Wen Shen, Zhihua Wei, Shikun Huang, Binbin Zhang, Panyue Chen, Ping Zhao und Quanshi Zhang: Interpreting Utilities of Network Architectures for 3D Point Cloud Processing, 2021.

[19] Hao Zhang, Yichen Xie , Longjie Zheng, Die Zhang und Quanshi Zhang. Interpreting Multivariate Shapley Interactions in DNNs, 2021. Mengyue Wu und Quanshi Zhang. Aufbau interpretierbarer Interaktionsbäume für Deep NLP-Modelle, 2021.

The above is the detailed content of The ultimate question of explainability is, what is the first explanation? 20 CCF-A+ICLR papers give you answers. For more information, please follow other related articles on the PHP Chinese website!

Statement
The content of this article is voluntarily contributed by netizens, and the copyright belongs to the original author. This site does not assume corresponding legal responsibility. If you find any content suspected of plagiarism or infringement, please contact admin@php.cn
五个时间序列预测的深度学习模型对比总结五个时间序列预测的深度学习模型对比总结May 05, 2023 pm 05:16 PM

MakridakisM-Competitions系列(分别称为M4和M5)分别在2018年和2020年举办(M6也在今年举办了)。对于那些不了解的人来说,m系列得比赛可以被认为是时间序列生态系统的一种现有状态的总结,为当前得预测的理论和实践提供了经验和客观的证据。2018年M4的结果表明,纯粹的“ML”方法在很大程度上胜过传统的统计方法,这在当时是出乎意料的。在两年后的M5[1]中,最的高分是仅具有“ML”方法。并且所有前50名基本上都是基于ML的(大部分是树型模型)。这场比赛看到了LightG

RLHF与AlphaGo核心技术强强联合,UW/Meta让文本生成能力再上新台阶RLHF与AlphaGo核心技术强强联合,UW/Meta让文本生成能力再上新台阶Oct 27, 2023 pm 03:13 PM

在一项最新的研究中,来自UW和Meta的研究者提出了一种新的解码算法,将AlphaGo采用的蒙特卡洛树搜索算法(Monte-CarloTreeSearch,MCTS)应用到经过近端策略优化(ProximalPolicyOptimization,PPO)训练的RLHF语言模型上,大幅提高了模型生成文本的质量。PPO-MCTS算法通过探索与评估若干条候选序列,搜索到更优的解码策略。通过PPO-MCTS生成的文本能更好满足任务要求。论文链接:https://arxiv.org/pdf/2309.150

MIT团队运用机器学习闭环自主分子发现平台,成功发现、合成和描述了303种新分子MIT团队运用机器学习闭环自主分子发现平台,成功发现、合成和描述了303种新分子Jan 04, 2024 pm 05:38 PM

编辑|X传统意义上,发现所需特性的分子过程一直是由手动实验、化学家的直觉以及对机制和第一原理的理解推动的。随着化学家越来越多地使用自动化设备和预测合成算法,自主研究设备越来越接近实现。近日,来自MIT的研究人员开发了由集成机器学习工具驱动的闭环自主分子发现平台,以加速具有所需特性的分子的设计。无需手动实验即可探索化学空间并利用已知的化学结构。在两个案例研究中,该平台尝试了3000多个反应,其中1000多个产生了预测的反应产物,提出、合成并表征了303种未报道的染料样分子。该研究以《Autonom

AI助力脑机接口研究,纽约大学突破性神经语音解码技术,登Nature子刊AI助力脑机接口研究,纽约大学突破性神经语音解码技术,登Nature子刊Apr 17, 2024 am 08:40 AM

作者|陈旭鹏编辑|ScienceAI由于神经系统的缺陷导致的失语会导致严重的生活障碍,它可能会限制人们的职业和社交生活。近年来,深度学习和脑机接口(BCI)技术的飞速发展为开发能够帮助失语者沟通的神经语音假肢提供了可行性。然而,神经信号的语音解码面临挑战。近日,约旦大学VideoLab和FlinkerLab的研究者开发了一个新型的可微分语音合成器,可以利用一个轻型的卷积神经网络将语音编码为一系列可解释的语音参数(例如音高、响度、共振峰频率等),并通过可微分神经网络将这些参数合成为语音。这个合成器

Code Llama代码能力飙升,微调版HumanEval得分超越GPT-4,一天发布Code Llama代码能力飙升,微调版HumanEval得分超越GPT-4,一天发布Aug 26, 2023 pm 09:01 PM

昨天,Meta开源专攻代码生成的基础模型CodeLlama,可免费用于研究以及商用目的。CodeLlama系列模型有三个参数版本,参数量分别为7B、13B和34B。并且支持多种编程语言,包括Python、C++、Java、PHP、Typescript(Javascript)、C#和Bash。Meta提供的CodeLlama版本包括:代码Llama,基础代码模型;代码羊-Python,Python微调版本;代码Llama-Instruct,自然语言指令微调版就其效果来说,CodeLlama的不同版

手机摄影技术让以假乱真的好莱坞级电影特效视频走红手机摄影技术让以假乱真的好莱坞级电影特效视频走红Sep 07, 2023 am 09:41 AM

一个普通人用一台手机就能制作电影特效的时代已经来了。最近,一个名叫Simulon的3D技术公司发布了一系列特效视频,视频中的3D机器人与环境无缝融合,而且光影效果非常自然。呈现这些效果的APP也叫Simulon,它能让使用者通过手机摄像头的实时拍摄,直接渲染出CGI(计算机生成图像)特效,就跟打开美颜相机拍摄一样。在具体操作中,你要先上传一个3D模型(比如图中的机器人)。Simulon会将这个模型放置到你拍摄的现实世界中,并使用准确的照明、阴影和反射效果来渲染它们。整个过程不需要相机解算、HDR

准确率 >98%,基于电子密度的 GPT 用于化学研究,登 Nature 子刊准确率 >98%,基于电子密度的 GPT 用于化学研究,登 Nature 子刊Mar 27, 2024 pm 02:16 PM

编辑|紫罗可合成分子的化学空间是非常广阔的。有效地探索这个领域需要依赖计算筛选技术,比如深度学习,以便快速地发现各种有趣的化合物。将分子结构转换为数字表示形式,并开发相应算法生成新的分子结构是进行化学发现的关键。最近,英国格拉斯哥大学的研究团队提出了一种基于电子密度训练的机器学习模型,用于生成主客体binders。这种模型能够以简化分子线性输入规范(SMILES)格式读取数据,准确率高达98%,从而实现对分子在二维空间的全面描述。通过变分自编码器生成主客体系统的电子密度和静电势的三维表示,然后通

谷歌用大型模型训练机器狗理解模糊指令,激动不已准备去野餐谷歌用大型模型训练机器狗理解模糊指令,激动不已准备去野餐Jan 16, 2024 am 11:24 AM

人类和四足机器人之间简单有效的交互是创造能干的智能助理机器人的途径,其昭示着这样一个未来:技术以超乎我们想象的方式改善我们的生活。对于这样的人类-机器人交互系统,关键是让四足机器人有能力响应自然语言指令。近来大型语言模型(LLM)发展迅速,已经展现出了执行高层规划的潜力。然而,对LLM来说,理解低层指令依然很难,比如关节角度目标或电机扭矩,尤其是对于本身就不稳定、必需高频控制信号的足式机器人。因此,大多数现有工作都会假设已为LLM提供了决定机器人行为的高层API,而这就从根本上限制了系统的表现能

See all articles

Hot AI Tools

Undresser.AI Undress

Undresser.AI Undress

AI-powered app for creating realistic nude photos

AI Clothes Remover

AI Clothes Remover

Online AI tool for removing clothes from photos.

Undress AI Tool

Undress AI Tool

Undress images for free

Clothoff.io

Clothoff.io

AI clothes remover

AI Hentai Generator

AI Hentai Generator

Generate AI Hentai for free.

Hot Article

Repo: How To Revive Teammates
1 months agoBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Energy Crystals Explained and What They Do (Yellow Crystal)
2 weeks agoBy尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island Adventure: How To Get Giant Seeds
1 months agoBy尊渡假赌尊渡假赌尊渡假赌

Hot Tools

EditPlus Chinese cracked version

EditPlus Chinese cracked version

Small size, syntax highlighting, does not support code prompt function

MantisBT

MantisBT

Mantis is an easy-to-deploy web-based defect tracking tool designed to aid in product defect tracking. It requires PHP, MySQL and a web server. Check out our demo and hosting services.

Safe Exam Browser

Safe Exam Browser

Safe Exam Browser is a secure browser environment for taking online exams securely. This software turns any computer into a secure workstation. It controls access to any utility and prevents students from using unauthorized resources.

Dreamweaver CS6

Dreamweaver CS6

Visual web development tools

PhpStorm Mac version

PhpStorm Mac version

The latest (2018.2.1) professional PHP integrated development tool