完成度高すぎ！マルチモーダルディープラーニングのレビュー!-AI-php.cn

ホームページ

テクノロジー周辺機器

完成度高すぎ！マルチモーダルディープラーニングのレビュー!

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 08, 2024 am 09:10 AM

AIディープラーニングlspサブネット

1. はじめに

私たちの世界の経験はマルチモーダルです – 私たちは物を見たり、音を聞いたり、質感を感じたり、匂いを嗅いだり、味わったりします。モダリティとは、特定の状態が発生または経験される方法を指し、リサーチクエスチョンに複数のモダリティが含まれる場合、それはマルチモーダルとして特徴付けられます。 AI が私たちの周囲の世界の理解を進めるためには、これらのマルチモーダルな信号を同時に解釈できる必要があります。

たとえば、画像はタグやテキストの説明に関連付けられることが多く、テキストには記事の中心的なアイデアをより明確に表現するための画像が含まれています。モダリティが異なれば、統計的特性も大きく異なります。これらのデータはマルチモーダルビッグデータと呼ばれ、豊富なマルチモーダルおよびクロスモーダル情報が含まれており、従来のデータ融合手法に大きな課題をもたらしています。

このレビューでは、これらのマルチモーダルなビッグデータを融合するための画期的な深層学習モデルをいくつか紹介します。マルチモーダルなビッグデータの研究がますます進んでいますが、対処する必要のある課題がまだいくつかあります。したがって、この記事では、マルチモーダルデータフュージョンのためのディープラーニングのレビューを提供し、読者 (元のコミュニティに関係なく) にマルチモーダルディープラーニングフュージョン手法の基本原理を提供し、ディープラーニングへの新しいマルチモーダルアプローチを刺激することを目的としています。融合技術。

完成度高すぎ！マルチモーダルディープラーニングのレビュー!

異なるモダリティや情報タイプを組み合わせて、マルチモーダルディープラーニングを通じて効果を向上させることは、直感的に魅力的なタスクですが、実際には、異なるノイズレベルをどのように組み合わせるかが重要です。モード間の競合は課題です。さらに、モデルは予測結果に対してさまざまな定量的影響を及ぼします。実際の最も一般的なアプローチは、さまざまな入力の高レベルの埋め込みを連結してからソフトマックスを適用することです。

完成度高すぎ！マルチモーダルディープラーニングのレビュー!

このアプローチの問題は、すべてのサブネットワーク/モードに同等の重要性を与えることですが、現実の状況ではこれはありそうもないことです。の。ここでは、各入力モダリティが出力予測に対して学習寄与 (シータ) を持つことができるように、サブネットワークの重み付けされた組み合わせが必要です。

完成度高すぎ！マルチモーダルディープラーニングのレビュー!

2. 代表的なディープラーニングアーキテクチャ

このセクションでは、代表的なディープラーニングアーキテクチャを紹介します。マルチモーダルデータ融合深層学習モデル向け。具体的には、ディープアーキテクチャ、フィードフォワード計算、バックプロパゲーション計算の定義、および典型的なバリエーションが示されています。代表的な機種をまとめました。

表 1: 代表的な深層学習モデルの概要。

完成度高すぎ！マルチモーダルディープラーニングのレビュー!

2.1 ディープビリーフネットワーク (DBN)

制限付きボルツマンマシン (RBM) は、次の基本ブロックです。深い信念ネットワーク (Zhang、Ding、Zhang、および Xue、2018; Bengio、2009)。 RBM はボルツマンマシンの特別な変形であり (図 1 を参照)、可視層と非表示層で構成されます。可視層と非表示層の間には完全な接続がありますが、同じ内部のユニット間には接続がありません。層。 RBM は、エネルギー関数を使用して可視ユニットと隠れユニット間の確率分布を取得する生成モデルでもあります。エネルギー関数の導関数を使用することにより、可視ユニットと隠れユニット間のユニットの確率分布を計算できます。 RBM は、個々の要素と隠れユニット間の確率分布をキャプチャできます。 RBM では、同じレイヤー内のセル間に接続がないことを除き、セル間に接続はなく、すべてのセルが完全な接続を通じて接続されます。 RBM はまた、エネルギー関数を使用して、可視ユニットと非表示ユニット間の確率分布を計算します。 RBM の確率関数を使用すると、ユニット間の確率分布を把握できます。

最近、パフォーマンスを向上させるためにいくつかの高度な RBM が提案されています。たとえば、ネットワークの過剰適合を回避するために、Chen、Zhang、Yeung、Chen (2017) は、階層型潜在ツリーに基づいてネットワーク構造を学習するスパースボルツマンマシンを設計しました。 Ning、Pittman、Shen (2018) は、高速コントラスト発散アルゴリズムを RBM に導入しました。このアルゴリズムでは、境界ベースのフィルター処理とデルタ積を使用して、計算における冗長な内積計算を削減します。多次元データの内部構造を保護するために、Ju et al. (2019) は、多次元データに隠された高レベルの分布を学習するためのテンソル RBM を提案し、次元性の呪いを回避するためにテンソル分解が使用されます。

DBM — это типичная глубокая архитектура, состоящая из нескольких RBM (Хинтон и Салахутдинов, 2006). Это генеративная модель, основанная на стратегиях предварительного обучения и точной настройки, которая может использовать энергию для определения распределения соединений между видимыми объектами и соответствующими метками. При предварительном обучении каждый скрытый уровень жадно моделируется как RBM, обученный неконтролируемой политике. После этого каждый скрытый уровень дополнительно обучается с помощью различительной информации обучающих меток в контролируемой стратегии. DBN использовались для решения проблем во многих областях, таких как уменьшение размерности данных, обучение представлению и семантическое хеширование. Типичный DBM показан на рисунке 1.

Рисунок 1.

完成度高すぎ！マルチモーダルディープラーニングのレビュー!

#2.2 Стековый автоэнкодер (SAE)

Стековый автоэнкодер (SAE) — это типичная модель глубокого обучения архитектуры кодера-декодера (Майкл, Оливье и Марио, 2018; Венг, Лу, Тан и Чжоу, 2016). Он может фиксировать краткие характеристики входных данных путем преобразования исходных входных данных в промежуточное представление неконтролируемым-контролируемым способом. SAE широко используется во многих областях, включая уменьшение размерности (Ван, Яо и Чжао, 2016), распознавание изображений (Цзя, Шао, Ли, Чжао и Фу, 2018) и классификацию текста (Чен и Заки, 2017). На рисунке 2 показан типичный SAE.

Рисунок 2:

完成度高すぎ！マルチモーダルディープラーニングのレビュー!

##2.3 Сверточная нейронная сеть (CNN)

DBN и SAE — полносвязные нейронные сети. В обеих сетях каждый нейрон скрытого слоя связан с каждым нейроном предыдущего слоя, и такая топология создает большое количество связей. Чтобы обучить веса этих связей, полностью связанным нейронным сетям требуется большое количество обучающих объектов, чтобы избежать переобучения и недостаточного подбора, что требует больших вычислительных ресурсов. Кроме того, полносвязная топология не учитывает информацию о положении объектов, содержащуюся между нейронами. Следовательно, полносвязные глубокие нейронные сети (DBN, SAE и их варианты) не могут обрабатывать многомерные данные, особенно большие изображения и большие аудиоданные.

Сверточная нейронная сеть — это специальная глубокая сеть, которая учитывает локальную топологию данных (Li, Xia, Du, Lin, & Samat, 2017; Sze, Chen, Yang и Эмер, 2017). Сверточные нейронные сети включают в себя полностью связные сети и сети с ограничениями, содержащие сверточные слои и слои пула. Сети с ограничениями используют операции свертки и объединения для достижения локальных восприимчивых полей и уменьшения параметров. Подобно DBN и SAE, сверточные нейронные сети обучаются с помощью алгоритма стохастического градиентного спуска. Он добился большого прогресса в распознавании медицинских изображений (Maggiori, Tarabalka, Charpiat и Alliez, 2017) и семантическом анализе (Hu, Lu, Li и Chen, 2014). Репрезентативная CNN показана на рисунке 3.

Рисунок 3.

完成度高すぎ！マルチモーダルディープラーニングのレビュー!

#2.4 Рекуррентная нейронная сеть (RNN)

Рекуррентная нейронная сеть — это архитектура нейронных вычислений, которая обрабатывает последовательные данные (Martens & Sutskever, 2011; Sutskever, Martens & Hinton, 2011). В отличие от архитектур с глубоким перенаправлением (например, DBN, SAE и CNN), он не только сопоставляет входные шаблоны с выходными результатами, но также передает скрытые состояния на выходные данные, используя связи между скрытыми блоками (Graves & Schmidhuber, 2008). Используя эти скрытые связи, RNN моделируют временные зависимости, тем самым разделяя параметры между объектами во временном измерении. Он применялся в различных областях, таких как анализ речи (Mulder, Bethard & Moens, 2015), субтитров к изображениям (Xu et al., 2015) и языковой перевод (Graves & Jaitly, 2014), достигая превосходной производительности. Подобно архитектуре глубокого прямого распространения, его вычисления также включают этапы прямого прохождения и обратного распространения ошибки. При прямом вычислении RNN одновременно получает входные и скрытые состояния. При расчете обратного распространения ошибки используется временной алгоритм обратного распространения ошибки для временного шага. На рисунке 4 показан репрезентативный RNN.

Рисунок 4:

完成度高すぎ！マルチモーダルディープラーニングのレビュー!

#3. Глубокое обучение для мультимодального объединения данных

В этом разделе мы рассматриваем наиболее репрезентативные мультимодальные модели глубокого обучения слияния данных с точки зрения модельных задач, структур моделей и наборов оценочных данных. Они разделены на четыре категории в зависимости от используемой архитектуры глубокого обучения. В таблице 2 приведены типичные модели мультимодального глубокого обучения.

Таблица 2:

Краткое описание репрезентативной мультимодальной модели глубокого обучения.

###

完成度高すぎ！マルチモーダルディープラーニングのレビュー!

#3.1 Сетевое мультимодальное объединение данных с глубоким доверием

#3.1.1 Пример 1

Сривастава и Салахутдинов (2012) предложили мультимодальную генеративную модель, основанную на модели глубокого обучения Больцмана путем подгонки мультимодальных данных в различных модальностях (таких как изображения, текст и аудио) совместного распределения для изучения мультимодальных представлений.

完成度高すぎ！マルチモーダルディープラーニングのレビュー!

Каждый модуль предлагаемой мультимодальной ДБН инициализируется неконтролируемым послойным способом и использует метод аппроксимации на основе MCMC. Модельное обучение.

Для оценки изученных мультимодальных представлений выполняется большое количество задач, таких как создание задач по созданию недостающих модальностей, выведение задач о совместном представлении и различительных задач. Эксперименты проверяют, удовлетворяет ли изученное мультимодальное представление требуемым свойствам.

3.1.2 Пример 2

#Для эффективной диагностики болезни Альцгеймера на ранней стадии проведена нейровизуализация Сука, Ли, Шена и болезни Альцгеймера. Initiative (2014) предложила мультимодальную модель Больцмана, которая может объединять дополнительные знания из мультимодальных данных. В частности, чтобы устранить ограничения, вызванные методами мелкого изучения функций, DBN используется для изучения глубоких представлений каждой модальности путем перевода представлений, специфичных для предметной области, в иерархические абстрактные представления. Затем однослойный RBM строится на объединенных векторах, которые представляют собой линейные комбинации иерархических абстрактных представлений каждой модальности. Он используется для изучения мультимодальных представлений путем построения совместного распределения различных мультимодальных функций. Наконец, предложенная модель тщательно оценивается на наборе данных ADNI на основе трех типичных диагнозов, что обеспечивает высочайшую диагностическую точность.

3.1.3 Пример 3

Чтобы точно оценить позу человека, Оуян, Чу и Ван (2014) разработали глубину с несколькими источниками Изучите модель, которая изучает мультимодальные представления на основе типов смесей, показателей внешнего вида и модальностей деформации путем извлечения совместного распределения моделей тела в пространстве высокого порядка. В глубокой модели с несколькими источниками позы человека три широко используемые модальности извлекаются из моделей структуры изображения, которые объединяют различные части тела на основе теории условного случайного поля. Для получения мультимодальных данных модель графической структуры обучается с помощью линейной машины опорных векторов. Затем каждый из трех признаков вводится в двухслойную ограниченную модель Больцмана, чтобы получить абстрактное представление пространства поз высокого порядка из представления, специфичного для конкретного признака. Благодаря неконтролируемой инициализации каждая ограниченная модель Больцмана, специфичная для конкретной модальности, отражает внутреннее представление глобального пространства. Затем RBM используется для дальнейшего изучения представления позы человека на основе конкатенированных векторов типов смешивания высокого уровня, оценок внешнего вида и представлений деформации. Для обучения предлагаемой модели глубокого обучения с несколькими источниками разработана целевая функция для конкретной задачи, учитывающая как положение тела, так и обнаружение человека. Предложенная модель проверена на LSP, PARSE и UIUC и дает улучшения до 8,6%.

Недавно были предложены некоторые новые мультимодальные модели обучения функциям на основе DBN. Например, Амер, Шилдс, Сиддики и Тамракар (2018) предложили гибридный подход для последовательного обнаружения событий, в котором условный RBM использовался для извлечения модальных и кросс-модальных признаков с дополнительной информацией о различительных метках. Аль-Вайси, Кахваджи, Ипсон и Аль-Фахдави (2018) представили мультимодальный подход к распознаванию лиц. В этом подходе модель на основе DBN используется для моделирования мультимодального распределения локальных объектов, созданных вручную, полученных с помощью преобразования Curvelet, которое может объединить преимущества локальных объектов и глубоких объектов (Al-Waisy et al., 2018).

3.1.4 Резюме

Эти мультимодальные модели на основе DBN используют вероятностные графовые сети для преобразования представлений, специфичных для модальности, в общие семантические функции в пространстве . Затем совместное распределение модальностей моделируется на основе характеристик общего пространства. Эти мультимодальные модели на основе DBN являются более гибкими и надежными в стратегиях обучения без учителя, с полуконтролем и с учителем. Они идеально подходят для сбора информативных характеристик входных данных. Однако они игнорируют пространственную и временную топологию мультимодальных данных.

3.2 Мультимодальное объединение данных на основе составных автоэнкодеров

3.2.1 Пример 4

Ngiam et al Мультимодальный глубокое обучение, предложенное (2011), является наиболее репрезентативной моделью глубокого обучения для мультимодального объединения данных на основе многослойных автокодировщиков (SAE). Эта модель глубокого обучения направлена на решение двух проблем объединения данных: обучение кросс-модальному и совместно-модальному представлению. Первый направлен на использование знаний из других модальностей для получения лучших одномодальных представлений, а второй изучает сложные корреляции между модальностями на промежуточном уровне. Для достижения этих целей разработаны три сценария обучения — мультимодальное, кросс-модальное и совместно-модальное обучение, как показано в Таблице 3 и Рисунке 6.

Рис. 6.

完成度高すぎ！マルチモーダルディープラーニングのレビュー!

## Архитектура для мультимодального, кросс-модального и совместно-модального обучения.

Таблица 3: Настройки для мультимодального обучения.

完成度高すぎ！マルチモーダルディープラーニングのレビュー!

##В сценариях мультимодального обучения аудиоспектрограммы и видеокадры соединяются в векторы линейным образом. Объединенные векторы подаются в разреженную ограниченную машину Больцмана (SRBM) для изучения корреляции между аудио и видео. Эта модель может изучать только теневые совместные представления нескольких модальностей, поскольку корреляции неявны в многомерном представлении исходного уровня, и однослойный SRBM не может их моделировать. Вдохновленные этим, объединенные векторы представлений среднего уровня вводятся в SRBM для моделирования корреляции нескольких модальностей, тем самым демонстрируя лучшую производительность.

В сценарии кросс-модального обучения предлагается многомодальный автокодировщик с глубоким стеком для явного изучения корреляции между модальностями. В частности, как аудио, так и видео представлены в качестве входных данных при обучении функций, и только один из них используется в модели при контролируемом обучении и тестировании. Модель инициализируется методом мультимодального обучения и может хорошо моделировать кросс-модальные отношения.

##########) В общем модальном представлении, мотивированном шумоподавлением автокодировщиков, вводятся мультимодальные автокодеры с глубоким стеком, специфичные для модальности, для изучения взаимосвязи между модальностями совместного представления, особенно когда одна модальность отсутствует. Набор обучающих данных, увеличенный за счет замены одной из модальностей на ноль, вводится в модель для обучения функциям. ############Наконец, подробные эксперименты проводятся с наборами данных CUAVE и AVLetters для оценки эффективности мультимодального глубокого обучения при обучении функций для конкретных задач. ############3.2.2 Пример 5 ############Чтобы генерировать визуально и семантически достоверные человеческие скелеты из последовательности изображений (особенно видео), Hong Ю, Ван, Тао и Ван (2015) предложили мультимодальный глубокий автокодировщик для фиксации взаимосвязей между изображениями и позами. В частности, предлагаемый мультимодальный глубокий автокодировщик обучается с помощью трехэтапной стратегии для построения нелинейного сопоставления между 2D-изображениями и 3D-позами. На этапе объединения функций низкоранговое представление многовидового гиперграфа используется для построения внутреннего 2D-представления из ряда функций изображения (таких как гистограммы ориентированного градиента и контекст формы) на основе многообразного обучения. На втором этапе однослойный автокодировщик обучается изучению абстрактного представления, которое используется для восстановления трехмерной позы путем реконструкции особенностей двухмерных промежуточных изображений. Между тем, однослойный автокодировщик аналогичным образом обучается изучению абстрактных представлений трехмерных поз. После получения абстрактного представления каждой отдельной модальности нейронная сеть используется для изучения мультимодальной корреляции между 2D-изображениями и 3D-позами путем минимизации квадрата евклидова расстояния между двумя модальными взаимными представлениями. Обучение предлагаемого мультимодального глубокого автоэнкодера состоит из этапов инициализации и тонкой настройки. При инициализации параметры каждой подчасти многомодального глубокого автокодировщика копируются из соответствующего автокодировщика и нейронной сети. Затем параметры всей модели дополнительно настраиваются с помощью алгоритма стохастического градиентного спуска для построения трехмерной позы из соответствующего двумерного изображения. ############3.2.3 Резюме ############Мультимодальная модель, основанная на SAE, использует архитектуру кодера-декодера и реконструирует ее неконтролируемым способом. Метод извлекает внутренние модальные характеристики и кросс-модальные характеристики. Поскольку они основаны на SAE, которая представляет собой полностью связанную модель, необходимо обучить многие параметры. Более того, они игнорируют пространственную и временную топологию мультимодальных данных. ######

3.3 Мультимодальное объединение данных на основе сверточной нейронной сети

3.3.1 Пример 6

В целях моделирования изображений и распределения семантического отображения между предложениями Ма, Лу, Шан и Ли (2015) предложили мультимодальную сверточную нейронную сеть. Чтобы полностью уловить семантическую релевантность, в сквозной архитектуре разработана трехуровневая стратегия объединения — уровень слова, уровень сцены и уровень предложения. Архитектура состоит из подсети обработки изображений, соответствующей подсети и мультимодальной подсети. Подсеть изображений представляет собой репрезентативную глубокую сверточную нейронную сеть, такую как Alexnet и Inception, которая эффективно кодирует входные изображения в краткие представления. Соответствующая подсеть моделирует совместные представления, которые связывают содержимое изображения с фрагментами слов предложений в семантическом пространстве.

3.3.2 Пример 7

Чтобы расширить систему визуального распознавания на неограниченное количество дискретных категорий, Фром и др. (2013) Предлагается мультимодальная сверточная нейронная сеть для обработки семантической информации в текстовых данных. Сеть состоит из языковой подмодели и визуальной подмодели. Подмодель языка основана на модели пропуска грамм, которая может переводить текстовую информацию в плотное представление семантического пространства. Визуальная подмодель представляет собой репрезентативную сверточную нейронную сеть, такую как Alexnet, которая предварительно обучена на наборе данных ImageNet класса 1000 для захвата визуальных функций. Для моделирования семантических отношений между изображениями и текстом языковые и визуальные подмодели объединяются с помощью слоев линейной проекции. Каждая подмодель инициализируется параметрами для каждой модальности. После этого для обучения этой визуально-семантической мультимодальной модели предлагается новая функция потерь, которая может обеспечить высокие оценки сходства для правильных пар изображений и меток путем объединения сходства скалярного произведения и потери ранга шарнира. Модель обеспечивает высочайшую производительность в наборе данных ImageNet, избегая семантически неправдоподобных результатов.

3.3.3 Резюме

Мультимодальные модели на основе CNN могут изучать взаимосвязи между модальностями через локальные поля и операции объединения. Они явно моделируют пространственную топологию мультимодальных данных. И это не полноценные модели со значительно уменьшенным количеством параметров.

3.4 Мультимодальное объединение данных на основе рекуррентной нейронной сети

3.4.1 Пример 8

Для создания подписей к изображениям Мао и др. (2014) предложили мультимодальную рекуррентную нейронную архитектуру. Эта мультимодальная рекуррентная нейронная сеть может соединять вероятностные корреляции между изображениями и предложениями. Он устраняет ограничение предыдущих работ, которые не могут генерировать новые подписи к изображениям, поскольку они извлекают соответствующие подписи в базе данных предложений на основе изученных сопоставлений изображения и текста. В отличие от предыдущей работы, мультимодальные рекуррентные нейронные модели (MRNN) изучают совместные распределения в семантическом пространстве по заданным словам и изображениям. Когда изображение представлено, оно дословно генерирует предложения на основе захваченного совместного распределения. В частности, мультимодальная рекуррентная нейронная сеть состоит из языковой подсети, визуальной подсети и мультимодальной подсети, как показано на рисунке 7. Языковая подсеть состоит из двухслойной части встраивания слов, которая фиксирует эффективные представления для конкретных задач, и однослойной рекуррентной нейронной части, которая моделирует временную зависимость предложений. Подсеть Vision — это, по сути, глубокая сверточная нейронная сеть, такая как Alexnet, Resnet или Inception, которая кодирует многомерные изображения в компактные представления. Наконец, мультимодальная подсеть представляет собой скрытую сеть, которая моделирует совместное семантическое распределение изученного языка и визуальных представлений.

Рисунок 7:

完成度高すぎ！マルチモーダルディープラーニングのレビュー!

##3.4.2 Пример 9

Чтобы устранить ограничения существующих систем визуального распознавания, которые не могут с первого взгляда генерировать подробные описания изображений, предлагается модель мультимодального выравнивания, соединяющая интермодальные отношения между визуальными и текстовыми данными (Karpathy & Li, 2017). Для этого была предложена двойная схема. Во-первых, модель визуального семантического внедрения предназначена для создания мультимодальных наборов обучающих данных. Затем на этом наборе данных мультимодальная RNN обучается для создания подробных описаний изображений.

В модели визуального семантического внедрения региональные сверточные нейронные сети используются для получения богатых представлений изображений, содержащих достаточную информацию для контента, соответствующего предложениям. Затем двунаправленная RNN используется для кодирования каждого предложения в плотный вектор с теми же размерами, что и представление изображения. Кроме того, представлена мультимодальная функция оценки для измерения семантического сходства между изображениями и предложениями. Наконец, метод случайного поля Маркова используется для генерации мультимодальных наборов данных.

###

В мультимодальной RNN предлагается более эффективная расширенная модель, основанная на вводе текстового контента и изображений. Мультимодальная модель состоит из сверточной нейронной сети, которая кодирует входные изображения, и RNN, которая кодирует функции и предложения изображений. Модель также обучается с помощью алгоритма стохастического градиентного спуска. Обе мультимодальные модели тщательно оцениваются в наборах данных Flickr и Mscoco и демонстрируют самые современные характеристики.

3.4.3 Резюме

Мультимодальная модель на основе RNN может анализировать скрытое состояние с помощью явной передачи состояния в скрытом расчет единиц Временная зависимость в мультимодальных данных. Они используют алгоритм временного обратного распространения ошибки для обучения параметров. Поскольку вычисления выполняются скрытой передачей состояний, их распараллеливание на высокопроизводительных устройствах затруднительно.

#4. Резюме и перспективы

Мы суммируем модель в четыре набора мультимодальной глубины данных на основе DBN, SAE, CNN и Модель обучения RNN. Эти новаторские модели уже привели к некоторому прогрессу. Однако эти модели все еще находятся на предварительной стадии, поэтому проблемы остаются.

Прежде всего, в модели глубокого обучения мультимодального слияния данных имеется большое количество свободных весов, особенно избыточных параметров, которые мало влияют на целевую задачу. Чтобы обучить эти параметры, которые отражают характерную структуру данных, большой объем данных вводится в модель глубокого обучения мультимодального объединения данных, основанную на алгоритме обратного распространения ошибки, который требует больших вычислительных ресурсов и отнимает много времени. Поэтому разработка новых мультимодальных методов сжатия глубокого обучения в сочетании с существующими стратегиями сжатия также является потенциальным направлением исследований.

Во-вторых, мультимодальные данные не только содержат кросс-модальную информацию, но также содержат богатую кросс-модальную информацию. Таким образом, сочетание стратегий глубокого обучения и семантического слияния может стать способом решения проблем, возникающих при исследовании мультимодальных данных.

В-третьих, мультимодальные данные собираются из динамических сред, что указывает на то, что данные неточны. Таким образом, в условиях взрывного роста динамических мультимодальных данных необходимо решить проблему проектирования онлайновых и инкрементных мультимодальных моделей глубокого обучения для объединения данных.

以上が完成度高すぎ！マルチモーダルディープラーニングのレビュー!の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

AI内部展開の隠された危険：ガバナンスのギャップと壊滅的なリスクApr 28, 2025 am 11:12 AM

Apollo Researchの新しいレポートによると、高度なAIシステムの未確認の内部展開は、重大なリスクをもたらします。主要なAI企業の間で一般的なこの監視の欠如は、Uncontに及ぶ潜在的な壊滅的な結果を可能にします

AIポリグラフの構築Apr 28, 2025 am 11:11 AM

従来の嘘検出器は時代遅れです。リストバンドで接続されたポインターに依存すると、被験者のバイタルサインと身体的反応を印刷する嘘発見器は、嘘を識別するのに正確ではありません。これが、嘘の検出結果が通常裁判所で採用されない理由ですが、多くの罪のない人々が投獄されています。対照的に、人工知能は強力なデータエンジンであり、その実用的な原則はすべての側面を観察することです。これは、科学者がさまざまな方法で真実を求めるアプリケーションに人工知能を適用できることを意味します。 1つのアプローチは、嘘発見器のように尋問されている人の重要な符号応答を分析することですが、より詳細かつ正確な比較分析を行います。別のアプローチは、言語マークアップを使用して、人々が実際に言うことを分析し、論理と推論を使用することです。ことわざにあるように、ある嘘は別の嘘を繁殖させ、最終的に

AIは航空宇宙産業の離陸のためにクリアされていますか？Apr 28, 2025 am 11:10 AM

イノベーションの先駆者である航空宇宙産業は、AIを活用して、最も複雑な課題に取り組んでいます。近代的な航空の複雑さの増加は、AIの自動化とリアルタイムのインテリジェンス機能を必要とします。

北京の春のロボットレースを見ていますApr 28, 2025 am 11:09 AM

ロボット工学の急速な発展により、私たちは魅力的なケーススタディをもたらしました。 NoetixのN2ロボットの重量は40ポンドを超えており、高さは3フィートで、逆流できると言われています。 UnitreeのG1ロボットの重量は、N2のサイズの約2倍で、高さは約4フィートです。また、競争に参加している多くの小さなヒューマノイドロボットがあり、ファンによって前進するロボットさえあります。データ解釈ハーフマラソンは12,000人以上の観客を惹きつけましたが、21人のヒューマノイドロボットのみが参加しました。政府は、参加しているロボットが競争前に「集中トレーニング」を実施したと指摘したが、すべてのロボットが競争全体を完了したわけではない。チャンピオン - 北京ヒューマノイドロボットイノベーションセンターによって開発されたティアンゴニ

ミラートラップ：AI倫理と人間の想像力の崩壊Apr 28, 2025 am 11:08 AM

人工知能は、現在の形式では、真にインテリジェントではありません。既存のデータを模倣して洗練するのに熟達しています。私たちは人工知能を作成するのではなく、人工的な推論を作成しています。情報を処理するマシン、人間は

新しいGoogleリークは、便利なGoogle写真機能の更新を明らかにしますApr 28, 2025 am 11:07 AM

レポートでは、更新されたインターフェイスがGoogle Photos Androidバージョン7.26のコードに隠されていることがわかり、写真を見るたびに、新しく検出された顔のサムネイルの行が画面の下部に表示されます。新しいフェイシャルサムネイルには名前タグが欠落しているため、検出された各人に関する詳細情報を見るには、個別にクリックする必要があると思います。今のところ、この機能は、Googleフォトが画像で見つけた人々以外の情報を提供しません。この機能はまだ利用できないため、Googleが正確にどのように使用するかはわかりません。 Googleはサムネイルを使用して、選択した人のより多くの写真を見つけるためにスピードアップしたり、編集して個人を選択するなど、他の目的に使用することもできます。待って見てみましょう。今のところ

補強能力のガイド - 分析VidhyaApr 28, 2025 am 09:30 AM

補強能力は、人間のフィードバックに基づいて調整するためにモデルを教えることにより、AI開発を揺さぶりました。それは、監督された学習基盤と報酬ベースの更新をブレンドして、より安全で、より正確に、そして本当に助けます

踊りましょう：私たちの人間のニューラルネットを微調整するための構造化された動きApr 27, 2025 am 11:09 AM

科学者は、彼らの機能を理解するために、人間とより単純なニューラルネットワーク（C. elegansのものと同様）を広く研究してきました。ただし、重要な疑問が生じます。新しいAIと一緒に効果的に作業するために独自のニューラルネットワークをどのように適応させるのか

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

VSCode Windows 64 ビットのダウンロード

Microsoft によって発売された無料で強力な IDE エディター

SublimeText3 英語版

推奨: Win バージョン、コードプロンプトをサポート!

DVWA

Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、

SublimeText3 中国語版

中国語版、とても使いやすい

SecLists

SecLists は、セキュリティテスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティテスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティテストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジングペイロード、機密データパターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテストマシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。