ホームページ > 記事 > テクノロジー周辺機器 > 完成度高すぎ!マルチモーダルディープラーニングのレビュー!
私たちの世界の経験はマルチモーダルです – 私たちは物を見たり、音を聞いたり、質感を感じたり、匂いを嗅いだり、味わったりします。モダリティとは、特定の状態が発生または経験される方法を指し、リサーチクエスチョンに複数のモダリティが含まれる場合、それはマルチモーダルとして特徴付けられます。 AI が私たちの周囲の世界の理解を進めるためには、これらのマルチモーダルな信号を同時に解釈できる必要があります。
たとえば、画像はタグやテキストの説明に関連付けられることが多く、テキストには記事の中心的なアイデアをより明確に表現するための画像が含まれています。モダリティが異なれば、統計的特性も大きく異なります。これらのデータはマルチモーダル ビッグ データと呼ばれ、豊富なマルチモーダルおよびクロスモーダル情報が含まれており、従来のデータ融合手法に大きな課題をもたらしています。
このレビューでは、これらのマルチモーダルなビッグデータを融合するための画期的な深層学習モデルをいくつか紹介します。マルチモーダルなビッグデータの研究がますます進んでいますが、対処する必要のある課題がまだいくつかあります。したがって、この記事 では、マルチモーダル データ フュージョンのためのディープ ラーニングのレビューを提供し、読者 (元のコミュニティに関係なく) にマルチモーダル ディープ ラーニング フュージョン手法の基本原理を提供し、ディープ ラーニングへの新しいマルチモーダル アプローチを刺激することを目的としています。融合技術。
異なるモダリティや情報タイプを組み合わせて、マルチモーダルディープラーニングを通じて効果を向上させることは、直感的に魅力的なタスクですが、実際には、異なるノイズレベルをどのように組み合わせるかが重要です。モード間の競合は課題です。さらに、モデルは予測結果に対してさまざまな定量的影響を及ぼします。実際の最も一般的なアプローチは、さまざまな入力の高レベルの埋め込みを連結してからソフトマックスを適用することです。この アプローチの問題は、すべてのサブネットワーク/モードに同等の重要性を与えることですが、現実の状況ではこれはありそうもないことです。の。ここでは、各入力モダリティが出力予測に対して学習寄与 (シータ) を持つことができるように、サブネットワークの重み付けされた組み合わせが必要です。
2. 代表的なディープラーニング アーキテクチャ表 1: 代表的な深層学習モデルの概要。
2.1 ディープ ビリーフ ネットワーク (DBN)
最近、パフォーマンスを向上させるためにいくつかの高度な RBM が提案されています。たとえば、ネットワークの過剰適合を回避するために、Chen、Zhang、Yeung、Chen (2017) は、階層型潜在ツリーに基づいてネットワーク構造を学習するスパース ボルツマン マシンを設計しました。 Ning、Pittman、Shen (2018) は、高速コントラスト発散アルゴリズムを RBM に導入しました。このアルゴリズムでは、境界ベースのフィルター処理とデルタ積を使用して、計算における冗長な内積計算を削減します。多次元データの内部構造を保護するために、Ju et al. (2019) は、多次元データに隠された高レベルの分布を学習するためのテンソル RBM を提案し、次元性の呪いを回避するためにテンソル分解が使用されます。
DBM — это типичная глубокая архитектура, состоящая из нескольких RBM (Хинтон и Салахутдинов, 2006). Это генеративная модель, основанная на стратегиях предварительного обучения и точной настройки, которая может использовать энергию для определения распределения соединений между видимыми объектами и соответствующими метками. При предварительном обучении каждый скрытый уровень жадно моделируется как RBM, обученный неконтролируемой политике. После этого каждый скрытый уровень дополнительно обучается с помощью различительной информации обучающих меток в контролируемой стратегии. DBN использовались для решения проблем во многих областях, таких как уменьшение размерности данных, обучение представлению и семантическое хеширование. Типичный DBM показан на рисунке 1. Рисунок 1. Рисунок 2:
DBN и SAE — полносвязные нейронные сети. В обеих сетях каждый нейрон скрытого слоя связан с каждым нейроном предыдущего слоя, и такая топология создает большое количество связей. Чтобы обучить веса этих связей, полностью связанным нейронным сетям требуется большое количество обучающих объектов, чтобы избежать переобучения и недостаточного подбора, что требует больших вычислительных ресурсов. Кроме того, полносвязная топология не учитывает информацию о положении объектов, содержащуюся между нейронами. Следовательно, полносвязные глубокие нейронные сети (DBN, SAE и их варианты) не могут обрабатывать многомерные данные, особенно большие изображения и большие аудиоданные. Сверточная нейронная сеть — это специальная глубокая сеть, которая учитывает локальную топологию данных (Li, Xia, Du, Lin, & Samat, 2017; Sze, Chen, Yang и Эмер, 2017). Сверточные нейронные сети включают в себя полностью связные сети и сети с ограничениями, содержащие сверточные слои и слои пула. Сети с ограничениями используют операции свертки и объединения для достижения локальных восприимчивых полей и уменьшения параметров. Подобно DBN и SAE, сверточные нейронные сети обучаются с помощью алгоритма стохастического градиентного спуска. Он добился большого прогресса в распознавании медицинских изображений (Maggiori, Tarabalka, Charpiat и Alliez, 2017) и семантическом анализе (Hu, Lu, Li и Chen, 2014). Репрезентативная CNN показана на рисунке 3. Рисунок 3. Рекуррентная нейронная сеть — это архитектура нейронных вычислений, которая обрабатывает последовательные данные (Martens & Sutskever, 2011; Sutskever, Martens & Hinton, 2011). В отличие от архитектур с глубоким перенаправлением (например, DBN, SAE и CNN), он не только сопоставляет входные шаблоны с выходными результатами, но также передает скрытые состояния на выходные данные, используя связи между скрытыми блоками (Graves & Schmidhuber, 2008). Используя эти скрытые связи, RNN моделируют временные зависимости, тем самым разделяя параметры между объектами во временном измерении. Он применялся в различных областях, таких как анализ речи (Mulder, Bethard & Moens, 2015), субтитров к изображениям (Xu et al., 2015) и языковой перевод (Graves & Jaitly, 2014), достигая превосходной производительности. Подобно архитектуре глубокого прямого распространения, его вычисления также включают этапы прямого прохождения и обратного распространения ошибки. При прямом вычислении RNN одновременно получает входные и скрытые состояния. При расчете обратного распространения ошибки используется временной алгоритм обратного распространения ошибки для временного шага. На рисунке 4 показан репрезентативный RNN. Рисунок 4: В этом разделе мы рассматриваем наиболее репрезентативные мультимодальные модели глубокого обучения слияния данных с точки зрения модельных задач, структур моделей и наборов оценочных данных. Они разделены на четыре категории в зависимости от используемой архитектуры глубокого обучения. В таблице 2 приведены типичные модели мультимодального глубокого обучения. Таблица 2: Краткое описание репрезентативной мультимодальной модели глубокого обучения. Сривастава и Салахутдинов (2012) предложили мультимодальную генеративную модель, основанную на модели глубокого обучения Больцмана путем подгонки мультимодальных данных в различных модальностях (таких как изображения, текст и аудио) совместного распределения для изучения мультимодальных представлений. Каждый модуль предлагаемой мультимодальной ДБН инициализируется неконтролируемым послойным способом и использует метод аппроксимации на основе MCMC. Модельное обучение. Для оценки изученных мультимодальных представлений выполняется большое количество задач, таких как создание задач по созданию недостающих модальностей, выведение задач о совместном представлении и различительных задач. Эксперименты проверяют, удовлетворяет ли изученное мультимодальное представление требуемым свойствам. #Для эффективной диагностики болезни Альцгеймера на ранней стадии проведена нейровизуализация Сука, Ли, Шена и болезни Альцгеймера. Initiative (2014) предложила мультимодальную модель Больцмана, которая может объединять дополнительные знания из мультимодальных данных. В частности, чтобы устранить ограничения, вызванные методами мелкого изучения функций, DBN используется для изучения глубоких представлений каждой модальности путем перевода представлений, специфичных для предметной области, в иерархические абстрактные представления. Затем однослойный RBM строится на объединенных векторах, которые представляют собой линейные комбинации иерархических абстрактных представлений каждой модальности. Он используется для изучения мультимодальных представлений путем построения совместного распределения различных мультимодальных функций. Наконец, предложенная модель тщательно оценивается на наборе данных ADNI на основе трех типичных диагнозов, что обеспечивает высочайшую диагностическую точность. Чтобы точно оценить позу человека, Оуян, Чу и Ван (2014) разработали глубину с несколькими источниками Изучите модель, которая изучает мультимодальные представления на основе типов смесей, показателей внешнего вида и модальностей деформации путем извлечения совместного распределения моделей тела в пространстве высокого порядка. В глубокой модели с несколькими источниками позы человека три широко используемые модальности извлекаются из моделей структуры изображения, которые объединяют различные части тела на основе теории условного случайного поля. Для получения мультимодальных данных модель графической структуры обучается с помощью линейной машины опорных векторов. Затем каждый из трех признаков вводится в двухслойную ограниченную модель Больцмана, чтобы получить абстрактное представление пространства поз высокого порядка из представления, специфичного для конкретного признака. Благодаря неконтролируемой инициализации каждая ограниченная модель Больцмана, специфичная для конкретной модальности, отражает внутреннее представление глобального пространства. Затем RBM используется для дальнейшего изучения представления позы человека на основе конкатенированных векторов типов смешивания высокого уровня, оценок внешнего вида и представлений деформации. Для обучения предлагаемой модели глубокого обучения с несколькими источниками разработана целевая функция для конкретной задачи, учитывающая как положение тела, так и обнаружение человека. Предложенная модель проверена на LSP, PARSE и UIUC и дает улучшения до 8,6%. Недавно были предложены некоторые новые мультимодальные модели обучения функциям на основе DBN. Например, Амер, Шилдс, Сиддики и Тамракар (2018) предложили гибридный подход для последовательного обнаружения событий, в котором условный RBM использовался для извлечения модальных и кросс-модальных признаков с дополнительной информацией о различительных метках. Аль-Вайси, Кахваджи, Ипсон и Аль-Фахдави (2018) представили мультимодальный подход к распознаванию лиц. В этом подходе модель на основе DBN используется для моделирования мультимодального распределения локальных объектов, созданных вручную, полученных с помощью преобразования Curvelet, которое может объединить преимущества локальных объектов и глубоких объектов (Al-Waisy et al., 2018). Эти мультимодальные модели на основе DBN используют вероятностные графовые сети для преобразования представлений, специфичных для модальности, в общие семантические функции в пространстве . Затем совместное распределение модальностей моделируется на основе характеристик общего пространства. Эти мультимодальные модели на основе DBN являются более гибкими и надежными в стратегиях обучения без учителя, с полуконтролем и с учителем. Они идеально подходят для сбора информативных характеристик входных данных. Однако они игнорируют пространственную и временную топологию мультимодальных данных. Ngiam et al Мультимодальный глубокое обучение, предложенное (2011), является наиболее репрезентативной моделью глубокого обучения для мультимодального объединения данных на основе многослойных автокодировщиков (SAE). Эта модель глубокого обучения направлена на решение двух проблем объединения данных: обучение кросс-модальному и совместно-модальному представлению. Первый направлен на использование знаний из других модальностей для получения лучших одномодальных представлений, а второй изучает сложные корреляции между модальностями на промежуточном уровне. Для достижения этих целей разработаны три сценария обучения — мультимодальное, кросс-модальное и совместно-модальное обучение, как показано в Таблице 3 и Рисунке 6. Рис. 6. ## Архитектура для мультимодального, кросс-модального и совместно-модального обучения. Таблица 3: Настройки для мультимодального обучения.
##В сценариях мультимодального обучения аудиоспектрограммы и видеокадры соединяются в векторы линейным образом. Объединенные векторы подаются в разреженную ограниченную машину Больцмана (SRBM) для изучения корреляции между аудио и видео. Эта модель может изучать только теневые совместные представления нескольких модальностей, поскольку корреляции неявны в многомерном представлении исходного уровня, и однослойный SRBM не может их моделировать. Вдохновленные этим, объединенные векторы представлений среднего уровня вводятся в SRBM для моделирования корреляции нескольких модальностей, тем самым демонстрируя лучшую производительность. В сценарии кросс-модального обучения предлагается многомодальный автокодировщик с глубоким стеком для явного изучения корреляции между модальностями. В частности, как аудио, так и видео представлены в качестве входных данных при обучении функций, и только один из них используется в модели при контролируемом обучении и тестировании. Модель инициализируется методом мультимодального обучения и может хорошо моделировать кросс-модальные отношения.
##########) В общем модальном представлении, мотивированном шумоподавлением автокодировщиков, вводятся мультимодальные автокодеры с глубоким стеком, специфичные для модальности, для изучения взаимосвязи между модальностями совместного представления, особенно когда одна модальность отсутствует. Набор обучающих данных, увеличенный за счет замены одной из модальностей на ноль, вводится в модель для обучения функциям. ############Наконец, подробные эксперименты проводятся с наборами данных CUAVE и AVLetters для оценки эффективности мультимодального глубокого обучения при обучении функций для конкретных задач. ############3.2.2 Пример 5 ############Чтобы генерировать визуально и семантически достоверные человеческие скелеты из последовательности изображений (особенно видео), Hong Ю, Ван, Тао и Ван (2015) предложили мультимодальный глубокий автокодировщик для фиксации взаимосвязей между изображениями и позами. В частности, предлагаемый мультимодальный глубокий автокодировщик обучается с помощью трехэтапной стратегии для построения нелинейного сопоставления между 2D-изображениями и 3D-позами. На этапе объединения функций низкоранговое представление многовидового гиперграфа используется для построения внутреннего 2D-представления из ряда функций изображения (таких как гистограммы ориентированного градиента и контекст формы) на основе многообразного обучения. На втором этапе однослойный автокодировщик обучается изучению абстрактного представления, которое используется для восстановления трехмерной позы путем реконструкции особенностей двухмерных промежуточных изображений. Между тем, однослойный автокодировщик аналогичным образом обучается изучению абстрактных представлений трехмерных поз. После получения абстрактного представления каждой отдельной модальности нейронная сеть используется для изучения мультимодальной корреляции между 2D-изображениями и 3D-позами путем минимизации квадрата евклидова расстояния между двумя модальными взаимными представлениями. Обучение предлагаемого мультимодального глубокого автоэнкодера состоит из этапов инициализации и тонкой настройки. При инициализации параметры каждой подчасти многомодального глубокого автокодировщика копируются из соответствующего автокодировщика и нейронной сети. Затем параметры всей модели дополнительно настраиваются с помощью алгоритма стохастического градиентного спуска для построения трехмерной позы из соответствующего двумерного изображения. ############3.2.3 Резюме ############Мультимодальная модель, основанная на SAE, использует архитектуру кодера-декодера и реконструирует ее неконтролируемым способом. Метод извлекает внутренние модальные характеристики и кросс-модальные характеристики. Поскольку они основаны на SAE, которая представляет собой полностью связанную модель, необходимо обучить многие параметры. Более того, они игнорируют пространственную и временную топологию мультимодальных данных. ###### В целях моделирования изображений и распределения семантического отображения между предложениями Ма, Лу, Шан и Ли (2015) предложили мультимодальную сверточную нейронную сеть. Чтобы полностью уловить семантическую релевантность, в сквозной архитектуре разработана трехуровневая стратегия объединения — уровень слова, уровень сцены и уровень предложения. Архитектура состоит из подсети обработки изображений, соответствующей подсети и мультимодальной подсети. Подсеть изображений представляет собой репрезентативную глубокую сверточную нейронную сеть, такую как Alexnet и Inception, которая эффективно кодирует входные изображения в краткие представления. Соответствующая подсеть моделирует совместные представления, которые связывают содержимое изображения с фрагментами слов предложений в семантическом пространстве. Чтобы расширить систему визуального распознавания на неограниченное количество дискретных категорий, Фром и др. (2013) Предлагается мультимодальная сверточная нейронная сеть для обработки семантической информации в текстовых данных. Сеть состоит из языковой подмодели и визуальной подмодели. Подмодель языка основана на модели пропуска грамм, которая может переводить текстовую информацию в плотное представление семантического пространства. Визуальная подмодель представляет собой репрезентативную сверточную нейронную сеть, такую как Alexnet, которая предварительно обучена на наборе данных ImageNet класса 1000 для захвата визуальных функций. Для моделирования семантических отношений между изображениями и текстом языковые и визуальные подмодели объединяются с помощью слоев линейной проекции. Каждая подмодель инициализируется параметрами для каждой модальности. После этого для обучения этой визуально-семантической мультимодальной модели предлагается новая функция потерь, которая может обеспечить высокие оценки сходства для правильных пар изображений и меток путем объединения сходства скалярного произведения и потери ранга шарнира. Модель обеспечивает высочайшую производительность в наборе данных ImageNet, избегая семантически неправдоподобных результатов. Мультимодальные модели на основе CNN могут изучать взаимосвязи между модальностями через локальные поля и операции объединения. Они явно моделируют пространственную топологию мультимодальных данных. И это не полноценные модели со значительно уменьшенным количеством параметров. Для создания подписей к изображениям Мао и др. (2014) предложили мультимодальную рекуррентную нейронную архитектуру. Эта мультимодальная рекуррентная нейронная сеть может соединять вероятностные корреляции между изображениями и предложениями. Он устраняет ограничение предыдущих работ, которые не могут генерировать новые подписи к изображениям, поскольку они извлекают соответствующие подписи в базе данных предложений на основе изученных сопоставлений изображения и текста. В отличие от предыдущей работы, мультимодальные рекуррентные нейронные модели (MRNN) изучают совместные распределения в семантическом пространстве по заданным словам и изображениям. Когда изображение представлено, оно дословно генерирует предложения на основе захваченного совместного распределения. В частности, мультимодальная рекуррентная нейронная сеть состоит из языковой подсети, визуальной подсети и мультимодальной подсети, как показано на рисунке 7. Языковая подсеть состоит из двухслойной части встраивания слов, которая фиксирует эффективные представления для конкретных задач, и однослойной рекуррентной нейронной части, которая моделирует временную зависимость предложений. Подсеть Vision — это, по сути, глубокая сверточная нейронная сеть, такая как Alexnet, Resnet или Inception, которая кодирует многомерные изображения в компактные представления. Наконец, мультимодальная подсеть представляет собой скрытую сеть, которая моделирует совместное семантическое распределение изученного языка и визуальных представлений. Рисунок 7:
Чтобы устранить ограничения существующих систем визуального распознавания, которые не могут с первого взгляда генерировать подробные описания изображений, предлагается модель мультимодального выравнивания, соединяющая интермодальные отношения между визуальными и текстовыми данными (Karpathy & Li, 2017). Для этого была предложена двойная схема. Во-первых, модель визуального семантического внедрения предназначена для создания мультимодальных наборов обучающих данных. Затем на этом наборе данных мультимодальная RNN обучается для создания подробных описаний изображений. В модели визуального семантического внедрения региональные сверточные нейронные сети используются для получения богатых представлений изображений, содержащих достаточную информацию для контента, соответствующего предложениям. Затем двунаправленная RNN используется для кодирования каждого предложения в плотный вектор с теми же размерами, что и представление изображения. Кроме того, представлена мультимодальная функция оценки для измерения семантического сходства между изображениями и предложениями. Наконец, метод случайного поля Маркова используется для генерации мультимодальных наборов данных. В мультимодальной RNN предлагается более эффективная расширенная модель, основанная на вводе текстового контента и изображений. Мультимодальная модель состоит из сверточной нейронной сети, которая кодирует входные изображения, и RNN, которая кодирует функции и предложения изображений. Модель также обучается с помощью алгоритма стохастического градиентного спуска. Обе мультимодальные модели тщательно оцениваются в наборах данных Flickr и Mscoco и демонстрируют самые современные характеристики. Мультимодальная модель на основе RNN может анализировать скрытое состояние с помощью явной передачи состояния в скрытом расчет единиц Временная зависимость в мультимодальных данных. Они используют алгоритм временного обратного распространения ошибки для обучения параметров. Поскольку вычисления выполняются скрытой передачей состояний, их распараллеливание на высокопроизводительных устройствах затруднительно. Мы суммируем модель в четыре набора мультимодальной глубины данных на основе DBN, SAE, CNN и Модель обучения RNN. Эти новаторские модели уже привели к некоторому прогрессу. Однако эти модели все еще находятся на предварительной стадии, поэтому проблемы остаются. Прежде всего, в модели глубокого обучения мультимодального слияния данных имеется большое количество свободных весов, особенно избыточных параметров, которые мало влияют на целевую задачу. Чтобы обучить эти параметры, которые отражают характерную структуру данных, большой объем данных вводится в модель глубокого обучения мультимодального объединения данных, основанную на алгоритме обратного распространения ошибки, который требует больших вычислительных ресурсов и отнимает много времени. Поэтому разработка новых мультимодальных методов сжатия глубокого обучения в сочетании с существующими стратегиями сжатия также является потенциальным направлением исследований. #2.2 Стековый автоэнкодер (SAE)
##2.3 Сверточная нейронная сеть (CNN)
#2.4 Рекуррентная нейронная сеть (RNN)
#3. Глубокое обучение для мультимодального объединения данных
#3.1 Сетевое мультимодальное объединение данных с глубоким доверием
#3.1.1 Пример 1
3.1.2 Пример 2
3.1.3 Пример 3
3.1.4 Резюме
3.2 Мультимодальное объединение данных на основе составных автоэнкодеров
3.2.1 Пример 4
3.3 Мультимодальное объединение данных на основе сверточной нейронной сети
3.3.1 Пример 6
3.3.2 Пример 7
3.3.3 Резюме
3.4 Мультимодальное объединение данных на основе рекуррентной нейронной сети
3.4.1 Пример 8
##3.4.2 Пример 9
3.4.3 Резюме
#4. Резюме и перспективы
以上が完成度高すぎ!マルチモーダルディープラーニングのレビュー!の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。