太全了！多模態深度學習的綜述！-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

太全了！多模態深度學習的綜述！

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 08, 2024 am 09:10 AM

人工智慧深度學習lsp子網

1.介紹

我們對世界的體驗是多模態的－我們看到物體，聽到聲音，感覺到質地，聞到氣味，嚐到味道。模態是指某個條件發生或經歷的方式，當一個研究問題包含多個模態時，它就具有多模態的特徵。為了讓人工智慧在理解我們周圍的世界方面取得進展，它需要能夠同時解釋這些多模態的訊號。

例如，圖像通常與標籤和文字解釋相關聯，文字包含圖像，以更清楚地表達文章的中心思想。不同的模態具有非常不同的統計特性。這些數據被稱為多模態大數據，包含豐富的多模態和跨模態訊息，對傳統的數據融合方法提出了巨大的挑戰。

在這篇綜述中，我們會介紹一些開創性的深度學習模型來融合這些多模態大數據。隨著對多模態大數據的探索越來越多，仍有一些挑戰需要解決。因此，本文對多模態資料融合的深度學習進行了綜述，旨在為讀者（無論其原始社區如何）提供多模態深度學習融合方法的基本原理，並激發深度學習的新型多模態資料融合技術。

太全了！多模態深度學習的綜述！

透過多模態深度學習，結合不同的模態或資訊類型來提高效果，從直觀上看是一項很有吸引力的任務，但在實踐中，如何結合不同的噪音水平和模態之間的衝突是一個挑戰。此外，模型對預測結果有不同的定量影響。在實務上最常見的方法是將不同輸入的進階嵌入連接起來，然後套用softmax。

太全了！多模態深度學習的綜述！

這種方法的問題是，它將給予所有子網路/模式同等的重要性，這在現實情況中是非常不可能的。這裡需要採用子網路的加權組合，以便每個輸入模態可以對輸出預測有一個學習貢獻(Theta)。

太全了！多模態深度學習的綜述！

2.具代表性的深度學習架構

在本節中，我們將介紹多模態資料融合深度學習模型的代表性深度學習架構。具體而言，給出了深度架構的定義、前饋運算和反向傳播運算，以及典型的變體。總結了代表性模型。

表1：代表性深度學習模型摘要。

太全了！多模態深度學習的綜述！

2.1 深度信念網路（DBN）

限制玻爾茲曼機（RBM）是深度信念網路的基本區塊（Zhang, Ding, Zhang, & Xue, 2018; Bengio, 2009年）。 RBM是玻爾茲曼機的特殊變體（見圖1），它由可見層和隱藏層組成；可見層和隱藏層之間存在全連接，但是同一層內的單元之間沒有連接。 RBM也是一種生成模型，它使用能量函數來捕捉可見單元和隱藏單元之間的機率分佈。透過使用能量函數的導數，可以計算可見單元與隱藏單元之間單元的機率分佈。 RBM可以捕捉單一元素和隱藏單元之間的機率分佈。 RBM中的單元之間沒有連接，除了同一層內的單元之間不存在任何連接之外，所有單元都透過全連接連接。 RBM也使用能量函數來計算可見單元和隱藏單元之間的機率分佈。使用RBM的機率函數，可以捕獲單元之間的機率分佈。

最近，有人提出了一些先進的RBM來提高效能。例如，為了避免網路過度擬合，Chen， Zhang， Yeung， and Chen （2017）設計了稀疏玻爾茲曼機，該機基於分層潛在樹學習網路結構。 Ning， Pittman， and Shen （2018）將快速對比發散演算法引入 RBM，其中基於邊界的濾波和 delta 積用於減少計算中的冗餘點積計算。為了保護多維資料的內部結構，Ju et al. （ 2019）提出了張量 RBM，學習隱藏在多維資料中的高階分佈，其中使用張量分解來避免維災難。

DBM は典型的なディープアーキテクチャであり、複数の RBM によってスタックされます (Hinton & Salakhutdinov、2006)。これは、エネルギーを活用して、可視オブジェクトと対応するラベルの間の接合部の分布を捕捉できる、事前トレーニングおよび微調整トレーニング戦略に基づく生成モデルです。事前トレーニングでは、各隠れ層が教師なしポリシーでトレーニングされた RBM として貪欲にモデル化されます。その後、各隠れ層は、教師あり戦略のトレーニングラベルの識別情報を通じてさらにトレーニングされます。 DBN は、データの次元削減、表現学習、セマンティックハッシュなど、多くの分野の問題を解決するために使用されています。代表的な DBM を図 1 に示します。

図 1:

太全了！多模態深度學習的綜述！

##2.2 スタック型オートエンコーダー (SAE)

スタックドオートエンコーダー (SAE) は、エンコーダー/デコーダーアーキテクチャの典型的な深層学習モデルです (Michael、Olivier、Mario、2018; Weng、Lu、Tan、および Zhou、2016)。元の入力を教師なし-教師ありの方法で中間表現に変換することで、入力の簡潔な特徴をキャプチャできます。 SAE は、次元削減 (Wang, Yao, & Zhao, 2016)、画像認識 (Jia, Shao, Li, Zhao, & Fu, 2018)、テキスト分類 (Chen & Zaki, 2017) など、多くの分野で広く使用されています。図 2 は、代表的な SAE を示しています。

図 2:

太全了！多模態深度學習的綜述！

##2.3 畳み込みニューラルネットワーク (CNN)

DBN と SAE は完全に接続されたニューラルネットワークです。どちらのネットワークでも、隠れ層のすべてのニューロンが前の層のすべてのニューロンに接続されており、このトポロジにより多数の接続が作成されます。これらの接続の重みをトレーニングするために、完全に接続されたニューラルネットワークでは、計算集約型の過学習や過小学習を避けるために多数の学習オブジェクトが必要になります。さらに、全結合トポロジでは、ニューロン間に含まれる特徴の位置情報が考慮されません。したがって、完全に接続されたディープニューラルネットワーク (DBN、SAE、およびそのバリアント) は、高次元データ、特に大きな画像や大きな音声データを処理できません。

畳み込みニューラルネットワークは、データのローカルトポロジーを考慮した特別なディープネットワークです (Li、Xia、Du、Lin、& Samat、2017; Sze、Chen、Yang、エマー、2017）。畳み込みニューラルネットワークには、完全に接続されたネットワークと、畳み込み層とプーリング層を含む制約付きネットワークが含まれます。制約付きネットワークでは、畳み込み演算とプーリング演算を使用して、局所的な受容野とパラメーターの削減を実現します。 DBN や SAE と同様、畳み込みニューラルネットワークは確率的勾配降下法アルゴリズムを介してトレーニングされます。医療画像認識 (Maggiori、Tarabalka、Charpiat、および Alliez、2017) および意味論的分析 (Hu、Lu、Li、および Chen、2014) において大きな進歩を遂げました。代表的な CNN を図 3 に示します。

図 3:

太全了！多模態深度學習的綜述！

2.4 リカレントニューラルネットワーク (RNN)

リカレントニューラルネットワークは、シリアルデータを処理するニューラルコンピューティングアーキテクチャです (Martens & Sutskever、2011; Sutskever、Martens、& Hinton、2011)。ディープフォワードアーキテクチャ (DBN、SAE、CNN) とは異なり、入力パターンを出力結果にマッピングするだけでなく、隠れユニット間の接続を利用して隠れた状態を出力に転送します (Graves & Schmidhuber、2008)。これらの隠れた接続を使用することにより、RNN は時間的な依存関係をモデル化し、それによって時間次元のオブジェクト間でパラメーターを共有します。音声分析 (Mulder, Bethard, & Moens, 2015)、画像キャプション (Xu et al., 2015)、言語翻訳 (Graves & Jaitly, 2014) などのさまざまな分野に適用され、優れたパフォーマンスを実現しています。ディープフォワードアーキテクチャと同様に、その計算にはフォワードパスステージとバックプロパゲーションステージも含まれます。フォワードパス計算では、RNN は入力状態と隠れ状態を同時に取得します。バックプロパゲーションの計算では、時間バックプロパゲーションアルゴリズムを使用して、タイムステップの損失をバックプロパゲーションします。図 4 は、代表的な RNN を示しています。

図 4:

太全了！多模態深度學習的綜述！

3. マルチモーダルデータ融合のための深層学習

#このセクションでは、モデルタスク、モデルフレームワーク、評価データセットの観点から、最も代表的なマルチモーダルデータフュージョンディープラーニングモデルをレビューします。これらは、使用される深層学習アーキテクチャに基づいて 4 つのカテゴリに分類されます。表 2 は、代表的なマルチモーダル深層学習モデルをまとめたものです。

表 2:

代表的なマルチモーダル深層学習モデルの概要。

太全了！多模態深度學習的綜述！

3.1 ネットワークベースのディープビリーフマルチモーダルデータフュージョン

3.1.1 例 1

Srivastava と Salakhutdinov (2012) は、さまざまなモダリティ (画像、テキスト、音声など) の共同分布にあるマルチモーダルデータをフィッティングしてマルチモーダル表現を学習することにより、深層ボルツマン学習モデルに基づくマルチモーダル生成モデルを提案しました。

太全了！多模態深度學習的綜述！

提案されたマルチモーダル DBN の各モジュールは、教師なしで層ごとに初期化され、MCMC に基づく近似手法を使用します。モデルトレーニング。

学習されたマルチモーダル表現を評価するために、欠落モダリティタスクの生成、共同表現タスクの推論、識別タスクなど、多数のタスクが実行されます。実験では、学習されたマルチモーダル表現が必要な特性を満たしているかどうかを検証します。

3.1.2 例 2

アルツハイマー病を早期に効果的に診断するために、Suk、Lee、Shen およびアルツハイマー病の神経画像診断Initiative (2014) は、マルチモーダルデータからの補完的な知識を融合できるマルチモーダルボルツマンモデルを提案しました。具体的には、浅い特徴学習方法によって引き起こされる制限に対処するために、DBN を使用して、ドメイン固有の表現を階層的な抽象表現に転送することで、各モダリティの深い表現を学習します。次に、単層 RBM が、各モダリティからの階層的な抽象表現の線形結合である連結ベクトルに基づいて構築されます。これは、さまざまなマルチモーダル特徴の結合分布を構築することによってマルチモーダル表現を学習するために使用されます。最後に、提案されたモデルは 3 つの典型的な診断に基づいて ADNI データセットで広範に評価され、最先端の診断精度が達成されます。

3.1.3 例 3

人間の姿勢を正確に推定するために、Ouyang、Chu、および Wang (2014) はマルチソース深度を設計しました。高次空間における物体パターンの同時分布を抽出することで、混合タイプ、外観スコア、変形モダリティからマルチモーダル表現を学習するモデルを学習します。人間のポーズのマルチソースディープモデルでは、条件付きランダムフィールド理論に基づいて、さまざまな身体部位を組み合わせた画像構造モデルから、広く使用されている 3 つのモダリティが抽出されます。マルチモーダルデータを取得するには、線形サポートベクターマシンを介してグラフィカル構造モデルをトレーニングします。次に、3 つの特徴のそれぞれが 2 層の制限付きボルツマンモデルに入力され、特徴固有の表現から高次姿勢空間の抽象表現が取得されます。教師なし初期化を通じて、各モダリティ固有の制限付きボルツマンモデルは、グローバル空間の固有表現を捕捉します。次に、RBM を使用して、高レベルのブレンドタイプ、外観スコア、変形表現の連結ベクトルに基づいて人間のポーズ表現をさらに学習します。提案されたマルチソース深層学習モデルをトレーニングするために、身体の位置と人間の検出の両方を考慮したタスク固有の目的関数が設計されます。提案されたモデルは LSP、PARSE、UIUC で検証され、最大 8.6% の改善が見られます。

最近、DBN に基づく新しいマルチモーダル特徴学習モデルがいくつか提案されています。たとえば、Amer、Shields、Siddiquie、および Tamrakar (2018) は、条件付き RBM を使用してモーダルおよびクロスモーダル特徴を追加の識別ラベル情報とともに抽出する、逐次イベント検出のためのハイブリッドアプローチを提案しました。 Al-Waisy、Qahwaji、Ipson、および Al-Fahdawi (2018) は、顔認識に対するマルチモーダルアプローチを導入しました。このアプローチでは、DBN ベースのモデルを使用して、カーブレット変換によってキャプチャされたローカルの手作り特徴のマルチモーダル分布をモデル化します。これにより、ローカル特徴と深い特徴の利点を統合できます (Al-Waisy et al.、2018)。

3.1.4 概要

これらの DBN ベースのマルチモーダルモデルは、確率グラフネットワークを使用して、モダリティ固有の表現を空間内の共有セマンティック特徴に変換します。。次に、モダリティにわたる共同分布が、共有空間の特性に基づいてモデル化されます。これらの DBN ベースのマルチモーダルモデルは、教師なし、半教師あり、教師ありの学習戦略において、より柔軟で堅牢です。これらは、入力データの有益な特徴をキャプチャするのに最適です。ただし、マルチモーダルデータの空間的および時間的トポロジーは無視されます。

3.2 スタック型オートエンコーダに基づくマルチモーダルデータ融合

3.2.1 例 4

Ngiam et al マルチモーダル. (2011) によって提案された深層学習は、スタック型オートエンコーダ (SAE) に基づくマルチモーダルデータ融合の最も代表的な深層学習モデルです。この深層学習モデルは、クロスモーダル表現学習と共有モーダル表現学習という 2 つのデータ融合問題を解決することを目的としています。前者は、他のモダリティからの知識を活用してより優れた単一モーダル表現をキャプチャすることを目的とし、後者は中間レベルでモダリティ間の複雑な相関関係を学習します。これらの目標を達成するために、表 3 と図 6 に示すように、マルチモーダル学習、クロスモーダル学習、および共有モーダル学習という 3 つの学習シナリオが設計されています。

図 6:

太全了！多模態深度學習的綜述！マルチモーダル、クロスモーダル、および共有モーダル学習のアーキテクチャ。

表 3: マルチモーダル学習の設定。

太全了！多模態深度學習的綜述！

マルチモーダル学習シナリオでは、オーディオスペクトログラムとビデオフレームが線形にベクトルに接続されます。連結されたベクトルはスパース制限ボルツマンマシン (SRBM) に入力され、オーディオとビデオの相関関係が学習されます。このモデルは、相関関係が元のレベルの高次元表現に暗黙的に含まれており、単層 SRBM ではそれらをモデル化できないため、複数のモダリティのシャドウジョイント表現のみを学習できます。これにヒントを得て、中間レベル表現の連結ベクトルが SRBM に入力されて、複数のモダリティの相関関係がモデル化され、それによってパフォーマンスが向上します。

クロスモーダル学習シナリオでは、モダリティ間の相関関係を明示的に学習するために、ディープスタックされたマルチモーダルオートエンコーダーが提案されています。具体的には、音声とビデオの両方が特徴学習の入力として提示され、教師ありトレーニングとテストではそのうちの 1 つだけがモデルに入力されます。モデルはマルチモーダル学習方式で初期化され、クロスモーダル関係を適切にシミュレートできます。

共有モーダル表現では、ノイズ除去オートエンコーダーによって動機づけられ、モダリティ固有のディープスタックされたマルチモーダルオートエンコーダーが導入され、特に 1 つのモダリティが欠落している場合のモダリティ間の関係を調査します。モダリティの 1 つをゼロに置き換えることによって拡大されたトレーニングデータセットは、特徴学習のためにモデルに入力されます。

最後に、タスク固有の特徴学習におけるマルチモーダル深層学習のパフォーマンスを評価するために、CUAVE および AVLetters データセットに対して詳細な実験が行われます。

3.2.2 例 5

一連の画像 (特にビデオ) から視覚的にも意味的にも有効な人間の骨格を生成するには、Hong Yu、Wan、Tao、および Wang (2015) は、画像とポーズの融合関係をキャプチャするためのマルチモーダルディープオートエンコーダーを提案しました。特に、提案されたマルチモーダルディープオートエンコーダーは、2D 画像と 3D ポーズの間の非線形マッピングを構築するための 3 段階の戦略を通じてトレーニングされます。特徴融合段階では、マルチビューハイパーグラフの低ランク表現を利用して、多様体学習に基づいて一連の画像特徴 (指向性勾配ヒストグラムや形状コンテキストなど) から内部 2D 表現を構築します。第 2 段階では、単層オートエンコーダーがトレーニングされて、2D 画像間の特徴を再構成することで 3D ポーズを復元するために使用される抽象表現を学習します。一方、単層オートエンコーダーは、3D ポーズの抽象表現を学習するために同様の方法でトレーニングされます。各単一モダリティの抽象表現を取得した後、ニューラルネットワークを使用して、2 つのモーダル相互表現間の二乗ユークリッド距離を最小化することにより、2D 画像と 3D ポーズ間のマルチモーダル相関を学習します。提案されたマルチモーダルディープオートエンコーダーの学習は、初期化段階と微調整段階で構成されます。初期化では、マルチモーダルディープオートエンコーダーの各サブパートのパラメーターが、対応するオートエンコーダーとニューラルネットワークからコピーされます。次に、確率的勾配降下法アルゴリズムを通じてモデル全体のパラメーターがさらに微調整され、対応する 2 次元画像から 3 次元のポーズが構築されます。

3.2.3 概要

SAE に基づくマルチモーダルモデルは、エンコーダ/デコーダアーキテクチャを採用し、教師なしの方法で再構築します。このメソッドは、固有のモーダル特徴とクロスモーダル特徴を抽出します。これらは完全接続モデルである SAE に基づいているため、多くのパラメーターをトレーニングする必要があります。さらに、マルチモーダルデータの空間的および時間的トポロジーは無視されます。

3.3 畳み込みニューラルネットワークに基づくマルチモーダルデータ融合

3.3.1 例 6

シミュレーションするにはMa、Lu、Shang、Li (2015) は、画像と文間の意味マッピングの分布を考慮して、マルチモーダル畳み込みニューラルネットワークを提案しました。意味的な関連性を完全に捉えるために、単語レベル、ステージレベル、文レベルの 3 つのレベルの融合戦略がエンドツーエンドのアーキテクチャで設計されています。このアーキテクチャは、イメージングサブネット、マッチングサブネット、およびマルチモーダルサブネットで構成されます。画像サブネットは、Alexnet や Inception などの代表的な深層畳み込みニューラルネットワークであり、画像入力を効率的に簡潔な表現にエンコードします。マッチングサブネットワークは、画像コンテンツを意味空間内の文の単語断片に関連付ける結合表現をモデル化します。

3.3.2 例 7

視覚認識システムを無制限の数の離散カテゴリに拡張するには、Frome et al. (2013)テキストデータの意味情報のために、マルチモーダル畳み込みニューラルネットワークが提案されています。ネットワークは言語サブモデルと視覚サブモデルで構成されます。言語サブモデルはスキップグラムモデルに基づいており、テキスト情報を意味空間の密な表現に転送できます。視覚サブモデルは、Alexnet などの代表的な畳み込みニューラルネットワークであり、視覚特徴をキャプチャするために 1000 クラスの ImageNet データセットで事前トレーニングされています。画像とテキストの間の意味論的な関係をモデル化するために、言語と視覚のサブモデルが線形投影レイヤーを介して結合されます。各サブモデルは、各モダリティのパラメーターを使用して初期化されます。その後、この視覚意味論的マルチモーダルモデルをトレーニングするために、ドット積類似性とヒンジランク損失を組み合わせることにより、正しい画像とラベルのペアに高い類似性スコアを提供できる新しい損失関数が提案されます。このモデルは、ImageNet データセット上で最先端のパフォーマンスを生成し、意味的に信じがたい結果を回避します。

3.3.3 概要

CNN に基づくマルチモーダルモデルは、ローカルフィールドとプーリング操作を通じてモダリティ間の関係を学習できます。これらは、マルチモーダルデータの空間トポロジを明示的にモデル化します。また、パラメータの数が大幅に削減された完全に接続されたモデルではありません。

3.4 リカレントニューラルネットワークに基づくマルチモーダルデータフュージョン

3.4.1 例 8

画像のキャプションを生成するために、Mao et al. (2014) はマルチモーダルリカレントニューラルアーキテクチャを提案しました。このマルチモーダルリカレントニューラルネットワークは、画像と文章の間の確率的な相関関係を橋渡しできます。これは、学習された画像とテキストのマッピングに基づいて文データベース内の対応するキャプションを取得するため、新しい画像キャプションを生成できないという以前の作品の制限に対処します。以前の研究とは異なり、マルチモーダルリカレントニューラルモデル (MRNN) は、単語と画像が与えられた意味空間全体にわたる結合分布を学習します。画像が提示されると、キャプチャされた結合分布に基づいて文章が逐語的に生成されます。具体的には、図 7 に示すように、マルチモーダルリカレントニューラルネットワークは、言語サブネット、ビジュアルサブネット、およびマルチモーダルサブネットで構成されます。言語サブネットワークは、効率的なタスク固有の表現を捕捉する 2 層の単語埋め込み部分と、文の時間的依存をモデル化する 1 層のリカレントニューラル部分で構成されます。ビジョンサブネットは本質的に、Alexnet、Resnet、Inception などの深層畳み込みニューラルネットワークであり、高次元の画像をコンパクトな表現にエンコードします。最後に、マルチモーダルサブネットワークは、学習された言語と視覚表現の共同意味論的分布をモデル化する隠れたネットワークです。

図 7:

太全了！多模態深度學習的綜述！

##3.4.2 例 9

一目で画像の豊富な説明を生成できない現在の視覚認識システムの限界に対処するために、視覚データとテキストデータの間のモーダル間の関係を橋渡しするマルチモーダル位置合わせモデルが提案されています (Karpathy & Li、2017)。これを達成するために、二重スキームが提案されました。まず、視覚的セマンティック埋め込みモデルは、マルチモーダルトレーニングデータセットを生成するように設計されています。次に、このデータセットでマルチモーダル RNN をトレーニングして、画像の豊富な記述を生成します。

視覚的意味埋め込みモデルでは、地域畳み込みニューラルネットワークを使用して、文に対応するコンテンツの十分な情報を含む豊富な画像表現を取得します。次に、双方向 RNN を使用して、各文を画像表現と同じ次元の密なベクトルにエンコードします。さらに、画像と文章の間の意味的類似性を測定するためのマルチモーダルスコアリング関数が提供されます。最後に、マルコフランダム場法を使用してマルチモーダルデータセットを生成します。

マルチモーダル RNN では、テキストコンテンツと画像入力に基づいた、より効果的な拡張モデルが提案されます。マルチモーダルモデルは、画像入力をエンコードする畳み込みニューラルネットワークと、画像の特徴と文章をエンコードする RNN で構成されます。モデルは確率的勾配降下法アルゴリズムによってもトレーニングされます。どちらのマルチモーダルモデルも、Flickr および Mscoco データセットで広範囲に評価され、最先端のパフォーマンスを実現しています。

3.4.3 概要

RNN に基づくマルチモーダルモデルは、隠れた状態の明示的な状態転送を利用して隠れた状態を分析できます。単位計算、マルチモーダルデータの時間依存性。彼らは、パラメータをトレーニングするために時間逆伝播アルゴリズムを使用します。計算は隠れた状態の転送で実行されるため、高性能デバイスでは並列化が困難です。

4. 概要と展望

DBN、SAE、CNN、およびRNN 学習モデル。これらの先駆的なモデルは、すでにある程度の進歩をもたらしています。ただし、これらのモデルはまだ準備段階にあるため、課題が残っています。

まず第一に、マルチモーダルデータ融合深層学習モデルには多数の自由重み、特にターゲットタスクにほとんど影響を与えない冗長パラメーターが存在します。データの特徴的な構造を捉えるこれらのパラメーターをトレーニングするために、バックプロパゲーションアルゴリズムに基づくマルチモーダルデータ融合深層学習モデルに大量のデータが入力されますが、これは計算量と時間がかかります。したがって、既存の圧縮戦略に基づいて新しいマルチモーダルディープラーニング圧縮方法を設計する方法も、潜在的な研究の方向性です。

第二に、マルチモーダルデータには、クロスモーダル情報だけでなく、豊富なクロスモーダル情報も含まれています。したがって、深層学習とセマンティック融合戦略の組み合わせは、マルチモーダルデータの調査によってもたらされる課題に対処する方法となる可能性があります。

3 番目に、動的環境からマルチモーダルデータが収集されており、データが不確実であることがわかります。したがって、動的マルチモーダルデータの爆発的な増加に伴い、データ融合のためのオンラインおよびインクリメンタルマルチモーダル深層学習モデルの設計上の問題を解決する必要があります。

以上是太全了！多模態深度學習的綜述！的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：51CTO.COM。如有侵權，請聯絡admin@php.cn刪除

擁抱面部是否7B型號奧林匹克賽車擊敗克勞德3.7？Apr 23, 2025 am 11:49 AM

擁抱Face的OlympicCoder-7B：強大的開源代碼推理模型開發以代碼為中心的語言模型的競賽正在加劇，擁抱面孔與強大的競爭者一起參加了比賽：OlympicCoder-7B，一種產品

4個新的雙子座功能您可以錯過Apr 23, 2025 am 11:48 AM

你們當中有多少人希望AI可以做更多的事情，而不僅僅是回答問題？我知道我有，最近，我對它的變化感到驚訝。 AI聊天機器人不僅要聊天，還關心創建，研究

Camunda為經紀人AI編排編寫了新的分數Apr 23, 2025 am 11:46 AM

隨著智能AI開始融入企業軟件平台和應用程序的各個層面（我們必須強調的是，既有強大的核心工具，也有一些不太可靠的模擬工具），我們需要一套新的基礎設施能力來管理這些智能體。總部位於德國柏林的流程編排公司Camunda認為，它可以幫助智能AI發揮其應有的作用，並與新的數字工作場所中的準確業務目標和規則保持一致。該公司目前提供智能編排功能，旨在幫助組織建模、部署和管理AI智能體。從實際的軟件工程角度來看，這意味著什麼？確定性與非確定性流程的融合該公司表示，關鍵在於允許用戶（通常是數據科學家、軟件

策劃的企業AI體驗是否有價值？Apr 23, 2025 am 11:45 AM

參加Google Cloud Next '25，我渴望看到Google如何區分其AI產品。有關代理空間（此處討論）和客戶體驗套件（此處討論）的最新公告很有希望，強調了商業價值

如何為抹布找到最佳的多語言嵌入模型？Apr 23, 2025 am 11:44 AM

為您的檢索增強發電（RAG）系統選擇最佳的多語言嵌入模型在當今的相互聯繫的世界中，建立有效的多語言AI系統至關重要。強大的多語言嵌入模型對於RE至關重要

麝香：奧斯汀的機器人需要每10,000英里進行干預Apr 23, 2025 am 11:42 AM

特斯拉的Austin Robotaxi發射：仔細觀察Musk的主張埃隆·馬斯克（Elon Musk）最近宣布，特斯拉即將在德克薩斯州奧斯汀推出的Robotaxi發射，最初出於安全原因部署了一支小型10-20輛汽車，並有快速擴張的計劃。 h

AI震驚的樞軸：從工作工具到數字治療師和生活教練Apr 23, 2025 am 11:41 AM

人工智能的應用方式可能出乎意料。最初，我們很多人可能認為它主要用於代勞創意和技術任務，例如編寫代碼和創作內容。然而，哈佛商業評論最近報導的一項調查表明情況並非如此。大多數用戶尋求人工智能的並非是代勞工作，而是支持、組織，甚至是友誼！報告稱，人工智能應用案例的首位是治療和陪伴。這表明其全天候可用性以及提供匿名、誠實建議和反饋的能力非常有價值。另一方面，營銷任務（例如撰寫博客、創建社交媒體帖子或廣告文案）在流行用途列表中的排名要低得多。這是為什麼呢？讓我們看看研究結果及其對我們人類如何繼續將