ホームページ > 記事 > テクノロジー周辺機器 > マイクロソフトの勝利です!数十億のテキストと画像のペアのトレーニング、マルチモーダル Florence が無料トライアルを開始、Azure で利用可能
2021 年 11 月、Microsoft はマルチモーダル ビジョンの基本モデル Florence (Florence) をリリースしました。これは 40 以上のベンチマーク タスクを網羅し、分類、ターゲット検出、VQA、写真による会話、ビデオ検索、およびアクション認識に簡単に適用できました。複数のタスクを待ちます。
1 年半後、フローレンスは正式に商業段階を開始しました。
最近、マイクロソフト グローバル人工知能最高技術責任者の黄雪東氏は、マイクロソフトの Florence 基本モデルのパブリック プレビュー バージョンを正式に発表しました。
Florence モデルは、数十億のテキストと画像のペアでトレーニングされ、Azure コグニティブ ビジョン サービスに統合されており、「価格」と「パフォーマンス」の点で「運用環境」の要件に達しています。現在、無料トライアル段階です。
改善されたビジョン サービスにより、開発者は、さまざまな業界にわたって、市場に即応した責任ある最先端のコンピュータ ビジョン アプリケーションを作成できるようになります。お客様は、データをシームレスにデジタル化、分析し、自然言語インタラクションに接続することで、画像やビデオのコンテンツからより正確な情報を導き出し、有害なコンテンツからユーザーを保護し、セキュリティを強化し、インシデント対応を迅速化することができます。
Florence の実際の機能も非常に強力で、ユーザーは Vision Studio で「すぐに使える」機能を体験できます。
エクスペリエンス URL: https://portal.vision.cognitive.azure.com/gallery/featured
具体的な内容:
高密度キャプション: デジタル コンテンツをサポートするために、豊富な説明、デザインの提案、アクセス可能な代替テキスト、検索エンジンの最適化、スマートな写真管理などを自動的に提供します。
画像の取得: 自然言語クエリを使用して画像とテキストの類似性をシームレスに測定し、検索の推奨事項と広告を改善します。
背景の削除: 人物や物体を元の背景から簡単に分離し、他の背景シーンに置き換えることで、画像の外観と雰囲気を変えることができます。
モデルのカスタマイズ: 使用可能なイメージが少数であっても、独自のビジネス ニーズに高い精度で適合できるカスタム モデルを提供するコストと時間を削減します。
ビデオの概要: 人間と同じ直感的な方法でビデオ コンテンツを検索して操作し、考えたり書いたりできます。関連するコンテンツの検索に役立ち、追加のメタデータは必要ありません。
Reddit コンシューマー製品プロダクト マネージャーの Tiffany Ong 氏は、Microsoft の Vision テクノロジを通じて、ユーザーが Reddit 上のコンテンツを見つけて理解することが容易になると述べました。
新しく作成された画像の説明により、ユーザーは Reddit にアクセスしやすくなり、画像の説明を使用して記事の検索結果が向上し、Reddit ユーザーがサイト上の画像を探索したり、会話に参加したり、最終的にはつながりを構築したりする機会が増えます。コミュニティの感覚。
Florence の画像ごとに最大 10,000 個のタグを生成できるため、Reddit は画像内のオブジェクトの数をより詳細に制御できるようになり、より適切な画像説明を生成するのに役立ちます。
Microsoft 365
Microsoft データ センターに加えて、Microsoft は Microsoft 365 アプリケーション (Teams、PowerPoint、Outlook、Word、Designer、OneDrive など) ビジョン サービスも改善しています。能力。
画像セグメンテーション機能の助けを借りて、Teams はデジタル スペースでのイノベーションを推進し、仮想会議エクスペリエンスを新たな高みに引き上げています。
PowerPoint、Outlook、Word では、テキストを自動的に置き換える画像の説明によりアクセシビリティが向上します。
Microsoft Designer と OneDrive は、画像の説明、画像検索、背景生成を改善することで、画像の検索と編集を簡素化しています。
Microsoft データ センターは、ビジョン サービスを活用してセキュリティとインフラストラクチャの信頼性を強化しています。
LinkedIn のアクセシビリティ エンジニアリング ディレクターであるジェニソン アスンコン氏は、LinkedIn の投稿の 40% 以上に少なくとも 1 つの画像が含まれており、これは特に重要であると述べています。視覚障害者または低所得者 晴眼者の場合、視覚サービスはすべてのユーザーに平等に読書へのアクセスを提供し、オンライン会話に参加できるようにします。
Azure Visual Cognitive Service を使用すると、LinkedIn は画像説明の自動編集と代替テキストのサポートを提供できます。これは新しいエクスペリエンスです。
私がこれに興奮しているだけでなく、同僚がイベントに参加している自分たちの写真を共有しました。その写真には LinkedIn CEO の Ryan Roslansky が写っていました。
責任あるイノベーションを行う
責任ある人工知能の原則を確認して、マイクロソフトが世界のアクセシビリティを向上させる人工知能システムの開発にどのように取り組んでいるかを学びましょう。
マイクロソフトは、組織が人工知能を最大限に活用できるよう支援することに尽力しており、より持続可能でより良い世界の構築に取り組む人々を支援するテクノロジー、リソース、専門知識を提供するプロジェクトに多額の投資を行っています。 . 人間の能力の世界へのより安全かつ簡単なアクセス。
Microsoft や Google を含む多くの大手テクノロジー企業は、人工知能の開発方向に関して驚くほど一貫しており、「マルチモーダル モデル」が人工知能を向上させる鍵であると信じています。機能を実現するための最良の方法は、単一のモデルが言語、画像、ビデオ、オーディオを同時に理解でき、ビデオへのテキスト説明の追加など、単一モーダル モデルでは完了できないタスクを完了できることです。
画像を理解するために 1 つのモデルを使用し、言語を理解するために別のモデルを使用するなど、同じ目的を達成するために複数の「シングルモーダル」モデルをつなぎ合わせてみてはいかがでしょうか?
最初の理由は、他のモダリティによって提供される背景情報を利用すると、状況によってはマルチモーダル モデルの方が同じタスクでシングルモーダル モデルよりも優れたパフォーマンスを発揮できるためです。
たとえば、画像、価格データ、購入履歴を理解する AI アシスタントは、「価格データだけを理解する」AI よりも、より適切にパーソナライズされた製品の推奨を提供できます。
そして、計算の観点から見ると、マルチモーダル モデルは多くの場合より効率的であり、データ処理の速度を向上させ、バックエンドのコストを削減できます。
どの事業会社もコスト削減と効率化に熱心であることは間違いありません。
Florence は、画像、ビデオ、言語、およびこれらのモダリティ間の関係を理解できるため、画像とテキストの類似性の測定、セグメント化など、単一のモダリティでは完了できないいくつかのタスクを実行できます。写真オブジェクトを選択し、別の背景に貼り付けます。
ほぼすべての AI モデル トレーニングは、データ著作権の問題に直面しています。Azure AI のコーポレート バイス プレジデント (CVP) であるジョン モンゴメリー氏は、「フローレンスのトレーニング データ」については、多くの情報を明らかにせず、フローレンスがそれを使用したとだけ述べました。は、パートナーからのデータを含む「責任を持って取得した」データソースであり、さらにモンゴメリ氏は、潜在的に問題のあるコンテンツがトレーニングデータから削除されており、これは公開トレーニングデータセットの共通の特徴でもあると述べた。
Montgomery は、大規模なベース モデルを使用する場合、最も重要なことはトレーニング データ セットの品質を確保し、各ビジョンに適応するモデルの基礎を作成することであると考えています。各ビジョン タスクに合わせて調整されたモデルは、公平性、敵対的、困難なケースについてテストされ、Azure Open AI Service および DALL-E と同じコンテンツ モデレーション サービスを実装します。
将来的には、消費者はフローレンスを使用して、製造プロセスの欠陥を検出したり、小売店でのセルフチェックアウトを可能にしたりするなど、さらに多くのことを実行できるようになります。
ただし、モンゴメリ氏は、これらのユースケースでは実際にはマルチモーダル ビジョン モデルは必要ないと指摘していますが、マルチモーダルによってプロセスに価値のある何かが追加される可能性があると主張しています。
Florence は、画像とテキストの間でシンプルかつ高品質な翻訳プロセスが実現されると、未知の可能性を持つまったく新しい世界を開く「完全に再考された」ビジュアル モデルです。
お客様は、大幅に改善された画像検索を体験し、画像モデルや視覚モデル、言語や音声などの他のモデル タイプをまったく新しいタイプのアプリケーションにトレーニングし、カスタム モデルの品質を簡単に向上させることができます。
以上がマイクロソフトの勝利です!数十億のテキストと画像のペアのトレーニング、マルチモーダル Florence が無料トライアルを開始、Azure で利用可能の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。