ホームページ >テクノロジー周辺機器 >AI >マイクロソフトの勝利です！数十億のテキストと画像のペアのトレーニング、マルチモーダル Florence が無料トライアルを開始、Azure で利用可能

マイクロソフトの勝利です！数十億のテキストと画像のペアのトレーニング、マルチモーダル Florence が無料トライアルを開始、Azure で利用可能

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB転載: 2023-04-15 08:43:021398ブラウズ

2021 年 11 月、Microsoft はマルチモーダルビジョンの基本モデル Florence (Florence) をリリースしました。これは 40 以上のベンチマークタスクを網羅し、分類、ターゲット検出、VQA、写真による会話、ビデオ検索、およびアクション認識に簡単に適用できました。複数のタスクを待ちます。

1 年半後、フローレンスは正式に商業段階を開始しました。

フローレンスには何ができるでしょうか?

最近、マイクロソフトグローバル人工知能最高技術責任者の黄雪東氏は、マイクロソフトの Florence 基本モデルのパブリックプレビューバージョンを正式に発表しました。

Florence モデルは、数十億のテキストと画像のペアでトレーニングされ、Azure コグニティブビジョンサービスに統合されており、「価格」と「パフォーマンス」の点で「運用環境」の要件に達しています。現在、無料トライアル段階です。

マイクロソフトの勝利です！数十億のテキストと画像のペアのトレーニング、マルチモーダル Florence が無料トライアルを開始、Azure で利用可能

改善されたビジョンサービスにより、開発者は、さまざまな業界にわたって、市場に即応した責任ある最先端のコンピュータビジョンアプリケーションを作成できるようになります。お客様は、データをシームレスにデジタル化、分析し、自然言語インタラクションに接続することで、画像やビデオのコンテンツからより正確な情報を導き出し、有害なコンテンツからユーザーを保護し、セキュリティを強化し、インシデント対応を迅速化することができます。

Florence の実際の機能も非常に強力で、ユーザーは Vision Studio で「すぐに使える」機能を体験できます。

マイクロソフトの勝利です！数十億のテキストと画像のペアのトレーニング、マルチモーダル Florence が無料トライアルを開始、Azure で利用可能

エクスペリエンス URL: https://portal.vision.cognitive.azure.com/gallery/featured

具体的な内容:

高密度キャプション: デジタルコンテンツをサポートするために、豊富な説明、デザインの提案、アクセス可能な代替テキスト、検索エンジンの最適化、スマートな写真管理などを自動的に提供します。

画像の取得: 自然言語クエリを使用して画像とテキストの類似性をシームレスに測定し、検索の推奨事項と広告を改善します。

背景の削除: 人物や物体を元の背景から簡単に分離し、他の背景シーンに置き換えることで、画像の外観と雰囲気を変えることができます。

モデルのカスタマイズ: 使用可能なイメージが少数であっても、独自のビジネスニーズに高い精度で適合できるカスタムモデルを提供するコストと時間を削減します。

ビデオの概要: 人間と同じ直感的な方法でビデオコンテンツを検索して操作し、考えたり書いたりできます。関連するコンテンツの検索に役立ち、追加のメタデータは必要ありません。

Reddit

Reddit コンシューマー製品プロダクトマネージャーの Tiffany Ong 氏は、Microsoft の Vision テクノロジを通じて、ユーザーが Reddit 上のコンテンツを見つけて理解することが容易になると述べました。

新しく作成された画像の説明により、ユーザーは Reddit にアクセスしやすくなり、画像の説明を使用して記事の検索結果が向上し、Reddit ユーザーがサイト上の画像を探索したり、会話に参加したり、最終的にはつながりを構築したりする機会が増えます。コミュニティの感覚。

Florence の画像ごとに最大 10,000 個のタグを生成できるため、Reddit は画像内のオブジェクトの数をより詳細に制御できるようになり、より適切な画像説明を生成するのに役立ちます。

Microsoft 365

Microsoft データセンターに加えて、Microsoft は Microsoft 365 アプリケーション (Teams、PowerPoint、Outlook、Word、Designer、OneDrive など) ビジョンサービスも改善しています。能力。

画像セグメンテーション機能の助けを借りて、Teams はデジタルスペースでのイノベーションを推進し、仮想会議エクスペリエンスを新たな高みに引き上げています。

PowerPoint、Outlook、Word では、テキストを自動的に置き換える画像の説明によりアクセシビリティが向上します。

Microsoft Designer と OneDrive は、画像の説明、画像検索、背景生成を改善することで、画像の検索と編集を簡素化しています。

Microsoft データセンターは、ビジョンサービスを活用してセキュリティとインフラストラクチャの信頼性を強化しています。

LinkedIn

LinkedIn のアクセシビリティエンジニアリングディレクターであるジェニソンアスンコン氏は、LinkedIn の投稿の 40% 以上に少なくとも 1 つの画像が含まれており、これは特に重要であると述べています。視覚障害者または低所得者晴眼者の場合、視覚サービスはすべてのユーザーに平等に読書へのアクセスを提供し、オンライン会話に参加できるようにします。

マイクロソフトの勝利です！数十億のテキストと画像のペアのトレーニング、マルチモーダル Florence が無料トライアルを開始、Azure で利用可能

Azure Visual Cognitive Service を使用すると、LinkedIn は画像説明の自動編集と代替テキストのサポートを提供できます。これは新しいエクスペリエンスです。

私がこれに興奮しているだけでなく、同僚がイベントに参加している自分たちの写真を共有しました。その写真には LinkedIn CEO の Ryan Roslansky が写っていました。

責任あるイノベーションを行う

責任ある人工知能の原則を確認して、マイクロソフトが世界のアクセシビリティを向上させる人工知能システムの開発にどのように取り組んでいるかを学びましょう。

マイクロソフトの勝利です！数十億のテキストと画像のペアのトレーニング、マルチモーダル Florence が無料トライアルを開始、Azure で利用可能

マイクロソフトは、組織が人工知能を最大限に活用できるよう支援することに尽力しており、より持続可能でより良い世界の構築に取り組む人々を支援するテクノロジー、リソース、専門知識を提供するプロジェクトに多額の投資を行っています。 . 人間の能力の世界へのより安全かつ簡単なアクセス。

マルチモーダルは未来です

Microsoft や Google を含む多くの大手テクノロジー企業は、人工知能の開発方向に関して驚くほど一貫しており、「マルチモーダルモデル」が人工知能を向上させる鍵であると信じています。機能を実現するための最良の方法は、単一のモデルが言語、画像、ビデオ、オーディオを同時に理解でき、ビデオへのテキスト説明の追加など、単一モーダルモデルでは完了できないタスクを完了できることです。

マイクロソフトの勝利です！数十億のテキストと画像のペアのトレーニング、マルチモーダル Florence が無料トライアルを開始、Azure で利用可能

画像を理解するために 1 つのモデルを使用し、言語を理解するために別のモデルを使用するなど、同じ目的を達成するために複数の「シングルモーダル」モデルをつなぎ合わせてみてはいかがでしょうか?

最初の理由は、他のモダリティによって提供される背景情報を利用すると、状況によってはマルチモーダルモデルの方が同じタスクでシングルモーダルモデルよりも優れたパフォーマンスを発揮できるためです。

たとえば、画像、価格データ、購入履歴を理解する AI アシスタントは、「価格データだけを理解する」AI よりも、より適切にパーソナライズされた製品の推奨を提供できます。

そして、計算の観点から見ると、マルチモーダルモデルは多くの場合より効率的であり、データ処理の速度を向上させ、バックエンドのコストを削減できます。

どの事業会社もコスト削減と効率化に熱心であることは間違いありません。

Florence は、画像、ビデオ、言語、およびこれらのモダリティ間の関係を理解できるため、画像とテキストの類似性の測定、セグメント化など、単一のモダリティでは完了できないいくつかのタスクを実行できます。写真オブジェクトを選択し、別の背景に貼り付けます。

ほぼすべての AI モデルトレーニングは、データ著作権の問題に直面しています。Azure AI のコーポレートバイスプレジデント (CVP) であるジョンモンゴメリー氏は、「フローレンスのトレーニングデータ」については、多くの情報を明らかにせず、フローレンスがそれを使用したとだけ述べました。は、パートナーからのデータを含む「責任を持って取得した」データソースであり、さらにモンゴメリ氏は、潜在的に問題のあるコンテンツがトレーニングデータから削除されており、これは公開トレーニングデータセットの共通の特徴でもあると述べた。

マイクロソフトの勝利です！数十億のテキストと画像のペアのトレーニング、マルチモーダル Florence が無料トライアルを開始、Azure で利用可能

Montgomery は、大規模なベースモデルを使用する場合、最も重要なことはトレーニングデータセットの品質を確保し、各ビジョンに適応するモデルの基礎を作成することであると考えています。各ビジョンタスクに合わせて調整されたモデルは、公平性、敵対的、困難なケースについてテストされ、Azure Open AI Service および DALL-E と同じコンテンツモデレーションサービスを実装します。

将来的には、消費者はフローレンスを使用して、製造プロセスの欠陥を検出したり、小売店でのセルフチェックアウトを可能にしたりするなど、さらに多くのことを実行できるようになります。

ただし、モンゴメリ氏は、これらのユースケースでは実際にはマルチモーダルビジョンモデルは必要ないと指摘していますが、マルチモーダルによってプロセスに価値のある何かが追加される可能性があると主張しています。

Florence は、画像とテキストの間でシンプルかつ高品質な翻訳プロセスが実現されると、未知の可能性を持つまったく新しい世界を開く「完全に再考された」ビジュアルモデルです。

お客様は、大幅に改善された画像検索を体験し、画像モデルや視覚モデル、言語や音声などの他のモデルタイプをまったく新しいタイプのアプリケーションにトレーニングし、カスタムモデルの品質を簡単に向上させることができます。

以上がマイクロソフトの勝利です！数十億のテキストと画像のペアのトレーニング、マルチモーダル Florence が無料トライアルを開始、Azure で利用可能の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

对象事件人工智能 https microsoft azure 搜索引擎数据中心 powerpoint outlook onedrive word

声明：

この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

前の記事：人材の英知を結集してバグイAI産業を活性化～第2回広西チワン族自治区人工知能コンテスト優勝チーム独占インタビュー～次の記事：人材の英知を結集してバグイAI産業を活性化～第2回広西チワン族自治区人工知能コンテスト優勝チーム独占インタビュー～

続きを見る