ホームページ >テクノロジー周辺機器 >AI >マルチモーダル リモート センシング大型モデルの探索と実践、Ant Group のリモート センシング大型モデル責任者、Wang Jian が詳細な解釈をもたらします
7月5日、世界人工知能会議組織委員会事務局と上海市徐匯区人民政府の指導の下、2024年WAIC雲帆賞および人工知能コンテストが上海人工知能研究所、当サイト、およびグローバル大学人工知能学術同盟、インテリジェント・ユース・フォーラムが無事開催されました。このフォーラムには、スタンフォード大学、オックスフォード大学、UCLA、カリフォルニア大学、チューリッヒ工科大学、香港大学、清華大学、北京大学など、国内外の大学、研究機関、企業からの30人以上のユンファン卒業生と新規卒業生が集まりました。 、上海交通大学などの受賞者はオフラインで会議に出席し、国際的な若手AI科学者の知恵を集め、AI能力の限界を積極的に探求し、中国のAI開発青写真に新たなエネルギーを貢献した。 Ant Groupのリモートセンシング大型モデルの責任者であるWang Jianzuo氏は、2024 WAIC Yunfan Awardの代表者の1人として、「マルチモーダルリモートセンシング大型モデルの探求と実践」と題したフォーラムで基調講演を行った。
Wang Jian 氏は、リモート センシング大型モデル開発の機会と業界の現在の進歩を要約し、Ant Bailing 大型モデルに基づいて Ant Group が開発した 20 億パラメータのマルチモーダル リモート センシング モデル SkySense を共有しました。プラットフォーム、および SkySense のオープンソース計画。データ、モデル アーキテクチャ、教師なし事前トレーニング アルゴリズムの技術革新を通じて、SkySense は、土地利用監視や地表特徴変化検出など、7 つの一般的なリモート センシング センシング タスクの 17 件の評価で 1 位にランクされました。同時に、Wang Jian 氏は、農村金融、アリの森森林保護、その他のシナリオにおける SkySense の応用についても紹介しました。
以下は王建氏の演説の書き起こしです:
皆さん、こんにちは!私はAnt GroupのWang Jianです。 Yunfan Award Forum で、マルチモーダル リモート センシング大型モデルに向けた Ant Group の探求と実践を共有できることを非常にうれしく思います。 私の共有は次の 3 つの側面から始まります。1 つ目は研究の背景、2 つ目は Ant Group が開発したマルチモーダル リモート センシング大型モデル SkySense、そして 3 つ目は SkySense に基づくアプリケーションです。
大規模モデルの出現により、生成人工知能は急速に発展しましたが、産業界では、大規模な応用にはまだ程遠い状況です。大規模モデルの出現により、AI の新しい世界への扉が開かれましたが、私たちは、大規模モデルに基づく革新的なアプリケーションを何千もの業界に深く統合し、生産性の変化を実現することによってのみ、新しい AI パラダイムの本質的な価値を真に発揮できると信じています。解放されました。このような考えのもと、アント グループでは大型モデルのテクノロジーやアプリケーションの展開を積極的に行っています。
基本的な機能の面では、Wanka クラスター コンピューティング システムを構築し、大規模モデルのセキュリティと知識に重点を置いています。まずセキュリティの面では、Ant Group は独自の Ant Tianjian プラットフォームを開発し、大規模モデルのセキュリティのための統合ソリューションを提供し、Ant Group の大規模モデルの安全性と信頼性を確保しています。基本的な機能に加えて、Bailing 言語ラージ モデルと Bailing マルチモーダルラージ モデルを構築しました。これら 2 つの基本的なラージ モデルに基づいて、アント グループのビジネスの特性に応じて、金融におけるラージ モデルの適用に重点を置いています。 、医療、人々の生活、セキュリティ、リモートセンシング、コーディングおよびその他の産業におけるアプリケーションを消費者や企業顧客に提供し、それによって信頼できるインテリジェンスおよびサービス産業の発展を促進します。システム全体はまだ非常に大規模です。次に、リモート センシングにおける大規模モデルの応用を入り口として、大規模モデルの分野全体における私たちの考えと実践のいくつかを共有します。
言語および視覚的な大規模モデルの開発は、大規模なリモート センシング モデルの開発に多くの重要な参考資料を提供します。たとえば、大規模な言語モデルをマルチモーダル フィールドに拡張すると、OCR、VQA、その他のタスクなど、以前のいくつかのビジュアル タスクで良好な結果が得られました。純粋な視覚的な大規模モデルに関しては、SAM のようなアルゴリズムは、分類、検出、およびセグメンテーションのタスクにおいて優れたパフォーマンスを示します。リモート センシングの分野で解決される主なタスクも、分類、検出、セグメンテーションです。大規模なビジュアル モデルの成功体験をリモート センシングの分野に適用するのが自然な考え方です。
その一方で、リモートセンシング技術の急速な発展に伴い、リモートセンシングの分野では、より自然画像に近い可視光画像やマルチスペクトルデータなど、大量の多時間リモートセンシングデータが生成され続けています。より多くのスペクトル情報やレーダー SAR 画像を使用すると、これらのデータはさまざまな衛星やさまざまなセンサーから取得され、さまざまなモードのデータとみなすことができます。これらのデータにはラベルが付けられておらず、これらのデータのラベル付けには時間と労力がかかるだけでなく、多くの場合、専門家の経験に頼らなければ行うことができません。教師なしアルゴリズムの助けを借りてのみ、これらのデータの価値を最大限に活用できます。近年、欧州宇宙機関の Copernicus プラットフォーム、Google の GEE プラットフォーム、中国資源衛星センターのデータ プラットフォームなど、リモート センシング画像データを取得するための多くのチャネルが業界に登場しています。これらのプラットフォームはすべて、リモート センシング画像データを取得するのに便利です。センシングデータ。要約すると、リモート センシングの分野には入手しやすいデータが数多くあり、大規模なビジュアル モデルの成功体験と組み合わせることで、これらの要素が大規模なリモート センシング モデルの開発に良い機会と動機を提供します。 。
この写真は近年発売された大型リモートセンシングモデルです。ご覧のとおり、業界は 2021 年から、SeCo のようなモデルを含むリモート センシング画像認識に教師なし事前トレーニング アルゴリズムを使用してきました。その後、参加する企業や機関が増え、2022年に中国科学院航空宇宙研究所が発表したRingMoモデル、2023年にSatlasモデル、GRAFTモデルなど代表作が数多くある。復旦大学から少し前に発表されました。この図には、モデル データとパラメーターの規模がますます大きくなり、パフォーマンスがますます強化されているという明らかな傾向も見られます。シングルモーダル データの初期のサポートから現在のマルチモーダル データの融合まで、単一データ ソースからの画像の初期のサポートから複数のデータ ソースからの画像の融合まで、初期の 1 つのデータ ソースのみのサポートから単一の静的画像を解釈して、時系列画像全体の情報を融合します。全体の傾向は、大規模な言語および視覚モデルの開発傾向と一致しており、将来的には、より強力なパフォーマンスとより多くのパラメーターを備えた大規模なリモート センシング モデルが確実に登場することが予測されます。
アリの話に戻りますが、なぜアリは大きなリモートセンシングモデルを作るのでしょうか?なぜなら、アントは多くの金融事業を抱えており、そのうちの1つが農村金融です。金融業界で何が一番難しいかと問われれば、99%の人が農村金融が一番難しいと答えると思います。農村金融の主な顧客は農家であり、企業のホワイトカラーとは異なり、農家は優れた信用データを持っています。中小企業や零細企業の経営者と比較して、農家には銀行が認める担保が不足しています。さらに、銀行は地方に支店をほとんど持たず、農家の資産を把握するための大規模なオフライン調査を実施できません。この背後にある主な問題点は、農家の主要資産である土地の価値を大規模にデジタル化できないことです。
この問題点に対応して、アントのオンラインマーチャントバンクは、2019年に衛星リモートセンシングとAI画像認識を使用した資産評価システムを開発しました。具体的には、人工知能アルゴリズムと組み合わせた衛星リモートセンシング画像を使用して、どの作物が農家に植えられているかを識別します。作物の大きさや良否などの情報をもとに、農家の作付状況を総合的に分析し、資産価値を判断し、信用サービスを提供します。初期の頃は、主に米、トウモロコシ、小麦などの主食用作物の特定に重点を置き、何百万もの農家にサービスを提供していました。
このシステムをリンゴや柑橘類などの換金作物に適用すると、識別においていくつかの問題が発生します。なぜなら、換金作物は主食用作物に比べてまばらに植えられ、その作付け方法も多様であり、そのカテゴリーは非常に長いものであるためです。たとえば、主食用作物は数種類しかありませんが、その種類は数十種類あります。換金作物は全国的に非常に多くの種類があるため、リモートセンシングの分野では、作物の種類を特定するのは難しい問題です。技術的な観点から見ると、少数サンプル学習、マルチモーダル逐次アルゴリズム、およびユニバーサル表現を使用してモデルの汎化パフォーマンスを向上させることで、モデルの効果を向上させることができます。これらの技術的特徴はまさに基本モデルの特性であるため、この場合、私たちは大規模なリモートセンシングモデルを開発することにしました。
以下は、Ant Group が大規模なリモート センシング モデルを構築する機会と動機をまとめたものです。
技術レベルでは、基本モデルの技術は急速に発展しており、現在では商品化の可能性があります。データ レベルでは、リモート センシングの分野には大量のリモート センシング データがあり、大規模なリモート センシング モデル開発の基礎となります。ビジネス レベルでは、Ant のマルチモーダル、マルチシーケンシャル、マルチタスクのシナリオのニーズを満たすことができます。これらの要因を原動力として、Ant Group と武漢大学リモート センシング学院は、マルチモーダル リモート センシング ビッグデータ SkySense を開発しました。
このモデルをトレーニングするために、世界中に配布された 2,150 万セットのサンプルを収集しました。各サンプル セットには、高解像度の光学画像、時系列光学画像、およびレーダー SAR 画像が含まれています。これらのデータは世界中の 40 以上の国と地域をカバーしており、878 万平方キロメートルの土地と 300 TB をカバーしています。
モデル構造に関しては、異なるモダリティからの情報をより適切に統合するために、多粒度の対比学習方法を設計し、リモートセンシング画像の特性に基づいた時空間知覚埋め込みアルゴリズムを提案しました。これらは、基本的なリモート センシング モデルのパフォーマンスを向上させるのに非常に役立ちます。
リモートセンシングの分野には、通常、リモートセンシング画像全体が非常に大きく、それを同時にトレーニングのためにGPUに入れる方法がないという別の特徴があります。ビデオ メモリの GPU に合わせて、リモート センシング画像全体を小さな断片に分割します。これに関する明らかな問題は、トレーニングの小さなパッチごとにコンテキスト情報が失われることです。この状況に対応して、私たちは、時空間に敏感な地球科学の知識を暗黙的に生成できる地理空間に敏感なコンテキスト学習アルゴリズムも開発しました。
現在、SkySense のパラメータスケールは 20 億 6,000 万に達しています。モデルのトレーニング方法に関しては、一般的に使用されている教師なし対比学習の事前トレーニング方法に加えて、空間を介して高解像度の光学系を組み合わせることも提案しました。リモートセンシング画像の特性に基づく時間デカップリング、時系列光学、時系列SARおよびその他のデータチャネルの相互教師あり学習および生成学習手法により、さまざまなモダリティおよびさまざまな時系列の組み合わせの下流リモートセンシング解釈タスクを柔軟にサポートします。現在、SkySenseは土地の監視と利用、目標検出など17種類の評価データセットで良好な成績を収めており、CVPR2024(コンピュータビジョンとパターン認識に関するIEEE国際会議)に関連論文が掲載されています。
このモデルのトレーニングには、ストレージ、コンピューティング能力、人材への多大な投資が必要です。私たちは、SkySense を業界と共有して、その価値を解き放ち、リモート センシング解釈の分野全体の発展を促進したいと強く望んでいます。今年6月15日、一部の科学研究機関向けに大規模リモートセンシングモデルの試行を開始した。使用プロセス中に、誰もが多くのフィードバックも受け取りました。たとえば、20 億個のパラメーターは大きすぎる、多くのシナリオではそのような大きなパラメーターを持つモデルは必要ないというフィードバックもありました。この状況に対応して、1 回の事前トレーニングで複数のサイズの小さなモデルを生成できる一連のアルゴリズムを開発しました。各小さなモデルについて、このサイズのモデルを直接トレーニングするよりも優れた効果が得られます。
実際の産業用途では、モデルの重量パラメータだけでは十分ではありません。大型モデルの価値を真に引き出すには、マッチングするデータ システムと製品システムも必要です。これが Ant Group のリモート センシング テクノロジーの全体像です。データ レベルでは、大規模なリモート センシング モデルの効率的なトレーニングと推論をサポートするために、さまざまなモダリティとソースのデータを管理するための時空間データベースを開発しました。さらに、当社は武漢大学リモートセンシング学部と協力して国内リモートセンシングデータ前処理システムを開発し、写真測量とリモートセンシング技術の統合を通じて国内データの品質を大幅に向上させました。製品面では、データ資産管理、データ生成と処理、モデルトレーニング、ビジネスアプリケーション機能をワンストップで実行できるmEarthインテリジェントリモートセンシングワークベンチを開発し、さまざまなダウンストリームアプリケーションシナリオを効率的かつ柔軟にサポートします。 。 アクセス。
次に、SkySenseの応用実践をシェアします。前述の農村財政シナリオでは、衛星リモートセンシングやリモートセンシング大型モデル認識により、作物の時期ごとの種類や病気、害虫の影響の有無などの情報を正確に特定し、分析することができます。作物がどのような成長サイクルにあるかを把握し、さまざまな成長サイクルに応じて多様な金融サービスをマッチングすることで、農家により良い信用サポートを提供します。
アリの森は 4 億 7,500 万本の木を植え、4,800 平方キロメートルの社会福祉保護区を保護しています。これほど多くの森林を保護するには、技術的手段を使用する必要があります。私たちは、衛星リモートセンシングとドローン航空写真をリモートセンシングによる大型モデル認識と組み合わせて使用し、アリの森の状態を効率的に監視し、デジタル生態学的保護と回復を達成します。
二酸化炭素吸収源の計算と測定は、ESGの分野において非常に重要なテーマです。現在の二酸化炭素吸収源の計算は手作業に大きく依存しており、これが衛星遠隔取引の発展を妨げています。一連のゼロ労働計算を開発するためのセンシング技術と大規模モデル技術を活用し、人工介入による炭素吸収源システム計画の介入または削減を行い、森林面積変化モニタリングおよびバイオマス増加推定システムの開発を試みます。
これは森林保護プロジェクトで行われており、リモートセンシングの大型モデルを使用して、自然風化の変化検出と人為的破壊の変化の検出をサポートし、それによって大規模な森林の定期的な監視と保護を実現します。
これは、大型リモートセンシングモデルを使用して吉林省四平市の主食作物を識別した結果です。比較的複雑な植栽条件を持つこの地域でも、大型リモートセンシングモデルが正確な識別を行うことができることがわかります。ピクセルレベルで。
산시성 뤄추안(Luochuan)에 위치한 이 지역은 지형 구조가 복잡하여 SkySense의 사과 재배 식별 정확도가 95% 이상에 달합니다.
동시에 SkySense를 사용하여 전 세계 지역의 야간 조명 데이터를 분석하여 다양한 지역의 경제 활동을 보여주었습니다. 상하이 지역 경제가 매우 활발하다는 것은 분명합니다.
위 내용은 제가 공유한 내용입니다. 모두들 감사합니다!
以上がマルチモーダル リモート センシング大型モデルの探索と実践、Ant Group のリモート センシング大型モデル責任者、Wang Jian が詳細な解釈をもたらしますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。